自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 特征工程全集

       本次主要介绍特征选择、特征表达、特征预处理,这些统称为特征工程。特征工程是数据分析中最耗时间和精力的一部分工作,主要靠业务上的经验和权衡并没有统一的方法,这里只是对一些常用的方法做一个思维导图总结。...

2019-06-27 11:36:44 240

原创 支持向量机详解之——系列3

        上篇文章已经讲解超平面和间隔最大化,本次将继续讲解SVM的数学推理和核函数部分。首先,大概介绍一下SVM:SVM(support vector machines,支持向量机)是机器学习算法里面非常重要的一个二分类模型SVM的基本模型是定义在特征空间上的间隔最大化的线性分类器,间隔最大化使之有别于感知机SVM属于判别模型,可分为线性分类...

2019-06-21 14:41:50 386

原创 支持向量机详解之——系列2

SVM(support vector machines,支持向量机)是机器学习算法里面非常重要的一个二分类模型SVM的基本模型是定义在特征空间上的间隔最大化的线性分类器,间隔最大化使之有别于感知机SVM属于判别模型,可分为线性分类模型、非线性分类模型SVM学习策略: 间隔最大化,等价于正则化的合页损失函数最小化SVM算法: 求解一个凸二次规划最优化算法问题SVM的分类:线性可分支持...

2019-06-18 19:27:49 502

原创 支持向量机详解之——系列1

SVM(support vector machines,支持向量机)是机器学习算法里面非常重要的一个二分类模型。一、预备知识:深入理解超平面通俗理解就是要在两类样本点之间找一条直线(超平面)来将两类样本点分开,存在多条划分直线(超平面),那么如何求得这些直线(超平面),并且选出使划分效果最好的,如何做呢?如上图,这两类样本之间存在多条直线可以划分,对于此问题,只需要找到两个类中离得最近的样...

2019-06-17 23:36:30 372

原创 数据分析及数据科学必备技能之——matplotlib使用

matplotlib

2019-04-19 18:12:32 667

原创 【逻辑回归】—— Logistic回归原理小结

逻辑回归:Logistic Regression(LR)逻辑回归是一个经典的分类算法,并不是一个回归算法,它可以处理二元分类以及多元分类,个人认为由于逻辑回归的原理是由回归模型的演变而来的,因此含有“回归”二字,而逻辑回归与线性回归同属于广义线性模型种的一类。广义线性模型分类:根据因变量不同,常分为以下几类:因变量是连续的:多元线性回归因变量是二项分布:Logistic回归因变量是P...

2019-03-16 18:13:47 2477 1

原创 【朴素贝叶斯】Part2——Python实现朴素贝叶斯算法

输入数据

2019-03-12 14:21:36 353

原创 【朴素贝叶斯】Part1——朴素贝叶斯基本原理

1. 概率论基本知识回顾(1)条件概率:设A,B是两个事件,且P(A)>0,称 P(B∣A)=P(AB)P(A)P(B|A) = \frac {P(AB)}{P(A)}P(B∣A)=P(A)P(AB)​ 为在事件A发生的条件下事件B发生的概率。(2)乘法定理:设P(A)>0,称 P(AB)=P(B∣A)P(A)P(AB) = {P

2019-02-22 14:48:06 909

原创 数据分析与数据科学必备技能之——Pandas使用(二)

本次介绍 Pandas 总结归纳的8节至15节内容文章目录本次介绍 Pandas 总结归纳的8节至15节内容8. Pandas分组(GroupBy)9. Pandas合并/连接10. Pandas级联函数11. Pandas日期时间函数12. Pandas分类构造函数13. Pandas可视化14. Pandas其他相关函数应用15. Pandas读取外部数据import pandas as ...

2018-12-21 17:54:23 1669 1

原创 数据分析与数据科学必备技能之——Pandas使用(一)

Pandas

2018-12-21 15:58:03 1280

原创 数据分析与数据科学必备技能之——Numpy使用

Numpy

2018-12-12 11:10:39 601

原创 Oracle数据的导入、导出、插入、更新及删除总结

Oracle数据的导入、导出、插入、更新及删除总结今天主要介绍一下使用Oracle的IDE:PL\SQL Developer进行数据的导入及导出操作方法。 一、Oracle数据的数据的导出数据的导出比较简单,主要有三种方法: (1)数据量小:右键Copy出来 (2)几十万数据量:导出CSV,TSV ,HTML,XML,SQL文件 (3)导出数据表或表结构:Tool(ex...

2018-04-30 20:38:26 2302

原创 Oracle常用函数总结

Oracle常用函数今天主要总结一下oracle在查询时常用到相关的函数,使用一定的函数可以大大节省我们的工作时间,尽快的查询统计到我们想要的结果,废话不多说,下面开始介绍总结的内容和使用方法。首先讲一下sql语句的执行顺序,这有助于大家理解函数的使用情形: 执行顺序为引用:链接:http://www.cnblogs.com/qanholas/archive/2010/10/...

2018-04-30 16:48:03 3365 1

原创 编辑器之——Sublime Text3、Notepad++

大家好,我是概率论与数理统计专业的毕业生,目前在做数据分析工作,在金融类的公司,刚工作的我属于技术小白,对于语言和编程方面的学习也是前学后忘的,今天算了一下步入工作的路程已经快一年了,回想过去工作的时间,自己学的一些专业技能都是不全面不深入的,像猴子扒苞米一样学一样丢一样,我看到很多大神都通过写博客记录自己学习成果和解决的困难,这样可以让自己即使忘记了,也可以很快的通过博客重新拾起来...

2018-04-26 00:28:56 12988

原创 Pandas分类总结之:分组

文章目录1. 分组模式及其对象1.1 分组的一般模式1.2 Groupby对象1.3 分组的三大操作2.聚合函数2.1 内置聚合函数2.2 agg方法3.变换与过滤3.1 变换函数与transform方法3.2 组索引与过滤4.跨列分组4.1 apply函数1. 分组模式及其对象1.1 分组的一般模式df.groupby(分组依据)[数据来源].使用操作 实例df.groupby('Gender')['Height'].mean()单一维度分组df.groupby('Gender')['He

2021-09-02 17:31:12 1520

原创 Pandas分类总结之:索引

文章目录1. 索引器1.1 表的列索引1.2 序列的行索引1.3 loc索引器1.4 iloc索引器1.5 query方法1.6 随机抽样2. 多级索引2.1 多级索引和表的结构2.2 多级索引中的loc索引器2.3 IndexSlice对象2.4 多级索引的构造3. 索引的常用方法3.1 索引层的交换和删除3.2 索引属性的修改3.3 索引的设置与重置3.4 索引的变形4.索引运算4.1 一般的索引运算1. 索引器1.1 表的列索引df[列名] ,返回值为Series,当列名不包含空格,可用 df.

2021-09-01 17:48:26 1449

原创 Pandas分类总结之:预备知识

文章目录1. python基础1.1 列表推导式与条件赋值1.2 匿名函数与map方法1.3 zip对象与enumerate方法2. Numpy基础2.1 np数组的构造2.3 np数组的变形与合并2.3 常用函数2.4 广播机制2.5 向量与矩阵的计算1. python基础1.1 列表推导式与条件赋值# 列表推导式:[function for i in interable] / [映射函数 for i in 迭代对象][my_func(i) for i in range(5)] #生成数字序

2021-09-01 10:23:10 215

原创 Pandas分类总结之:基础部分

二次回顾学习Pandas记录归纳内容,参考学习内容数据鲸的 joyful-pandas 板块文章目录1. 文件的读写1.1 文件读取1.2 数据写入2. 基本数据结构2.1 Series序列2.2 DataFrame数据框3. 常用基本函数3.1 汇总函数3.2 特征统计函数3.3 唯一值函数3.4 替换函数3.5 排序函数3.6 apply方法4. 窗口对象4.1 滑窗对象4.2 扩张窗口1. 文件的读写1.1 文件读取# 读取csv/txt/excel文件df_csv=pd.read_c

2021-08-20 17:18:57 170

原创 关联规则算法总结

关联规则算法总结文章目录一、Apriori、FP Growth算法原理:1.1 Apriori算法原理1.2 FP Growth(Frequent Pattern Growth)算法原理二、Apriori、FP Growth算法的实现三、实际应用一、Apriori、FP Growth算法原理:频繁项集的评估标准有:1.1 Apriori算法原理频繁项集: 是支持值大于阈值(support)的项集。关联分析的目的:发现频繁项集:发现满足最小支持度的所有项集;发现关联规则:从频繁项集中提

2021-08-12 15:50:18 5599

原创 Python连接操作常见数据库的封装

在工作中经常会使用python连接常见的数据库编写python脚本,用于数据分析中一些过程表的清洗与汇总操作,为了方便现将常见的数据库的操作封装在一起,方便调用使用,Spark连接操作后期补充欢迎指正。import sysimport loggingimport pymysqlimport cx_Oraclefrom pyhive import sqlalchemy_hive, hivefrom clickhouse_driver import Client# from pyspark.sq

2021-08-09 15:49:40 1350

原创 Mysql建表、索引、函数、查询使用中的坑!!!

文章目录I’m back!Fighting!序言Mysql建表原则具体内容可参阅Mysql的建表规范与注意事项这篇文章本内容参照MySql表、索引设计参考规范归纳以下只说明特别注意点:基础规范:(1)表存储引擎强烈建议使用InnoDB;(2)表字符集默认使用utf8,必要时候使用utf8mb4;(utf8通用,无乱码风险,汉字3字节,英文1字节)(3)禁止使用存储过程,视图,触发器,Event;(4)禁止在数据库中存储大文件,例如照片,可以将大文件存储在对象存储系统,数据库中存

2020-11-11 11:38:30 331

原创 机器学习基础问题汇总

数据预处理特征选择的方法;模型评估方法过拟合的解决方法;如何用尽可能少的样本训练模型同时又保证模型的性能;优化算法:梯度下降的优缺点;L1与L2的区别以及如何解决L1求导困难;算法原理几种模型(svm,lr,gbdt,em)的原理以及公式推导;rf与gbdt的区别?gbdt与xgboost的区别?决策树处理连续值的方法?kmeans的原理,优缺点以及改进;常...

2019-08-20 10:16:23 1215 1

原创 决策树问题汇总

文章目录1. 决策树如何剪枝?ID3、C4.5和CART三种决策树的区别?1. 决策树如何剪枝?(1)前剪枝( Pre-Pruning)前剪枝原则有:a.节点达到完全纯度;b.树的深度达到用户所要的深度;c.节点中样本个数少于用户指定个数;d.不纯度指标下降的最大幅度小于用户指定的幅度。(2) 后剪枝( Post-Pruning)首先构造完整的决策树,允许决策树过度拟...

2019-08-20 10:14:57 5755

原创 Hive基本语句及函数用法汇总

文章目录1. Hive的基本概念2. Hive基础sql语法2.1 DDL 操作2.2 DML操作:元数据存储2.3 DQL操作:数据查询SQL2.4 从SQL到HiveQL应转变的习惯3. Hive基本函数汇总3.1 常用数据类型3.2 语法关键字3.3 hive常用函数整理1. Hive的基本概念1.1 hive是什么?Hive是基于Hadoop的数据仓库工具,相当于hadoop之上的...

2019-08-20 10:13:59 8326

原创 集成学习问题汇总

文章目录1. 集成学习的结合策略有哪些?2. Bagging和Boosting两者之间的区别3. AdaBoost和GBDT的区别1. 集成学习的结合策略有哪些?(1)平均法: 用于数值类的回归预测问题算术平均:H(x)=1T∑1Thi(x)H(x) = \frac {1} {T} \sum\limits_{1}^{T}h_i(x)H(x)=T1​1∑T​hi​(x)如果每个个体学习器有...

2019-08-20 10:04:57 1272

原创 逻辑回归问题汇总

文章目录1. Logistic回归与线性回归的区别与联系?2. Logistic回归有哪些基本假设?3. Logistic回归的损失函数?4. Logistic回归损失函数的求解方法?5. Logistic回归是如何进行分类的?6. Logistic回归为什么要用极大似然函数作为损失函数?7. 为什么在Logistic回归训练的过程中要将高度相关的特征去掉?8. Logistic回归有哪些优缺点?...

2019-08-05 11:54:59 6548

原创 SVM算法问题汇总

文章目录1. svm为什么要引入拉格朗日的优化方法?1. svm为什么要引入拉格朗日的优化方法?

2019-08-05 11:54:41 1229

原创 Python-Day06-面向对象进阶

Python-100Day-学习打卡Author: Seven_0507Date: 2019-05-21

2019-06-08 19:02:02 353

原创 Python-Day09-字符串和正则表达式

Python-100Day-学习打卡Author: Seven_0507Date: 2019-05-24

2019-05-28 18:24:34 522

原创 Python-Day08-文件操作和异常处理

Python-100Day-学习打卡Author: Seven_0507Date: 2019-05-23

2019-05-23 23:35:35 534

原创 Python-Day07-图形用户界面和游戏开发

Python-100Day-学习打卡Author: Seven_0507Date: 2019-05-22

2019-05-22 23:37:18 3779 2

原创 Python-Day05-面向对象编程基础

“”"Python-100Day-学习打卡Author: Seven_0507Date: 2019-05-20“”"Day05主要重新学习总结Python面向对象编程的基础知识!文章目录Python面向对象编程习题1. 创建使用类和对象2. 定义数字时钟类3. 定义图形类4. 猜数字游戏5. 定义一个类描述平面上的点并提供移动点和计算到另一个点距离的方法Python面向对象编程习题...

2019-05-21 23:35:17 592

原创 Python-Day04-字符串及数据结构

"""Python-100Day-学习打卡Author: Seven_0507Date: 2019-05-20"""Day04主要重新学习总结Python字符串及数据结构知识点!文章目录1. Python字符串及常用数据结构习题1.1 字符串使用示例1.2 列表使用示例1.2.1 列表基本用法1.2.2 列表常用操作1.2.3 生成列表1.3 元组的使用1.4 集合的使用1.4.1...

2019-05-21 00:43:47 359

原创 Python-Day03-函数及模块

"""Python-100Day-学习打卡Author: Seven_0507Date: 2019-05-17"""Day03主要重新学习总结Python函数及模块知识点!文章目录Python函数及模块习题1. 函数练习1.1 函数的定义和使用1.2 函数的调用1.3 函数的参数1.4 变量作用域2. 模块练习2.1 常用模块Python函数及模块习题1. 函数练习1.1 函...

2019-05-18 00:17:23 383

原创 Python-Day02-分支结构及循环结构

"""Python-100Day-学习打卡Author: Seven_0507Date: 2019-05-16 ~ 2019-05-16"""Day02/03主要重新学习总结Python基本语法的分支结构、循环结构,重点用多种练习题作为学习内容!文章目录1. Python分支结构练习题1.1 用户身份验证1.2 分段函数求值1.3 英制单位英寸和公制单位厘米互换1.4 掷骰子游戏1....

2019-05-17 17:20:48 502

原创 深入科普数学小知识

文章目录1. 质数、合数知识延伸1.1 定义1.2 延伸知识1.3 质数的应用1. 质数、合数知识延伸1.1 定义(1)质数: 质数(prime number)又称素数,有无限个。质数定义为在大于1的自然数中,除了1和它本身以外不再有其他因数(没法被其他自然数整除的数),最小的素数是2,而最大的素数并不存在,欧几里德已在其《几何原本》中证明。(2)合数: 比1大但不是素数的数称为合数。(...

2019-05-17 12:31:14 2744

原创 一个完整的机器学习项目

本次主要总结概括机器学习的分类和建立一个完整机器学习项目需要做的步骤。

2019-05-16 18:46:45 389

原创 Python-Day01-变量类型及运算符

"""Python-100Day-学习打卡Author: Seven_0507Date: 2019-05-15"""Day01主要重新学习总结Python变量使用、基本数据类型及运算符使用!"""variable1: 使用变量保存数据并进行操作variable2: 使用input函数将输入的数据保存在变量中并进行操作"""# a = 321a = int(input('...

2019-05-16 00:03:54 249

原创 【集成学习】—— AdaBoost

sfadfs

2019-04-08 11:16:28 347

原创 【集成学习】—— 之概述

文章目录1. 集成学习(Ensemble Learning)2. Boosting3. Bagging4. 个体学习器结合策略4.1 平均法4.2 投票法4.3 学习法1. 集成学习(Ensemble Learning)        集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,即:对于训练集数据,通过训练若干...

2019-03-17 13:00:05 212

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除