自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 SQL | 目录(持续更新)

侠的 SQL 学习笔记使用博客来记录自己的 SQL 学习过程,笔记是通过网络、书籍以及自我总结而成的。所有已完成的笔记都会发布到 CSDN Blog 上,感兴趣的小伙伴可以关注一下,我将会坚持更新机器学习以及深度学习的笔记。所有的笔记都是由 Jupyter Notebook 写成的,Notebook 可以在这个 Github 库内找到。Q:为什么文章经常会变成 404 ?A:因为我会...

2020-02-21 22:56:56 304

原创 机器学习 | 目录(持续更新)

侠的机器学习笔记使用博客来记录自己的机器学习过程,笔记是通过网络、书籍以及自我总结而成的。本笔记分为三部分:机器学习基础监督学习算法非监督学习算法所有已完成的笔记都会发布到 CSDN Blog 上,感兴趣的小伙伴可以关注一下,我将会坚持更新机器学习以及深度学习的笔记。所有的笔记都是由 Jupyter Notebook 写成的,Notebook 可以在这个 Github 库内找到。...

2019-08-17 12:47:21 2025

原创 PyPDF2 | 利用 Python 实现 PDF 分割

1. PDF 分割由于疫情影响被迫在家上网课,因此教材也只能用电子版。但有一门教材是对开的扫描版,导致在 iPad 上阅读很不友好,因此决定寻找一个工具将 PDF 对半分开。图1 分割前的 PDF 在百度了一番后,发现大多都是使用 Adobe Acrobat 软件进行剪裁,这完全不 Pythonic,因此又找了用 Python 处理 PDF 文件的方法,最后发现了 PyPDF2 这个库,本...

2020-03-09 23:07:12 6596 10

原创 SQLite | Insert、Delete、Updata 与 Drop 语句

文章目录1. 管理数据1.1 插入数据1.2 多行插入1.3 测试外键1.4 删除数据1.5 更新数据1.6 删除表格参考资料1. 管理数据在上一篇文章中,我们介绍了如何创建一个数据库,充分考虑了表格设计,列限制以及表的关系。而在本文中,我们将学习 INSERT(插入)、DELETE(删除)和 UPDATE(更新)记录,事实上,这些操作比 SELECT 语句更简单。1.1 插入数据在一个关...

2020-03-08 00:07:55 880

原创 SQLite | 数据库设计与 Creat Table 语句

文章目录1. The SurgeTech Conference1.1 Attendee1.2 Company1.3 Presentation1.4 Room1.5 Presentation Attendance2. 主键与外键2.1 主键2.2 外键3. The Schema4. 创建数据库4.1 创建表格4.2 设置外键约束参考资料我们在上一篇中介绍了 Join,接下来我们将介绍数据库设计。...

2020-03-08 00:01:33 1826 1

原创 SQLite | Join 语句

文章目录1. Join1.1 表联合1.2 内联合1.3 左联合1.4 其他联合类型1.5 多表联合1.6 分组联合参考资料1. Join我们在上一篇中介绍了 Case 语句,接下来我们将使用 join ,对表格进行合并。使用Jupyter Notebook 运行 SQL 语句需安装 ipython-sql%sql 以及 %%sql 为在 Notebook 中运行 SQL 语句,...

2020-03-06 00:28:38 1351 1

原创 SQLite | Case 子句

相关文章:SQL | 目录SQLite | SelectSQLite | WhereSQLite | Group by and Order by1. The CASE Statement我们在上一篇中介绍了 Group by 和 Order by,接下来我们将使用 CASE 语句为符合不同条件的情况赋值。使用Jupyter Notebook 运行 SQL 语句需安装 ipyth...

2020-02-24 16:51:44 5103

原创 SQLite | SQLite 与 Pandas 比较篇之一

相关文章:SQL | 目录SQLite | SelectSQLite | WhereSQLite | Group by and Order by1. SQLite 与 Pandas 异同点比较1.1 数据导入1.1.1 SQLIteSQLite 需要首先导入数据库文件并使用 select 语句选取记录:使用Jupyter Notebook 运行 SQL 语句需安装 ipyth...

2020-02-22 21:16:16 2448 1

原创 SQLite | Group By 和 Order By 子句

1. Group by and Order by我们在上一篇中介绍了 Where 子句,接下来我们将使用 Group by 和 Order by 子句,对数据进行聚合和排序。使用Jupyter Notebook 运行 SQL 语句需安装 ipython-sql%sql 以及 %%sql 为在 Notebook 中运行 SQL 语句,在 SQLite 命令行或 SQLite Stidu...

2020-02-21 22:53:35 1087

原创 SQLite | Where 子句

相关文章:SQLite | Select1. Where我们在上一篇中介绍了 Select 语句,接下来我们将使用 Where 子句,对数据进行筛选。使用Jupyter Notebook 运行 SQL 语句需安装 ipytho-n-sql%sql 以及 %%sql 为在 Notebook 中运行 SQL 语句,在 SQLite 命令行或 SQLite Stiduo 中不需要 %s...

2020-02-18 16:45:34 3124

原创 SQLite | Select 语句

Select本文将使用 rexon_metals.db 数据库,其中包含了 CUSTOMER,CUSTOMER_ORDER 以及 PRODUCT 三张表。使用Jupyter Notebook 运行 SQL 语句需安装 ipytho-n-sql%sql 以及 %%sql 为在 Notebook 中运行 SQL 语句,在 SQLite 命令行或 SQLite Stiduo 中不需要 %s...

2020-02-15 23:36:51 1448

原创 无监督学习 | PCA 主成分分析之客户分类

文章目录1. 开始2. 数据探索2.2 特征相关性2.3 可视化特征分布3. 数据预处理3.1 特征缩放3.2 异常值检测4. 数据转换4.1 主成分分析(PCA)4.2 降维4.3 双标图(Biplot)可视化5. 聚类5.1 创建聚类5.2 聚类可视化6. 数据恢复7. 利用聚类结果进行预测相关文章:机器学习 | 目录机器学习 | 聚类评估指标无监督学习 | KMeans 之Sklea...

2019-10-15 20:40:29 1627 9

原创 无监督学习 | PCA 主成分分析原理及Sklearn实现

文章目录1. 降维2. PCA2.1 最大化方差和最小化损失2.2 坐标轴旋转3. PCA 推导3.1 PCA 算法推导3.2 维数选择4. Sklearn 实现4.1 主成分可视化参考文献相关文章:机器学习 | 目录1. 降维假设你在使用一组数据来预测房价,你的数据包含以下特征:房子面积房间数量附近学校排名社区安全但是可以看出,1、2 在于描述房子的大小,而...

2019-10-14 21:17:47 1122 1

原创 无监督学习 | 层次聚类 之凝聚聚类原理及Sklearn实现

文章目录1. 层次聚类1.1 凝聚聚类1.2 层次图1.3 不同凝聚算法比较2. Sklearn 实现2.1 层次图可视化参考文献1. 层次聚类层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。[1]因此其优点是可以层次化聚类,将聚类结构视觉化;而缺点是计...

2019-10-11 00:54:17 5037

原创 无监督学习 | DBSCAN 原理及Sklearn实现

文章目录1. 密度聚类2. DBSCAN2.1 算法原理3. DBSCAN 优缺点3.1 优点3.2 缺点3.3 与 KMeans 比较4. SKlearn 实现5. 在线可视化 DBSCAN参考文献相关文章:机器学习 | 目录机器学习 | 聚类评估指标机器学习 | 距离计算无监督学习 | KMeans 与 KMeans++ 原理无监督学习 | GMM 高斯混合聚类原理及Sklearn...

2019-10-09 21:20:45 1422 1

原创 无监督学习 | GMM 高斯混合聚类原理及Sklearn实现

文章目录1. 高斯混合聚类1.1 高斯混合分布1.2 参数求解1.3 EM 算法2. Sklearn 实现参考文献相关文章:机器学习 | 目录机器学习 | EM 算法原理无监督学习 | KMeans与KMeans++原理无监督学习 | KMeans之Sklearn实现:电影评分聚类本文大部分内容搬运自周至华老师的《机器学习》[1]。1. 高斯混合聚类与 kkk 均值 用原型向量来刻...

2019-10-09 16:01:43 8990 2

原创 机器学习 | EM 算法原理

文章目录EM 算法1. EM 算法的引入三硬币模型2. EM 算法Q 函数参考文献相关文章:机器学习 | 目录本文大部分内容搬运自李航老师的《统计学习方法》[1],以给出 EM 算法较为完整的定义。EM 算法EM 算法是一种迭代算法,1977 年由 Dempster 等人总结提出,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验估计。EM 算法的...

2019-10-07 01:06:18 484 1

原创 监督学习 | CART 分类回归树原理

文章目录CART 算法1. CART 生成1.1 回归树生成最小二乘回归树生成算法1.2 分类树生成基尼指数CART 生成算法参考文献相关文章:机器学习 | 目录监督学习 | ID3 决策树原理及Python实现监督学习 | ID3 & C4.5 决策树原理监督学习 | 决策树之Sklearn实现监督学习 | 决策树之网络搜索本文大部分内容搬运自李航老师的《统计学习方法》[1...

2019-10-05 20:44:03 866

原创 监督学习 | ID3 & C4.5 决策树原理

文章目录决策树1. 特征选择1.1 熵1.2 条件熵1.3 信息增益1.4 信息增益率2. 决策树生成算法1 信息增益及信息增益率的算法2.1 ID3 算法2.2 C4.5 算法3. 决策树剪枝3.1 预剪枝3.2 后剪枝算法2 树的剪枝算法参考文献相关文章:机器学习 | 目录监督学习 | ID3 决策树原理及Python实现监督学习 | 决策树之Sklearn实现监督学习 | 决策树之...

2019-10-05 11:20:04 358

转载 机器学习 | 特征缩放

文章目录1. 特征缩放1.1 最大最小值归一化(min-max normalization)sklearn.preprocessing.MinMaxScaler1.2 均值归一化(mean normalization)1.3 中心化(mean centering)1.4 标准化 / z值归一化(standardization / z-score normalization)sklearn.prep...

2019-09-10 00:19:17 460

原创 无监督学习 | KMeans之Sklearn实现:电影评分聚类

文章目录1. KMeans in Sklearn2. Sklearn 实例:电影评分的 k 均值聚类2.1 数据集概述2.2 二维 KMeans 聚类3. 肘部法选取最优 K 值4. 多维 KMeans 聚类4.1 三维 KMeans 聚类4.2 高维 KMeans 聚类4.2.1 热力图可视化4.2.2 稀疏 csr 矩阵4.2.3 利用聚类结果进行预测4.2.4 利用聚类结果进行推荐相关文章...

2019-09-08 20:30:34 7744 13

原创 无监督学习 | KMeans与KMeans++原理

文章目录1. 原型聚类1.1 KMeans1.1.1 最小化成本函数1.1.2 实例1.2 KMeans++1.2.1 KMeans++ 初始化实例参考资料相关文章:机器学习 | 目录机器学习 | 聚类评估指标机器学习 | 距离计算无监督学习 | KMeans之Skleaen实现:电影评分聚类1. 原型聚类原型聚类亦称“基于原型的聚类”(prototypr-based cluster...

2019-09-08 00:10:10 1888

原创 机器学习 | 距离计算

文章目录距离计算1. 闵可夫斯基距离(连续属性、有序属性)1.1 曼哈顿距离1.2 欧氏距离2. VDM 距离(无序属性)3. MinkovDM 距离(混合属性)4. 加权距离(重要性不同)参考资料距离计算对函数 dist(⋅,⋅)dist(\cdot,\cdot)dist(⋅,⋅) ,若它是一个“距离度量”(distance measure),则需满足一些基本性质:[1](1)非负性:di...

2019-09-07 11:24:53 1697

原创 机器学习 | 聚类评估指标

文章目录1. 聚类评估指标1.1 外部评估指标RI 兰德指数ARI 调整兰德指数Jaccard JC指数FMI FMI指数MI 互信息NMI 归一化互信息AMI 调整互信息1.2 内部评估指标DBI 戴维森堡丁指数DI Dunn指数SC 轮廓系数参考文献1. 聚类评估指标Clustering performance evaluation聚类性能度量亦称聚类“有效性指标”(validity i...

2019-09-05 00:05:08 4400

原创 监督学习 | 线性分类 之Logistic回归原理及Sklearn实现

文章目录1. Logistic 回归1.1 Logistic 函数1.2 Logistic 回归模型1.2.1 模型参数估计2. Sklearn 实现参考资料相关文章:机器学习 | 目录监督学习 | 线性回归 之多元线性回归原理及Sklearn实现监督学习 | 非线性回归 之多项式回归原理及Sklearn实现监督学习 | 线性回归 之正则线性模型原理及Sklearn实现1. Logis...

2019-08-27 23:55:06 1424

原创 机器学习 | 早期停止法原理及Python实现

文章目录1. 早期停止法1.2 Python 实现参考文献相关文章:机器学习 | 目录机器学习 | 梯度下降原理及Python实现1. 早期停止法对于梯度下降这一类迭代学习的算法,还有一个与众不同的正则化方法,就是在验证误差达到最小值时停止训练,该方法叫作早期停止法。下图展现了一个用批量梯度下降训练的复杂模型(高阶多项式回归模型)。经过一轮一轮的训练,算法不断地学习,训练集上的预测误差(...

2019-08-27 16:00:26 2882 2

原创 监督学习 | 线性回归 之正则线性模型原理及Sklearn实现

文章目录1. 正则线性模型1.1 Ridge Regression(L2)1.1.1 Sklearn 实现1.1.2 Ridge + SDG1.1.2.1 Sklearn 实现1.2 Lasso Regression(L1)1.2.1 Sklearn 实现1.2.2 Lasso + SGD1.2.2.1 Sklearn 实现1.3 Elastic Net(L1&L2)1.3.1 Sklea...

2019-08-26 22:46:58 1171

原创 监督学习 | 非线性回归 之多项式回归原理及Sklearn实现

文章目录1. 多项式回归2. Sklearn 实现参考资料相关文章:机器学习 | 目录机器学习 | 回归评估指标监督学习 | 线性回归 之多元线性回归原理及Sklearn实现监督学习 | 线性回归 之正则线性模型原理及Sklearn实现1. 多项式回归对于非线性数据,也可以用线性模型来拟合。一个简单的方法就是将每个特征的幂次方添加为一个新特征,然后在这个拓展多的特征集上训练线性模型。...

2019-08-25 21:57:20 2729

原创 监督学习 | 集成学习 之AdaBoost、梯度提升及Slearn实现

文章目录Boosting1. AdaBoost1.1 AdaBoost 原理1.2 Python 实现1.3 Sklearn 实现2. 梯度提升2.1 梯度提升回归树(GBRT)2.1.1 Python 实现2.1.2 Sklearn 实现2.1.3 早期停止法2.1.4 随机梯度提升参考资料相关文章:机器学习 | 目录监督学习 | 集成学习之Bagging、随机森林及Sklearn实现B...

2019-08-23 01:46:27 395

原创 监督学习 | 集成学习 之Bagging、随机森林及Sklearn实现

文章目录集成学习1. 投票分类器1.1 硬投票法1.2 软投票法2. Bagging & Pasting2.1 包外评估2.2 Random Patches 和 随机子空间3. 随机森林3.1 极端随机树3.2 特征重要性参考资料相关文章:机器学习 | 目录监督学习 | 决策树原理及Python实现监督学习 | 决策树之Sklearn实现监督学习 | 集成学习之AdaBoost原...

2019-08-22 14:10:42 1411

原创 监督学习 | SVM 之支持向量机Sklearn实现

文章目录Sklearn 支持向量机1. 支持向量机分类1.1 线性 SVM 分类1.2 非线性 SVM 分类1.2.1 多项式核1.2.2 高斯 RBF 内核2. 支持向量机回归2.1 线性 SVM 回归2.2 非线性 SVM 回归2.2.1 多项式内核参考资料相关文章:机器学习 | 目录机器学习 | 网络搜索及可视化监督学习 | SVM 之线性支持向量机原理监督学习 | SVM 之非线...

2019-08-19 00:59:45 824

原创 监督学习 | SVM 之非线性支持向量机原理

文章目录1. 非线性支持向量机1.1 核技巧1.2 核函数1.2.1 核函数选择1.2.2 RBF 函数参考资料相关文章:机器学习 | 目录机器学习 | 网络搜索及可视化监督学习 | SVM 之线性支持向量机原理1. 非线性支持向量机对解线性分类问题,线性分类支持向量机是一种非常有效的方法。但是,有时分类问题是非线性的,这时可以使用非线性支持向量机(non-linear support...

2019-08-17 22:18:46 3770

原创 监督学习 | SVM 之线性支持向量机原理

文章目录支持向量机1. 线性可分支持向量机1.1 间隔计算公式推导1.2 硬间隔最大化1.2.1 原始问题1.2.2 对偶算法1.3 支持向量2. 线性支持向量机2.1 软间隔最大化2.1.1 原始问题2.1.2 对偶算法2.2 支持向量2.3 合页损失函数参考资料支持向量机支持向量机(Support Vector Machines, SVM):是一种二分类模型,它的基本模型是定义在特征空间上...

2019-08-17 01:01:26 529

原创 机器学习 | 梯度下降原理及Python实现

文章目录1. 梯度下降1.1 批量梯度下降(BGD)1.1.1 学习率的设置1.1.2 Python 实现 BGD1.2 随机梯度下降(SGD)1.2.1 Python 实现 SGD1.2.2 Sklearn 实现 SGD1.3 小批量随机下降(MBGD)2. 三类梯度下降的比较参考资料相关文章:机器学习 | 网络搜索及可视化监督学习 | 线性回归原理及Sklearn实现1. 梯度下降梯...

2019-08-14 01:49:30 2619

原创 监督学习 | 线性回归 之多元线性回归原理及Sklearn实现

文章目录1. 线性回归1.1 基本形式1.2 最小二乘法推导2. Sklearn 实现参考资料相关文章:机器学习 | 回归评估指标1. 线性回归线性回归,又称普通最小二乘法(Ordinary Least Squares, OLS),是回归问题最简单也最经典的线性方法。线性回归需按照参数 w 和 b,使得对训练集的预测值与真实的回归目标值 y 之间的均方误差(MSE)最小。均方误差(Mean...

2019-08-12 22:25:29 1914

原创 监督学习 | 决策树之网络搜索

文章目录1. 通过网格搜索完善模型1.1 数据导入1.2 拆分数据为训练集和测试集1.3 拟合决策树模型1.4 使用网络搜索完善模型1.5 交叉验证可视化1.5 总结关于决策树原理,可以参考这篇文章:监督学习 | 决策树原理及Python实现关于决策树的 Sickit-learn 实现,可以参考这篇文章:监督学习 | 决策树之Sklearn实现关于网络搜索,可以参考这篇文章:机器学习 | 网...

2019-08-12 01:04:35 872

原创 机器学习 | 网络搜索及可视化

文章目录1. 网络搜索1.1 简单网络搜索1.2 参数过拟合的风险与验证集1.3 带交叉验证的网络搜索1.3.1 Python 实现1.3.2 Sklearn 实现1.4 网络搜索可视化1.4.1 在网络空间中的搜索1.4.1.1 错误的参数设置和可视化1.4.2 在非网络空间的搜索参考资料1. 网络搜索网络搜索(Grid Search):一种调参方法,利用穷举搜索,在所有候选的参数选择中,通...

2019-08-11 22:03:13 4048

原创 机器学习 | 模型选择

文章目录1. 模型验证1.1 错误的模型验证方法1.2 正确的模型验证方法1.2.1 留出集1.2.2 交叉验证1.2.3 K折交叉验证1.2.4 留一法 LOO2. 偏差-方差2.1 泛化误差、偏差及方差2.2 泛化误差与偏差及方差的关系3. 拟合程度3.1 欠拟合与过拟合3.2 影响拟合程度的因素3.3 模型复杂度2.3.1 模型复杂度图表3.3.2 验证曲线3.3.2.1 Sklearn 验...

2019-08-10 21:40:19 549

原创 机器学习 | 回归评估指标

文章目录1. 回归评估指标1.1 平均绝对误差 MAE1.1.1 Sklearn 计算 MAE1.2 均方误差 MSE1.2.1 Sklearn 计算 MSE1.3 $R^2$1.3.1 Sklearn 计算$R^2$2 参考资料关于分类评估指标,可以参考我的另一片文章:机器学习 | 分类评估指标1. 回归评估指标1.1 平均绝对误差 MAEMAE:(Mean Absolute Error...

2019-08-08 23:33:03 928

原创 机器学习 | 分类评估指标

文章目录1. 分类评估指标1.1 混淆矩阵 Confusion Matrix1.1.1 scikit-learn 混淆矩阵函数接口1.2 真阳性TP、假阳性FP、真阴性TN、假阴性FN1.2.1 衍生评估指标1.3 准确率 Accuracy1.3.1 准确率不适用的情形:信用卡欺诈检测模型(不平衡数据)1.4 精确率 Precision1.4.1 精确率适用情形:垃圾邮件分类(高精度模型)1.5 ...

2019-08-08 23:29:27 1654 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除