自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 Matplotlib绘图-第五回:样式色彩秀芳华

本文为DataWhale的Matplotlib训练营链接:https://datawhalechina.github.io/fantastic-matplotlib/index.html文章目录matplotlib的绘图样式(style)matplotlib预先定义样式用户自定义stylesheet设置rcparamsmatplotlib的色彩设置(colorRGB或RGBAHEX RGB 或 RGBA灰度色阶单字符基本颜色颜色名称使用colormap设置一组颜色样式和颜色的使用样式的三种方法.

2022-01-18 23:18:54 394

原创 Matplotlib绘图-第四回:文字图例尽眉目

本文为DataWhale的Matplotlib训练营链接:https://datawhalechina.github.io/fantastic-matplotlib/index.html文章目录Figure和Axes上的文本文本APItext-子图上的文本xlabel和ylabel - 子图的x,y轴标签title和suptitle - 子图和画布的标题annotate - 子图的注解字体的属性设置Tick上的文本简单模式Tick Locators and FormattersTick Format.

2022-01-18 23:10:40 414

原创 Matplotlib绘图-第三回:布局格式定方圆

本文为DataWhale的Matplotlib训练营链接:https://datawhalechina.github.io/fantastic-matplotlib/index.html文章目录第三回:布局格式定方圆子图均匀子图: `plt.subplots`非均匀子图: `GridSpec`子图上的方法思考题import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-.

2022-01-17 23:32:12 532

原创 Matplotlib绘图-第二回:艺术画笔见乾坤

本文为DataWhale的Matplotlib训练营链接:https://datawhalechina.github.io/fantastic-matplotlib/index.html文章目录第二回:艺术画笔见乾坤图形直线图errorbar-误差折线图hist-直方图bar-柱状图填充多边形 第二回:艺术画笔见乾坤原理或者说基础逻辑: 用Artist对象在画布(canvas)上绘制(Render)图形。maplotlib的三层apimatplotlib.backend_base.

2022-01-10 15:58:33 187

原创 Matplotlib绘图-第一回:Matplotlib初相识

本文为DataWhale的Matplotlib训练营链接:https://datawhalechina.github.io/fantastic-matplotlib/index.html第一回:Matplotlib初相识import matplotlib.pyplot as pltimport matplotlib as mplimport numpy as npFigure 构成Figure:顶层级,用来容纳所有绘图元素Axes:matplotlib宇宙的核心,容纳了大量元素用.

2022-01-10 10:55:09 1532

原创 Datawhale sklearn笔记——贝叶斯

sklearn.naive_bayes.GaussianNBsklearn.datasets.make_blobs: 生成聚类数据贝叶斯from sklearn.naive_bayes import GaussianNBmodel = GaussianNB()model.fit(X, y)

2021-12-19 23:36:13 52

原创 Datawhale sklearn笔记——支持向量机

SVC: 支持向量机np.meshgrid: 生成网格np.c_: 合并vstackx.ravel(): flattenplt.contourf: 绘制等高线支持向量机SVC: 支持向量机linear: 线性核 svm.SVC(kernel='linear', C = 0.001)poly: 多项式核 svm.SVC(C=0.0001, kernel='poly', degree=degree)rbf: 高斯核 svm.SVC(kernel='rbf', gamma=gamma, .

2021-12-16 11:36:56 634

原创 Datawhale sklearn笔记——线性回归与逻辑回归

【课程链接】https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn函数LinearRegression: 线性回归函数PolynomialFeatures: 构建多项式特征Pipeline: 管道cross_val_score: 交叉验证LogisticRegression: 逻辑回归函数classification_report: 分类报告线性回归一元线性from

2021-12-15 11:14:35 854

原创 Leetcode刷题-数组双指针&数组滑动窗口

Leetcode刷题 | Datawhale202111在线书本在 https://algo.itcharge.cn/双指针对撞指针:两个指针方向相反。适合解决查找有序数组中满足某些约束条件的一组元素问题、字符串反转问题。快慢双指针:两个指针方向相同。适合解决数组中的移动、删除元素问题,或者链表中的判断是否有环、长度问题。分离双指针:两个指针分别属于不同的数组 / 链表。适合解决有序数组合并,求交集、并集问题。滑动窗口:利用了双指针中的快慢指针技巧,我们可以将滑动窗口看做是快慢指针两

2021-11-27 16:05:55 3578

原创 Leetcode刷题-二分查找

Leetcode刷题 | Datawhale202111在线书本在 https://algo.itcharge.cn/#0704 二分查找:二分查找直接用#35. 搜索插入位置:需要在二分查找上添加判断,插入数据#0374 猜数字大小:二分查找,从中间切开去调用API查看#0069 x 的平方根:和0374 猜数字大小相似,除了使用二分查找也可以使用牛顿法#0167 两数之和 II - 输入有序数组:先固定一个数然后在这个数的右侧二分查找,也可以用双指针#1011 在 D 天内送达包裹的能力

2021-11-24 12:35:54 2965

原创 Leetcode刷题-数组排序

Leetcode刷题 | Datawhale202111在线书本在 https://algo.itcharge.cn/冒泡排序:稳定排序法选择排序:不稳定的排序方法插入排序:稳定性排序希尔排序:不稳定排序算法归并排序:稳定排序算法快速排序:不稳定排序算法堆排序:不稳定排序算法计数排序:稳定排序算法桶排序:稳定排序算法基数排序:稳定排序算法题目#剑指 Offer 45 把数组排成最小的数:不能直接使用排序将列表排序,因为【30,9】中309比930小,需要比较合成的字符串那个更

2021-11-21 15:27:08 3474

原创 Leetcode刷题-数组

Leetcode刷题 | Datawhale202111在线书本在 https://algo.itcharge.cn/#66 加一: 这道题可以将列表转化为数字进行运算后在转为列表#724 寻找数组的中心下标:这道题的话是使用循环将左边和右边进行分别比较从而得到结果,但是我想能不能用累加去做,还没有找到方法#189 轮转数组:这道题可能对于python来说相对简单,可以用切片后拼接,但是要注意如果输入的列表长度小于轮转次数,可能出现问题,需要处理#48 旋转图像:这道题上下翻转后再对角翻转就可以

2021-11-18 00:25:35 194

转载 Combined Variance

Like combined mean, the combined variance or standard deviation can be calculated for different sets of data. Suppose we have two sets of data containing n1{n_1}n1​ and n2{n_2}n2​ observations with means X‾1{\overline X _1}X1​ and X‾2{\overline X _2}X2​ an

2021-08-08 22:51:03 75

原创 Datawhale集成学习学习笔记——Task08案例

Ensemble内的各个模型不仅仅可以是同一个模型根据训练集合的随机子集进行训练(得到不同的参数),也可以不同的模型进行组合、甚至可以是针对不同的特征子集进行训练。之后各个模型可以通过不同的策略进行组合。但是不同的结果输出,组合的情况是不同的,这里主要包括三种情况:1)Abstract-level:各个模型只输出一个目标类别,如猫、狗和人的图像识别中,仅输出人; 2)Rank-level:各个模型是输出目标类别的一个排序,如猫、狗和人的图像识别中,输出人-狗-猫; 3)measurement-level:

2021-07-31 18:04:25 79

原创 Datawhale集成学习学习笔记——Task07Stacking

Blending将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);创建第一层的多个模型,这些模型可以使同质的也可以是异质的;使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict, test_predict1;创建第二层的模型,使用val_predict作为训练集训练第二层的模型;使用第二层训练好的模型对第二层测试集test_predict1进行预

2021-07-28 16:33:03 79

原创 Datawhale集成学习学习笔记——Task06Boosting

BoostingBoostingAdaboost算法前向分步算法GBDT(梯度提升决策树)XGBoost**XGBoost的参数**参数调优的一般步骤**XGBoost详细攻略:**LightGBM算法**LightGBM参数说明:**作业参考BoostingBoosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。Boosting思想提高最终的预测效果是通过不断减少偏差的形式,与Bagging有着本质的不同.基本思路

2021-07-23 18:05:32 131

原创 Datawhale集成学习学习笔记——Task05Bagging

Bagging投票法Bagging随机森林作业参考投票法定义: 一种遵循少数服从多数原则的集成学习模型,作用:提高模型的泛化能力, 减少模型的错误率通过多个模型的集成降低方差, 从而提高模型的鲁棒性在理想情况下, 投票法的预测效果应当优于任何一个基模型的预测效果基本思路回归模型: 预测结果是所有模型预测结果的平均值分类模型硬投票法: 预测结果是所有投票结果最多出现的类软投票法: 预测结果是所有投票结果中概率加和最大的类相对于硬投票,软投票法考虑到了预测概率这一额外

2021-07-22 18:42:17 74

原创 Datawhale集成学习学习笔记——Task04分类

分类分类超参数调优作业线性判别分析和逻辑回归在估计参数方面有什么异同点参考分类选择度量模型性能的指标。Sklearn函数准确率:分类正确的样本数占总样本的比例,即:ACC=TP+TNFP+FN+TP+TNACC = \frac{TP+TN}{FP+FN+TP+TN}ACC=FP+FN+TP+TNTP+TN​.精度:预测为正且分类正确的样本占预测值为正的比例,即:PRE=TPTP+FPPRE = \frac{TP}{TP+FP}PRE=TP+FPTP​.召回率:预测为正且分类正确的样本占类

2021-07-19 09:44:17 205

原创 Datawhale集成学习学习笔记——Task03偏差和方差理论

偏差和方差理论偏差和方法理论作业参考偏差和方法理论训练均方误差与测试均方误差: 一个模型的训练均方误差最小时, 不能保证测试均方误差同时很小偏差-方差的权衡E(y0−f^(x0))2=Var⁡(f^(x0))+[Bias⁡(f^(x0))]2+Var⁡(ε)E\left(y_{0}-\hat{f}\left(x_{0}\right)\right)^{2}=\operatorname{Var}\left(\hat{f}\left(x_{0}\right)\right)+\left[\opera

2021-07-18 16:17:30 94

原创 Datawhale集成学习学习笔记——Task02回归

Task02回归机器学习使用sklearn构建完整的机器学习项目流程基本的回归模型作业参考机器学习机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xix_ixi​来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N,共N个样本,每个样本xi=(xi1,xi2,...,xip,yi)x_i=(x_{i1},x_{i2},...,x_{ip},y_i)x

2021-07-15 16:17:20 100

原创 Datawhale集成学习学习笔记——机器学习基础

机器学习基础机器学习的三大主要任务使用sklearn构建完整的机器学习项目流程基本的回归模型基本的分类模型偏差与方差理论超参数调优机器学习的三大主要任务机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xix_ixi​来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N,共N个样本,每个样本xi=(xi1,xi2,...,xip,yi)x_i=(x_{

2021-07-13 18:34:07 81

原创 集成学习学习笔记——数学基础

数学基础高等数学线性代数概率论, 数理统计, 随机过程作业参考高等数学函数与复合函数导数与偏导数Jacobi矩阵与Hessian矩阵函数极值判断优化方法数学解析方法梯度下降法牛顿法线性代数向量及向量空间向量内积及范数矩阵及矩阵的秩矩阵特征数-特征值,迹概率论, 数理统计, 随机过程概率论(建模学科)数理统计(参数估计, 假设检验)概率论(建模学科)→随机过程(引入时间t)→数理统计((应用)→频率学派(参数是确定的未知的常数)/贝叶斯学

2021-07-13 16:24:58 94

原创 图神经(百度训练营)

图神经(百度训练营)基础入门基础概念基本原理经典算法DeepWalkGCNGATGraphSage图(Graph)就是节点(Vertices/Nodes)以及边(Edge)G=(V,E)G=(V,E)G=(V,E)能够方便地处理不规则数据(树、图),同时也可以处理规则数据(如图像)把图学习的应用分为节点级别任务:金融诈骗检测(典型的节点分类)、自动驾驶中的3D点云目标检测边级别任务:推荐系统(典型的边预测)图级别任务:气味识别(典型的图分类)、发现“宇宙”

2020-11-29 11:16:50 160

原创 【深度之眼《机器学习》西瓜书训练营第十三期】支持向量机

支持向量机1. 支持向量机1.1. 间隔与支持向量1.2. 对偶问题1.3. 核函数1.4. 软间隔与正则化1.5. 支持向量回归1.3. 核函数1.4. 软间隔与正则化1.5. 支持向量回归1.6. 核方法1. 支持向量机1.1. 间隔与支持向量给定训练样本集D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{−1,+1}D=\{(x_1,y_1),(x_2,y_2),\l...

2020-04-14 22:02:36 249

原创 模型评估与拟合

模型评估与拟合1. 模型评估与选择1.1. 经验误差与过拟合1.2. 评估方法1.3. 性能度量1.3.1. 回归1.3.2. 分类1.3.2.1. 二分类1.3.2.2. 多分类1.3.2.3. 学习器评估1.4. 比较检验1.4.1. 单个学习器泛化性能1.4.1.1. 二项检验1.4.1.2. t检验1.4.2. 不同学习器比较1.4.2.1. 交叉验证t检验1.4.2.2. McNemar...

2020-04-12 22:19:06 1456

原创 【深度之眼《机器学习》西瓜书训练营第十三期】决策树

决策树1. 决策树1.1. 基本流程1.2. 划分选择1.2.1. ID3决策树1.2.1.1. 信息增益1.2.2. C4.5决策树1.2.2.1. 增益率1.2.3. CART1.2.3.1. 基尼指数1.2.3.2. 算法1. 决策树基于树结构来进行决策1.1. 基本流程测试:决策过程中提出的每个判定问题都是对某个属性的测试一般的,一颗决策树包含一个根结点、若干个内部结点和若干...

2020-04-06 23:19:37 340

原创 西瓜书第一章学习笔记

西瓜书第一章1. 基本术语2. 假设空间3. 归纳偏好3.1. NoFreeLunch4. 发展历程定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据中产生“模型”,用于对新的情况给出判断。1. 基...

2020-04-05 23:21:56 175

原创 【深度之眼《机器学习》西瓜书训练营第十三期】线性模型

线性模型1. 线性模型1.1. 线性模型的基本形式1.1.1. 关于线性模型1.1.2. Linear Regression的基本形式1.1.3. 线性模型的衍生1.1.4. Logistics Regression的基本形式1.1.5. 分类问题的基本解决思路1.2. 线性模型的基本解法1.2.1. 求解线性模型的基本思想1.2.2. Linear Regression的解法1.2.3. Log...

2020-03-28 23:02:30 316

原创 pyspider爬取2018年自主招生初审数据

使用pyspider爬取了2018年自主招生的初审通过名单共计153008条数据(不含合肥工业大学宣城校区)数据分析数据分析之省市省份排名前五如下:排名省份人数1山东省247882江苏省146963河北省130284湖北省104445河南省10199数据分析之中学可以看出京津冀以及上海一带人数分布较多。学校排名...

2019-03-30 15:23:45 363

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除