data learning-CSDN博客

原创统计学专业词汇英文翻译中英对照总结汇总（贾俊平统计学第七版）

目录第1章导论第2章数据的搜集第3章数据的图表展示第4章数据的概括性度量第5章概率与概率分布第6章统计量及其抽样分布第7章参数估计第8章假设检验第9章分类数据分析第10章方差分析第11章一元线性回归第12章多元线性回归第13章时间序列分析和预测第14章指数第1章导论descriptive 描述统计inferential statistics 推断统计categorical data 分类数据r

2021-03-26 08:26:23 7951

原创数据标准化之均值方差标准化（原理+Python代码）

一、原理介绍常用的数据标准化方法有最大最小归一化、均值方差标准化、小数定标法、定量特征二值化等。其中，均值方差标准化是一种将数据转化为标准正态分布的标准化方法。在回归模型中，服从正态分布的自变量和因变量往往对应着较好的回归预测效果。均值方差标准化的计算公式为： x′=x−μσ x'=\frac{x-\mu }{\sigma } x′=σx−μ公式中，x表示单个数据的取值，μ\muμ表示对应列的均值，σ\sigmaσ表示对应列的方差二、代码实现#加载模块from sklearn.preproces

2021-02-12 23:16:11 12560 1

原创数据标准化之最大最小归一化（原理+Pyhon代码）

一、原理介绍通常情况下，在建模之前，都需要对数据进行标准化处理，以消除量纲的影响。如果对未标准化的数据直接进行建模，可能会导致模型对数值大的变量学习过多，而对数值小的变量训练不够充分，往往模型效果会不好。常用的数据标准化方法有最大最小归一化、均值方差标准化、小数定标法、定量特征二值化等。最大最小归一化，顾名思义，就是利用数据列中的最大值和最小值进行标准化处理，标准化后的数值处于[0,1]之间，计算方式为数据与该列的最小值作差，再除以极差。具体公式为：x′=x−minmax−min x'=\frac{x

2021-02-12 22:49:46 34437

原创社交网络分析之关系图（原理+Python代码）

数据来源于天池赛题：零基础入门数据分析-学术前沿趋势分析地址：https://tianchi.aliyun.com/competition/entrance/531866/information一、原理介绍社交网络分析是图关系挖掘的一个分支，通常以关系图的形式来展示人与人之间的关系网络。在人物关系图中，一个节点代表一个人，节点之间的连线表示这些人之间存在关系。网络的节点越多，说明该社交网络越庞大；连线越多，说明联系越密切。同时，也可以使用连线的粗细来表示社交关系的权重，即关系的亲密程度。这里通过绘

2021-01-25 20:07:14 8904 2

原创文本特征提取之TF-IDF算法（原理+Python代码）

数据来源于天池赛题：零基础入门数据分析-学术前沿趋势分析地址：目录一、原理介绍二、代码实现2.1数据预处理2.2使用TF-IDF提取特征2.3建立分类模型三、结果解释一、原理介绍TF-IDF方法常用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。在一个特定文件中，当某类词语出现的频率较高，同时该类词语在整个语料库中出现频率较低时，该类词语的TF-IDF就会比较高。TF-IDF在中文中指词频-逆向文件频率，由TF（词频）和IDF（逆向文件频率）两个部分组成。其中，TF（词频）指的

2021-01-22 16:39:32 5883 1

原创数据可视化之竖直条形图（原理+Python代码）

数据来源于天池赛题：零基础入门数据分析-学术前沿趋势分析地址：https://tianchi.aliyun.com/competition/entrance/531866/information一、原理介绍条形图是一种常见的基本统计图形，用于展示分类变量各个类别的数量。条形图又可以分为竖直条形图、水平条形图、堆叠条形图等。其中，竖直条形图是一种将条形竖着放置的条形图，通过比较不同类别条形的长短，可以直观地看出各类别数量上的差异。这里通过绘制竖直条形图，来对计算机领域发表论文对应的代码类别的数量进行统

2021-01-19 17:07:01 1492 1

原创数据可视化之水平条形图（原理+Python代码）

数据来源于天池赛题：零基础入门数据分析-学术前沿趋势分析，地址：https://tianchi.aliyun.com/competition/entrance/531866/information目录一、原理介绍二、代码实现三、结果解释一、原理介绍条形图是一种常见的基本统计图形，用于展示分类变量各个类别的数量。条形图又可以分为竖直条形图、水平条形图、堆叠条形图等。其中，水平条形图是一种将条形横向放置的条形图，通过比较不同类别条形的长短，可以直观地看出各类别数量上的差异。这里通过绘制水平条形图，来展

2021-01-16 12:12:52 2123

原创新手如何撰写CSDN博客?CSDN博客撰写入门级方法

CSDN后台支持Markdown格式的文件导入，一种简单的博客撰写方法就是用Anaconda中的notebook写好文章内容后,导出为Markdown格式,再上传至CSDN后台。具体步骤如下：第一步：点击开始菜单栏，进入Jupyter Notebook，如图中箭头所示：第二步：进入Jupyter Notebook之后，新建文件。点击New— —Python3（这里的编译环境可以根据需要自行选择）第三步：开始进行博文的撰写。值得注意的是：需要进行标题、文字、代码不同内容之间的切换，如图中箭头所示。

2021-01-13 17:16:38 1834

原创数据可视化之饼状图（原理+Python代码）

数据来源于Kaggle数据集，链接：https://www.kaggle.com/Cornell-University/arxiv目录一、原理介绍二、代码实现三、结果解释一、原理介绍饼状图是数据可视化中的一种基本图形，常用于展示某一分类变量中各个类别所占的比例。根据饼状图中各个扇形所占的角度大小，可以比较得出数量多的类别和数量少的类别。此外，分类变量可视化的图形还有树形图、玫瑰图、雷达图等。这里通过绘制扇形图，来比较计算机各个方向发表论文数量的差异。二、代码实现#加载常用模块import pa

2021-01-13 16:08:33 5036

原创数据可视化之热力图&相关系数图（原理+Python代码）

目录一、原理介绍二、代码实现三、结果解释一、原理介绍热力图，又名相关系数图。根据热力图中不同方块颜色对应的相关系数的大小，可以判断出变量之间相关性的大小。两个变量之间相关系数的计算公式为:ρX1X2=Cov(X1,X2)DX1,DX2=EX1X2−EX1∗EX2DX1∗DX2\rho _{_{X_{1}X_{2}}}=\frac{Cov(X_{1},X_{2})}{\sqrt{DX_{1},DX_{2} }}=\frac{EX_{1}X_{2}-EX_{1}\ast EX_{2}}{\sqrt{DX_

2021-01-12 22:46:07 102258 20

原创数据可视化之树形图（原理+Python代码）

目录一、原理介绍二、代码实现三、结果解释一、原理介绍树形图常用于对分类变量进行可视化分析，树形图的面积代表了所对应类别的数量，常用于比较各类别在数量上的差异。二、代码实现数据来源于上市企业数据，通过绘制树形图，来比较不同行业的企业数量分布差异。import squarify from pyforest import *import warningswarnings.filterwarnings('ignore')import numpy as npimport pandas as pd

2021-01-07 21:59:59 6263 1

原创数据可视化之堆叠面积图（原理+Python代码）

目录一、原理介绍二、代码实现三、结果解释一、原理介绍面积图，又称区域图，可以看成是进行颜色填充后的折线图。这种图形不仅可以展示数据的波动和趋势，其围成的面积还可以直观地反映数据量的大小。面积图可分为两种，一般面积图和堆叠面积图。二者的差别如下：一般面积图：图中所有的数据都按照实际值绘制，即从相同的零轴开始。堆叠面积图：每一个变量的起点不同，依次在前一个变量的数值上进行叠加。图形的总面积表现为各个变量值的总量。通过比较不同颜色的面积块，可以得出不同的变量在数值上的差异，对应面积块越大的变量，其数值也

2021-01-07 21:31:09 8623

weixin_45481473的博客

原创统计学专业词汇英文翻译中英对照总结汇总（贾俊平统计学第七版）

原创数据标准化之均值方差标准化（原理+Python代码）

原创数据标准化之最大最小归一化（原理+Pyhon代码）

原创社交网络分析之关系图（原理+Python代码）

原创文本特征提取之TF-IDF算法（原理+Python代码）

原创数据可视化之竖直条形图（原理+Python代码）

原创数据可视化之水平条形图（原理+Python代码）

原创新手如何撰写CSDN博客?CSDN博客撰写入门级方法

原创数据可视化之饼状图（原理+Python代码）

原创数据可视化之热力图&相关系数图（原理+Python代码）

原创数据可视化之树形图（原理+Python代码）

原创数据可视化之堆叠面积图（原理+Python代码）

原创数据可视化之折线图（原理+Python代码）

原创图像识别之字符识别方法

原创模型融合之Stacking（原理+Python代码）

原创集成学习之XGBoost算法（原理+Python代码）

原创特征工程之嵌入式随机森林度量各指标的重要性（原理+Python代码）

原创数据可视化之小提琴图（原理+Python代码）

Web Scraper爬虫学习笔记&思维导图.html

《大数据与机器学习-实践方法与行业案例》读书笔记&思维导图.html

空空如也