自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

原创 统计学专业词汇英文翻译中英对照总结汇总(贾俊平 统计学 第七版 )

目录第1章 导论第2章 数据的搜集第3章 数据的图表展示第4章 数据的概括性度量第5章 概率与概率分布第6章 统计量及其抽样分布第7章 参数估计第8章 假设检验第9章 分类数据分析第10章 方差分析第11章 一元线性回归第12章 多元线性回归第13章 时间序列分析和预测第14章 指数第1章 导论descriptive 描述统计inferential statistics 推断统计categorical data 分类数据r

2021-03-26 08:26:23 7951

原创 数据标准化之均值方差标准化(原理+Python代码)

一、原理介绍常用的数据标准化方法有最大最小归一化、均值方差标准化、小数定标法、定量特征二值化等。其中,均值方差标准化是一种将数据转化为标准正态分布的标准化方法。在回归模型中,服从正态分布的自变量和因变量往往对应着较好的回归预测效果。均值方差标准化的计算公式为: x′=x−μσ x'=\frac{x-\mu }{\sigma } x′=σx−μ​公式中,x表示单个数据的取值,μ\muμ表示对应列的均值,σ\sigmaσ表示对应列的方差二、代码实现#加载模块from sklearn.preproces

2021-02-12 23:16:11 12560 1

原创 数据标准化之最大最小归一化(原理+Pyhon代码)

一、原理介绍通常情况下,在建模之前,都需要对数据进行标准化处理,以消除量纲的影响。如果对未标准化的数据直接进行建模,可能会导致模型对数值大的变量学习过多,而对数值小的变量训练不够充分,往往模型效果会不好。常用的数据标准化方法有最大最小归一化、均值方差标准化、小数定标法、定量特征二值化等。最大最小归一化,顾名思义,就是利用数据列中的最大值和最小值进行标准化处理,标准化后的数值处于[0,1]之间,计算方式为数据与该列的最小值作差,再除以极差。具体公式为:x′=x−minmax−min x'=\frac{x

2021-02-12 22:49:46 34437

原创 社交网络分析之关系图(原理+Python代码)

数据来源于天池赛题:零基础入门数据分析-学术前沿趋势分析 地址:https://tianchi.aliyun.com/competition/entrance/531866/information一、原理介绍社交网络分析是图关系挖掘的一个分支,通常以关系图的形式来展示人与人之间的关系网络。在人物关系图中,一个节点代表一个人,节点之间的连线表示这些人之间存在关系。网络的节点越多,说明该社交网络越庞大;连线越多,说明联系越密切。同时,也可以使用连线的粗细来表示社交关系的权重,即关系的亲密程度。这里通过绘

2021-01-25 20:07:14 8904 2

原创 文本特征提取之TF-IDF算法(原理+Python代码)

数据来源于天池赛题:零基础入门数据分析-学术前沿趋势分析 地址:目录一、原理介绍二、代码实现2.1数据预处理2.2使用TF-IDF提取特征2.3建立分类模型三、结果解释一、原理介绍TF-IDF方法常用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。在一个特定文件中,当某类词语出现的频率较高,同时该类词语在整个语料库中出现频率较低时,该类词语的TF-IDF就会比较高。TF-IDF在中文中指词频-逆向文件频率,由TF(词频)和IDF(逆向文件频率)两个部分组成。其中,TF(词频)指的

2021-01-22 16:39:32 5883 1

原创 数据可视化之竖直条形图(原理+Python代码)

数据来源于天池赛题:零基础入门数据分析-学术前沿趋势分析地址:https://tianchi.aliyun.com/competition/entrance/531866/information一、原理介绍条形图是一种常见的基本统计图形,用于展示分类变量各个类别的数量。条形图又可以分为竖直条形图、水平条形图、堆叠条形图等。其中,竖直条形图是一种将条形竖着放置的条形图,通过比较不同类别条形的长短,可以直观地看出各类别数量上的差异。这里通过绘制竖直条形图,来对计算机领域发表论文对应的代码类别的数量进行统

2021-01-19 17:07:01 1492 1

原创 数据可视化之水平条形图(原理+Python代码)

数据来源于天池赛题:零基础入门数据分析-学术前沿趋势分析 ,地址:https://tianchi.aliyun.com/competition/entrance/531866/information目录一、原理介绍二、代码实现三、结果解释一、原理介绍条形图是一种常见的基本统计图形,用于展示分类变量各个类别的数量。条形图又可以分为竖直条形图、水平条形图、堆叠条形图等。其中,水平条形图是一种将条形横向放置的条形图,通过比较不同类别条形的长短,可以直观地看出各类别数量上的差异。这里通过绘制水平条形图,来展

2021-01-16 12:12:52 2123

原创 新手如何撰写CSDN博客?CSDN博客撰写入门级方法

CSDN后台支持Markdown格式的文件导入,一种简单的博客撰写方法就是用Anaconda中的notebook写好文章内容后,导出为Markdown格式,再上传至CSDN后台。具体步骤如下:第一步:点击开始菜单栏,进入Jupyter Notebook,如图中箭头所示:第二步:进入Jupyter Notebook之后,新建文件。点击New— —Python3(这里的编译环境可以根据需要自行选择)第三步:开始进行博文的撰写。值得注意的是:需要进行标题、文字、代码不同内容之间的切换,如图中箭头所示。

2021-01-13 17:16:38 1834

原创 数据可视化之饼状图(原理+Python代码)

数据来源于Kaggle数据集,链接:https://www.kaggle.com/Cornell-University/arxiv目录一、原理介绍二、代码实现三、结果解释一、原理介绍饼状图是数据可视化中的一种基本图形,常用于展示某一分类变量中各个类别所占的比例。根据饼状图中各个扇形所占的角度大小,可以比较得出数量多的类别和数量少的类别。此外,分类变量可视化的图形还有树形图、玫瑰图、雷达图等。这里通过绘制扇形图,来比较计算机各个方向发表论文数量的差异。二、代码实现#加载常用模块import pa

2021-01-13 16:08:33 5036

原创 数据可视化之热力图&相关系数图(原理+Python代码)

目录一、原理介绍二、代码实现三、结果解释一、原理介绍热力图,又名相关系数图。根据热力图中不同方块颜色对应的相关系数的大小,可以判断出变量之间相关性的大小。两个变量之间相关系数的计算公式为:ρX1X2=Cov(X1,X2)DX1,DX2=EX1X2−EX1∗EX2DX1∗DX2\rho _{_{X_{1}X_{2}}}=\frac{Cov(X_{1},X_{2})}{\sqrt{DX_{1},DX_{2} }}=\frac{EX_{1}X_{2}-EX_{1}\ast EX_{2}}{\sqrt{DX_

2021-01-12 22:46:07 102258 20

原创 数据可视化之树形图(原理+Python代码)

目录一、原理介绍二、代码实现三、结果解释一、原理介绍树形图常用于对分类变量进行可视化分析,树形图的面积代表了所对应类别的数量,常用于比较各类别在数量上的差异。二、代码实现数据来源于上市企业数据,通过绘制树形图,来比较不同行业的企业数量分布差异。import squarify from pyforest import *import warningswarnings.filterwarnings('ignore')import numpy as npimport pandas as pd

2021-01-07 21:59:59 6263 1

原创 数据可视化之堆叠面积图(原理+Python代码)

目录一、原理介绍二、代码实现三、结果解释一、原理介绍面积图,又称区域图,可以看成是进行颜色填充后的折线图。这种图形不仅可以展示数据的波动和趋势,其围成的面积还可以直观地反映数据量的大小。面积图可分为两种,一般面积图和堆叠面积图。二者的差别如下:一般面积图:图中所有的数据都按照实际值绘制,即从相同的零轴开始。堆叠面积图:每一个变量的起点不同,依次在前一个变量的数值上进行叠加。图形的总面积表现为各个变量值的总量。通过比较不同颜色的面积块,可以得出不同的变量在数值上的差异,对应面积块越大的变量,其数值也

2021-01-07 21:31:09 8623

原创 数据可视化之折线图(原理+Python代码)

折线图是一种线形图,常用于展示数据的波动情况,与时间序列图类似。数据来源于某上市企业2000年至2017年的资产负债率(标准化后的),用来观察该企业在此期间的资产负债率的变化情况。下面是代码的实现过程:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings("ignore") #过滤掉警告的意思data=pd.read_csv("F:

2021-01-06 21:58:57 2626

原创 图像识别之字符识别方法

数据来源于天池赛题:零基础入门CV之街道字符识别地址:https://tianchi.aliyun.com/competition/entrance/531795/introduction对于不定长和不规则的字符而言,有多种CV方法可以对其进行识别,下面将做一个具体的介绍。目录1.定长字符识别2.不定长字符识别3.先进行字符检测,然后再识别1.定长字符识别图片中的字符有长有短,我们可以考虑将不同长度的字符转化为同样的长度。步骤如下:先找出众多图片中最长字符的长度取最长的字符作为定长字符对于

2020-05-20 23:19:29 3426

原创 模型融合之Stacking(原理+Python代码)

数据来源于天池赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX目录一、原理介绍二、代码实现三、结果解读一、原理介绍在数据挖掘过程中,单个模型的泛化能力往往比较单薄,而模型融...

2020-04-03 20:02:21 10396 5

原创 集成学习之XGBoost算法(原理+Python代码)

数据来源于天池赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX目录一、原理介绍二、代码实现三、结果解读一、原理介绍XGBoost作为一种提升树,通过集成多棵树,对数据具有极...

2020-03-31 23:01:37 1403

原创 特征工程之嵌入式 随机森林度量各指标的重要性(原理+Python代码)

数据来源于天池赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX目录一、原理介绍二、代码实现三、结果解读一、原理介绍在数据挖掘中,特征工程往往是最为重要也是耗时最长的一个环节...

2020-03-28 13:05:34 3518 2

原创 数据可视化之小提琴图(原理+Python代码)

数据可视化之小提琴图(原理+代码Python)数据来源于天池赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX目录数据可视化之小提琴图(原理+代码Python)一、原理介绍二、...

2020-03-22 17:30:58 13820 5

Web Scraper爬虫学习笔记&思维导图.html

Web Scraper是一款简单好用的谷歌插件,用于爬取网页数据。思维导图涵盖了爬取二级页面,表格,文本,翻页等基本爬虫的操作过程,适合入门学习。

2020-05-15

《大数据与机器学习-实践方法与行业案例》读书笔记&思维导图.html

《大数据与机器学习-实践方法与行业案例》读书笔记&思维导图,看书时做的笔记,分章节写的,比较全,方便查找。

2020-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除