自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 26、27 K-Means

K-Means:非监督,聚类。过程:1、随机抽取K个中心点;2、所有点就近(常用欧式距离)分配成K个类,再重新计算每个类的中心点(平均值);3、重复2,直至类不发生变化,或是达到设定的最大迭代次数。使用sklearn的K-Means:from sklearn.cluster import KMeansK-Means类构造函数:KMeans(n_clusters=8, init='...

2019-06-18 10:13:47 154

原创 24、25 KNN及实例

K近邻原理:1、计算待分类物体与其他已知物体的距离2、找出距离最近的K个邻居3、这K个邻居中,属于哪个分类的最多,则待分类物体属于哪类。K值的选择K不能过小,否则可能会因为噪声而产生分类误差,分类过拟合;K也不能过大,鲁棒性强,但会欠拟合。K值是工程实践得到的, 。交叉验证将样本集中大部分样本作为训练集,剩余的部分做测试集,来验证分类模型的准确性,K值一般选取在较小范围内,并且...

2019-06-12 20:12:44 205

原创 22、23 SVM支持向量机概念及实例

SVM是有监督学习模型,可以进行模式识别、分类及回归分析。工作原理:SVM就是找到一个超平面,将样本划分开,并且使样本集中的样本点到这个分类超平面的最小距离(分类间隔)最大化。n维空间超平面的数学表达式为:上图中di是样本点xi到超平面的欧氏距离,目的是求di的最小值,作为该样本到超平面的最短距离。SVM的目标就是找出所有分类间隔中最大的值对应的最优超平面。硬间隔:完全线性可分,找...

2019-06-11 20:24:02 224

原创 第二十一讲 朴素贝叶斯分类下:文档分类

朴素贝叶斯分类最适合的场景有文本分类、情感分析和垃圾邮件识别。本质都是文本分类,也常用于自然语言处理NLP(AI子领域)工具。用朴素贝叶斯做文档分类项目,需要用到sklearn机器学习工具。sklearn机器学习包高斯朴素贝叶斯(GaussianNB)、多项式朴素贝叶斯(MultinomialNB)和伯努利朴素贝叶斯(BernoulliNB)。根据特征变量的不同选择不同算法。高斯朴素贝叶斯...

2019-03-31 17:18:39 272

原创 网易云音乐Eason Chen 歌词词云

目标:提取陈奕迅的歌词常用词,并做词语展示大致过程如图片所示(来自极客时间-数据分析实战)过程需要三种工具:1、词云制作工具:python提供了词云工具WordCloud。词云构造函数:wc = WordCloud( background_color='white',# 设置背景颜色 mask=backgroud_Image,# 设置背景图片 font_path...

2019-03-19 22:10:56 996

原创 用SQL分析北京周边城市:天津以及保定房价

同样用八爪鱼爬取数据,在安居客上抓取了保定1500条二手房源信息,如下:进行数据清洗:导入数据库1、每个区有多少房子在出售可以看出在涿州卖的房子是最多的,几乎是莲池区的二倍。2、 各区的热门小区3、 主力售卖的户型可以看出主力售卖二居室以及三居室的房子,反应了人们的购房需求4、 各区的房价排名可以看出,保定最贵地区的房子是莲池区,也是位于保定市中心的位置,...

2019-03-17 15:49:57 507 1

原创 用EXCEL分析房价

用八爪鱼从链家网二手房抓取北京、上海、广州、深圳、成都、天津、杭州、哈尔滨、保定、厦门、沈阳、三亚、武汉、南京、张家口十五个城市的房源,每个城市约1000条。一、提出问题:城市房价排名是怎样的?各个城市新老小区的占比是怎样的?北京的房价受哪些因素影响?哪户型的房子关注量最大?卖家主力售卖哪种?实际问题:如果想在北京购买两室一厅大约八十到九十平的房子,最少预算是多少?二、进行数据清洗...

2019-03-17 11:44:31 3712 2

原创 第二十讲 朴素贝叶斯分类上

贝叶斯原理的几个概念:先验概率: 通过经验判断事情发生的概率。后验概率: 发生结果后推测原因的概率。条件概率: B发生条件下A的概率。似然函数: 描述概率可能性的参数。贝叶斯原理就是求解后验概率。贝叶斯公式为:朴素贝叶斯是一种简单但强大的预测建模算法。假设每个输入变量都是独立的。需要统计属性的条件概率。为训练朴素贝叶斯模型,需要将类别概率和条件概率在训练数据中计算出来,之后可以...

2019-02-27 21:15:52 136

原创 第十七、十八、十九讲 决策树

决策树就是将经验进行总结,在做决策树的时候,会经历两个阶段:构造和剪枝。构造的过程就是选择什么属性作为节点的过程,分为根节点、内部节点和叶节点,节点之间存在父子关系。剪枝就是给决策树瘦身,实现目标是,不需要太多判断也能得到不错的结果,是为了防止“过拟合”现象的发生。左侧为欠拟合,右侧为过拟合。造成过拟合的原因之一是训练集中样本量较小。,决策树选择的属性过多,模型的“泛化能力”差。剪枝可...

2019-02-07 16:03:56 1025

原创 第十四、十五讲 数据可视化

数据可视化视图有很多,需要掌握视图的使用和其背后的目的,包括以下九种情况:需要思考,用户是谁,想呈现的内容,突出数据怎样的特点,以及采用哪种视图呈现。可视化工具工具分为以下几类:商业智能分析软件、可视化大屏、前端可视化组件和编程语言类。1、商业智能分析Tableau、PowerBI和中国软帆的FineBI2、可视化大屏类DataV、FineReport3.前端可视化组件基于W...

2019-01-22 15:23:26 381

原创 第十三讲 数据变换

数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转化成适用于数据挖掘的形式。数据平滑:去除数据中的噪声,将连续的数据离散化。可采用分箱、聚类和回归的方式进行数据平滑。数据聚集:对数据进行汇总,在SQL中有一些聚集函数,如:Max()、Sum().数据概化:用较高的概念替换较低的概念。如:上海、北京、深圳可以概化为中国。数据规范化:使属性数据按比例缩放,...

2019-01-21 11:20:46 2181

原创 第十二讲 数据集成

数据集成就是将多个数据源合并存放在一个数据存储中,从而方便后续的数据挖掘工作。数据集成更广泛的意义包括数据清洗、数据抽取、数据集成和数据变换等操作。数据集成的两种架构:ELT和ETLETL包括数据抽取(Extract)、转换(Transform)和加载(Load)三个过程。抽取是将数据从已有的数据源中提取出来。转换是将原始数据进行处理。加载是将表写入目的地。ELT是将抽取后的结果先写入...

2019-01-16 21:03:47 1359 1

原创 第十一讲 数据清洗

数据采集完,要进行数据清洗工作,整个数据分析过程中,数据清洗工作几乎要占到80%的时间。数据质量的准则数据清洗规则总结为四个关键点:“完全合一”。1、完整性:单条数据是否存在空值,统计的字段是否完善。2、全面性:观察某一列的全部数值,比如平均值、最大值、最小值,根据常识判断是否有问题。如:数据定义、单位标识、数值本身。3、合法性:数据的类型、内容、大小的合法性。如:存在非ASCII字符、...

2019-01-15 11:01:48 1714

原创 第十讲 Python爬虫

爬虫是用浏览器访问的方式,模拟了访问网站的过程。包括的三个阶段及对应工具:(1)打开网页:用Requests访问页面,得到服务器返回的数据,包括HTML页面以及JSON数据。(2)提取数据:针对HTML页面,使用XPath进行元素定位,提取数据;针对JSON数据,使用JSON进行解析。(3)保存数据:使用Pandas保存数据,最后导出CSV文件。Requests访问页面Requests...

2019-01-09 10:33:32 290

原创 第九讲 数据采集:用八爪鱼采集微博评论

这是专栏里的总结图,这一讲主要是对“八爪鱼”这个数据采集器进行了简要介绍,包括设计流程以及应用案例。练习:通过八爪鱼抓取豆瓣网上关于《海王》的评论。(1)输入网页:https://movie.douban.com/(2)输入关键词(3)点击搜索(4)设置循环翻页(必须先设置循环条件)(5)选择提取元素选择单条内容的最大选择区域,点击选中子元素—选中全部(6)启动采集数据量...

2019-01-07 15:01:05 14113

原创 第八讲 数据的采集

数据采集是数据挖掘的基础。一个数据的走势,是由多个维度影响的,需要通过多源的数据采集,收集尽可能多的数据维度,同时保证数据质量。数据源分为以下四类:开放数据源:针对行业的数据库。爬虫抓取:针对特定的网站和APP日志采集:统计用户的操作。在前端进行埋点,后端进行脚本收集和统计,进而分析网站的访问情况,以及使用瓶颈等。传感器:采集物理信息。采集方法1、开放数据源从两个维度考虑,一...

2019-01-04 10:14:54 447

原创 第七讲 用户画像

用户画像的准则1. 设计唯一标识用户唯一标识是用户画像的核心。唯一标识可以是:用户名、注册手机号、邮箱等等2. 给用户打标签从四个维度进行标签划分,总结为“用户消费行为分析”用户标签: 用户的基础属性,包括性别、年龄、地域、学历等。消费标签: 消费习惯、购买意向、是否对促销敏感等。行为标签: 分析用户行为,得到使用APP的习惯,包括时间段、频次、时长、访问路径等。内容分析: 对...

2019-01-03 18:44:17 305

原创 第六讲 数据分析基本概念

商业智能(BI Business Intelligence)基于数据仓库,经过数据挖掘,得到商业价值的过程。数据仓库(DW Data Warehouse)是数据库的升级概念,通过数据库技术来存储数据,将原有的多个数据源中的数据进行汇总、整理得到,数据在进入数据仓库前,必须消除数据中的不一致性。数据挖掘(DM Data Mining)数据挖掘的核心包括分类、聚类、预测、关联分析等任务。元...

2019-01-03 17:14:04 270

原创 第五讲 Pandas

Pandas是基于Numpy构建的更高级的数据结构和分析能力的工具包。核心数据结构:Series和DataFrameSeries是定长的字典序列Series基本属性:index和valueimport pandas as pdfrom pandas import Series,DataFramex1 = Series([1,2,3,4])x2 = Series(data=[1,2,...

2019-01-03 15:48:56 165

原创 第四讲 NumPy快速处理数据

NumPy是Python中非常重要的第三方库。提供的数据结构更高级与高效。NumPy有两个重要对象:ndarray和ufunc.ndarray对象多维数组。创建数组import numpy as npa = np.array([1,2,3])#创建数组b = np.array([[1,2],[3,4],[5,6]])b[1,1]=10#修改数值print(a.shape)#数...

2018-12-26 13:51:07 159

原创 第三讲 Python基础语法

安装及IDE环境1. 版本选择2.7.x和3.x两种,主要看项目是否依赖于Python2.7的包。2. IDE新手推荐 Sublime Text3 ,上手简单反应速度快(之前我用的是Anaconda , 用里面的Jupyter编写,觉得还可以,不打算换了)基础语法这个我之前有看菜鸟教程python3, 专栏中提出最基础的有:输入输出、判断语句(if…elif…else)、循环语句(fo...

2018-12-20 16:25:09 95

原创 第二讲 学习数据挖掘的最佳路径

1. 什么是数据挖掘例子:在大海中寻找石油,开采人员对地质做勘探,分析地质构造,从而发现石油位置,然后用开采工具,进行深度挖掘,直至打到石油。 例子:在大海中寻找石油,开采人员对地质做勘探,分析地质构造,从而发现石油位置,然后用开采工具,进行深度挖掘,直至打到石油。 大海就是数据源,石油就是分析的结果。数据挖掘工作就是分析这些数据,从庞大的数据中找到规律,发现宝藏。2. 数据挖掘知识清单...

2018-12-20 10:56:05 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除