Lyumi-CSDN博客

原创 26、27 K-Means

K-Means:非监督，聚类。过程：1、随机抽取K个中心点；2、所有点就近（常用欧式距离）分配成K个类，再重新计算每个类的中心点（平均值）；3、重复2，直至类不发生变化，或是达到设定的最大迭代次数。使用sklearn的K-Means:from sklearn.cluster import KMeansK-Means类构造函数：KMeans(n_clusters=8, init='...

2019-06-18 10:13:47 154

原创 24、25 KNN及实例

K近邻原理：1、计算待分类物体与其他已知物体的距离2、找出距离最近的K个邻居3、这K个邻居中，属于哪个分类的最多，则待分类物体属于哪类。K值的选择K不能过小，否则可能会因为噪声而产生分类误差，分类过拟合；K也不能过大，鲁棒性强，但会欠拟合。K值是工程实践得到的，。交叉验证将样本集中大部分样本作为训练集，剩余的部分做测试集，来验证分类模型的准确性，K值一般选取在较小范围内，并且...

2019-06-12 20:12:44 205

原创 22、23 SVM支持向量机概念及实例

SVM是有监督学习模型，可以进行模式识别、分类及回归分析。工作原理：SVM就是找到一个超平面，将样本划分开，并且使样本集中的样本点到这个分类超平面的最小距离（分类间隔）最大化。n维空间超平面的数学表达式为：上图中di是样本点xi到超平面的欧氏距离，目的是求di的最小值，作为该样本到超平面的最短距离。SVM的目标就是找出所有分类间隔中最大的值对应的最优超平面。硬间隔：完全线性可分，找...

2019-06-11 20:24:02 224

原创第二十一讲朴素贝叶斯分类下：文档分类

朴素贝叶斯分类最适合的场景有文本分类、情感分析和垃圾邮件识别。本质都是文本分类，也常用于自然语言处理NLP（AI子领域）工具。用朴素贝叶斯做文档分类项目，需要用到sklearn机器学习工具。sklearn机器学习包高斯朴素贝叶斯(GaussianNB)、多项式朴素贝叶斯(MultinomialNB)和伯努利朴素贝叶斯(BernoulliNB)。根据特征变量的不同选择不同算法。高斯朴素贝叶斯...

2019-03-31 17:18:39 272

原创网易云音乐Eason Chen 歌词词云

目标：提取陈奕迅的歌词常用词，并做词语展示大致过程如图片所示（来自极客时间-数据分析实战）过程需要三种工具：1、词云制作工具：python提供了词云工具WordCloud。词云构造函数：wc = WordCloud( background_color='white',# 设置背景颜色 mask=backgroud_Image,# 设置背景图片 font_path...

2019-03-19 22:10:56 996

原创用SQL分析北京周边城市：天津以及保定房价

同样用八爪鱼爬取数据，在安居客上抓取了保定1500条二手房源信息，如下：进行数据清洗：导入数据库1、每个区有多少房子在出售可以看出在涿州卖的房子是最多的，几乎是莲池区的二倍。2、各区的热门小区3、主力售卖的户型可以看出主力售卖二居室以及三居室的房子，反应了人们的购房需求4、各区的房价排名可以看出，保定最贵地区的房子是莲池区，也是位于保定市中心的位置，...

2019-03-17 15:49:57 507 1

原创用EXCEL分析房价

用八爪鱼从链家网二手房抓取北京、上海、广州、深圳、成都、天津、杭州、哈尔滨、保定、厦门、沈阳、三亚、武汉、南京、张家口十五个城市的房源，每个城市约1000条。一、提出问题：城市房价排名是怎样的？各个城市新老小区的占比是怎样的？北京的房价受哪些因素影响？哪户型的房子关注量最大？卖家主力售卖哪种？实际问题：如果想在北京购买两室一厅大约八十到九十平的房子，最少预算是多少？二、进行数据清洗...

2019-03-17 11:44:31 3712 2

原创第二十讲朴素贝叶斯分类上

贝叶斯原理的几个概念：先验概率：通过经验判断事情发生的概率。后验概率：发生结果后推测原因的概率。条件概率： B发生条件下A的概率。似然函数：描述概率可能性的参数。贝叶斯原理就是求解后验概率。贝叶斯公式为：朴素贝叶斯是一种简单但强大的预测建模算法。假设每个输入变量都是独立的。需要统计属性的条件概率。为训练朴素贝叶斯模型，需要将类别概率和条件概率在训练数据中计算出来，之后可以...

2019-02-27 21:15:52 136

原创第十七、十八、十九讲决策树

决策树就是将经验进行总结，在做决策树的时候，会经历两个阶段：构造和剪枝。构造的过程就是选择什么属性作为节点的过程，分为根节点、内部节点和叶节点，节点之间存在父子关系。剪枝就是给决策树瘦身，实现目标是，不需要太多判断也能得到不错的结果，是为了防止“过拟合”现象的发生。左侧为欠拟合，右侧为过拟合。造成过拟合的原因之一是训练集中样本量较小。，决策树选择的属性过多，模型的“泛化能力”差。剪枝可...

2019-02-07 16:03:56 1025

原创第十四、十五讲数据可视化

数据可视化视图有很多，需要掌握视图的使用和其背后的目的，包括以下九种情况：需要思考，用户是谁，想呈现的内容，突出数据怎样的特点，以及采用哪种视图呈现。可视化工具工具分为以下几类：商业智能分析软件、可视化大屏、前端可视化组件和编程语言类。1、商业智能分析Tableau、PowerBI和中国软帆的FineBI2、可视化大屏类DataV、FineReport3.前端可视化组件基于W...

2019-01-22 15:23:26 381

原创第十三讲数据变换

数据变换是数据准备的重要环节，它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转化成适用于数据挖掘的形式。数据平滑：去除数据中的噪声，将连续的数据离散化。可采用分箱、聚类和回归的方式进行数据平滑。数据聚集：对数据进行汇总，在SQL中有一些聚集函数，如：Max()、Sum().数据概化：用较高的概念替换较低的概念。如：上海、北京、深圳可以概化为中国。数据规范化：使属性数据按比例缩放，...

2019-01-21 11:20:46 2181

原创第十二讲数据集成

数据集成就是将多个数据源合并存放在一个数据存储中，从而方便后续的数据挖掘工作。数据集成更广泛的意义包括数据清洗、数据抽取、数据集成和数据变换等操作。数据集成的两种架构：ELT和ETLETL包括数据抽取(Extract)、转换(Transform)和加载(Load)三个过程。抽取是将数据从已有的数据源中提取出来。转换是将原始数据进行处理。加载是将表写入目的地。ELT是将抽取后的结果先写入...

2019-01-16 21:03:47 1359 1

原创第十一讲数据清洗

数据采集完，要进行数据清洗工作，整个数据分析过程中，数据清洗工作几乎要占到80%的时间。数据质量的准则数据清洗规则总结为四个关键点：“完全合一”。1、完整性：单条数据是否存在空值，统计的字段是否完善。2、全面性：观察某一列的全部数值，比如平均值、最大值、最小值，根据常识判断是否有问题。如：数据定义、单位标识、数值本身。3、合法性：数据的类型、内容、大小的合法性。如：存在非ASCII字符、...

2019-01-15 11:01:48 1714

原创第十讲 Python爬虫

爬虫是用浏览器访问的方式，模拟了访问网站的过程。包括的三个阶段及对应工具：（1）打开网页：用Requests访问页面，得到服务器返回的数据，包括HTML页面以及JSON数据。（2）提取数据：针对HTML页面，使用XPath进行元素定位，提取数据；针对JSON数据，使用JSON进行解析。（3）保存数据：使用Pandas保存数据，最后导出CSV文件。Requests访问页面Requests...

2019-01-09 10:33:32 290

原创第九讲数据采集：用八爪鱼采集微博评论

这是专栏里的总结图，这一讲主要是对“八爪鱼”这个数据采集器进行了简要介绍，包括设计流程以及应用案例。练习：通过八爪鱼抓取豆瓣网上关于《海王》的评论。（1）输入网页：https://movie.douban.com/（2）输入关键词（3）点击搜索（4）设置循环翻页（必须先设置循环条件）（5）选择提取元素选择单条内容的最大选择区域，点击选中子元素—选中全部（6）启动采集数据量...

2019-01-07 15:01:05 14113

原创第八讲数据的采集

数据采集是数据挖掘的基础。一个数据的走势，是由多个维度影响的，需要通过多源的数据采集，收集尽可能多的数据维度，同时保证数据质量。数据源分为以下四类：开放数据源：针对行业的数据库。爬虫抓取：针对特定的网站和APP日志采集：统计用户的操作。在前端进行埋点，后端进行脚本收集和统计，进而分析网站的访问情况，以及使用瓶颈等。传感器：采集物理信息。采集方法1、开放数据源从两个维度考虑，一...

2019-01-04 10:14:54 447

原创第七讲用户画像

用户画像的准则1. 设计唯一标识用户唯一标识是用户画像的核心。唯一标识可以是：用户名、注册手机号、邮箱等等2. 给用户打标签从四个维度进行标签划分，总结为“用户消费行为分析”用户标签：用户的基础属性，包括性别、年龄、地域、学历等。消费标签：消费习惯、购买意向、是否对促销敏感等。行为标签：分析用户行为，得到使用APP的习惯，包括时间段、频次、时长、访问路径等。内容分析：对...

2019-01-03 18:44:17 305

原创第六讲数据分析基本概念

商业智能（BI Business Intelligence）基于数据仓库，经过数据挖掘，得到商业价值的过程。数据仓库（DW Data Warehouse）是数据库的升级概念，通过数据库技术来存储数据，将原有的多个数据源中的数据进行汇总、整理得到，数据在进入数据仓库前，必须消除数据中的不一致性。数据挖掘（DM Data Mining）数据挖掘的核心包括分类、聚类、预测、关联分析等任务。元...

2019-01-03 17:14:04 270

原创第五讲 Pandas

Pandas是基于Numpy构建的更高级的数据结构和分析能力的工具包。核心数据结构：Series和DataFrameSeries是定长的字典序列Series基本属性:index和valueimport pandas as pdfrom pandas import Series,DataFramex1 = Series([1,2,3,4])x2 = Series(data=[1,2,...

2019-01-03 15:48:56 165

原创第四讲 NumPy快速处理数据

NumPy是Python中非常重要的第三方库。提供的数据结构更高级与高效。NumPy有两个重要对象：ndarray和ufunc.ndarray对象多维数组。创建数组import numpy as npa = np.array([1,2,3])#创建数组b = np.array([[1,2],[3,4],[5,6]])b[1,1]=10#修改数值print(a.shape)#数...

2018-12-26 13:51:07 159

原创第三讲 Python基础语法

安装及IDE环境1. 版本选择2.7.x和3.x两种，主要看项目是否依赖于Python2.7的包。2. IDE新手推荐 Sublime Text3 ，上手简单反应速度快（之前我用的是Anaconda , 用里面的Jupyter编写，觉得还可以，不打算换了）基础语法这个我之前有看菜鸟教程python3, 专栏中提出最基础的有：输入输出、判断语句（if…elif…else）、循环语句（fo...

2018-12-20 16:25:09 95

原创第二讲学习数据挖掘的最佳路径

1. 什么是数据挖掘例子：在大海中寻找石油，开采人员对地质做勘探，分析地质构造，从而发现石油位置，然后用开采工具，进行深度挖掘，直至打到石油。例子：在大海中寻找石油，开采人员对地质做勘探，分析地质构造，从而发现石油位置，然后用开采工具，进行深度挖掘，直至打到石油。大海就是数据源，石油就是分析的结果。数据挖掘工作就是分析这些数据，从庞大的数据中找到规律，发现宝藏。2. 数据挖掘知识清单...

2018-12-20 10:56:05 244

qq_43466427的博客