bantun1904-CSDN博客

转载淘宝用户行为分析

目录环境正文 1. 项目背景 2. 明确分析思路和目的 2.1 what 什么是用户行为分析？ 2.2 why 为什么进行用户行为分析？ 2.3 how 如何进行用户行为分析? 3. 数据概览 ...

2019-04-17 23:01:00 560

转载机器学习--逻辑回归模型原理

在前面所介绍的线性回归, 岭回归和Lasso回归这三种回归模型中, 其输出变量均为连续型, 比如常见的线性回归模型为:其写成矩阵形式为:现在这里的输出为连续型变量, 但是实际中会有"输出为离散型变量"这样的需求, 比如给定特征预测是否离职(1表示离职, 0表示不离职). 显然这时不能直接使用线性回归模型, 而逻辑回归就派上用场了.1. 逻辑回归引用百度百科定义...

2019-03-16 18:28:00 741

转载机器学习--Lasso回归和岭回归

之前我们介绍了多元线性回归的原理, 又通过一个案例对多元线性回归模型进一步了解, 其中谈到自变量之间存在高度相关, 容易产生多重共线性问题, 对于多重共线性问题的解决方法有:删除自变量, 改变数据形式, 添加正则化项, 逐步回归, 主成分分析等. 今天我们来看看其中的添加正则化项.添加正则化项, 是指在损失函数上添加正则化项, 而正则化项可分为两种: 一种是L1正则化项, 另一种是...

2019-03-16 18:12:00 607

转载机器学习--线性回归模型原理

线性回归, 是回归分析中的一种, 其表示自变量与因变量之间存在线性关系. 回归分析是从数据出发, 考察变量之间的数量关系, 并通过一定的数学关系式将这种关系描述出来, 再通过关系式来估计某个变量的取值, 同时给出该估计的可靠程度. 下面我们从一元线性回归开始说起.1.一元线性回归在回归分析中如果只涉及一个自变量(用来预测的变量)和一个因变量(要预测的变量), 这时就称为一元回归...

2019-03-16 17:56:00 1301

转载机器学习--k-means聚类原理

“物以类聚，人以群分”, 所谓聚类就是将相似的元素分到一"类"(有时也被称为"簇"或"集合"), 簇内元素相似程度高, 簇间元素相似程度低. 常用的聚类方法有划分聚类, 层次聚类, 密度聚类, 网格聚类, 模型聚类等. 我们这里重点介绍划分聚类.1. 划分聚类划分聚类, 就是给定一个样本量为N的数据集, 将其划分为K个簇(K<N), 每一个簇中至少包含一个样本点.大部...

2019-03-16 17:36:00 214

转载机器学习--朴素贝叶斯模型原理

朴素贝叶斯中的朴素是指特征条件独立假设, 贝叶斯是指贝叶斯定理,我们从贝叶斯定理开始说起吧.1. 贝叶斯定理贝叶斯定理是用来描述两个条件概率之间的关系1). 什么是条件概率?如果有两个事件A和B, 条件概率就是指在事件B发生的条件下, 事件A发生的概率, 记作P(A|B).若P(A)>0, 则满足以下公式若P(B) > 0, 同理.通过条件...

2019-03-16 16:14:00 374

转载关联分析原理小结

1. 关联关联, 指的是关联分析, 这里引用百度百科的定义.关联分析又称关联挖掘，就是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。通过关联分析, 可以挖掘出"由于某些事件的发生而引起另外一些事件的发生"之类的规则, 比如说"炸鸡>>啤酒", 其中炸鸡被称为规则的前项, 而啤酒则被称为规则的后项.常用于...

2019-01-14 18:01:00 1094

转载批发经销商客户价值细分

前言通常来说，在传统零售行业中80%的收益来自于20%的客户，因此对客户的价值进行分类显得尤其重要，而在本文我们基于批发经销商客户的真实消费数据，建立K-means聚类模型来对客户价值进行细分。目录1.数据来源及背景2.明确分析目的3.数据探索分析4.数据预处理5. 构建模型6. 客户价值细分正文1. 数据来源及背景数据来源: http...

2019-01-07 14:19:00 511

转载员工离职预测

前言员工离职，似乎已经成为每一家企业都要面对的问题，特别是优秀人才离职的问题会让领导特别头疼。今天我们就通过kaggle上某一家企业员工离职的真实数据来对离职率进行分析建模，并对预测结果显示要离职的员工提出挽留建议。目录1.数据来源及背景2.明确分析目的3.数据探索分析4.数据预处理5. 可视化分析6. 特征工程7. 逻辑回归模型8. 朴素...

2019-01-02 12:55:00 2342

转载共享单车租赁需求预测

前言现如今，共享单车在生活中可谓处处可见，那么它的租赁需求是多少呢？今天我们就基于美国华盛顿共享单车的租赁数据，对租赁需求进行预测。目录1.数据来源及背景2.数据探索分析3.数据预处理4.可视化分析5. 回归分析正文1. 数据来源及背景数据来源: https://www.kaggle.com/c/bike-sharing-demand/da...

2018-12-25 10:12:00 2120

转载循环发电厂电能输出预测

前言本次项目是就某联合循环发电厂的数据，运用线性回归模型进行预测电能输出，若文中出现错误的地方，还望指正，谢谢！目录1. 数据来源及背景2. 数据探索分析3. 相关分析4. 回归分析5. 多重共线性6. 模型应用正文1. 数据来源及背景数据来源:http://archive.ics.uci.edu/ml/machine-learning-da...

2018-12-15 18:05:00 1405

转载电视剧评论情感分析

前言生活中，大多数人会将看电视或看电影作为一种休闲娱乐方式，而在观看的途中或结束后也会产生相应的评论，这一系列的评论往往代表了评论者当时的情感倾向，下面我们就优酷电视剧《回到明朝当王爷之杨凌传》的评论进行情感分析。目录1. 明确分析目的和思路2. 收集数据3. 数据预处理4 构建模型5. 情感分析6. 词云图分析7. 总结环境win8, py...

2018-11-16 13:43:00 1026

转载 Python爬虫项目--爬取链家热门城市新房

本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途)环境win8, python 3.7, pycharm正文1. 目标网站分析通过分析, 找出相关url, 确定请求方式, 是否存在js加密等.2. 新建scrapy项目1. 在cmd命令行窗口中输入以下命令, 创建lianjia项目scrapy startproject ...

2018-11-09 17:58:00 221

转载数据分析岗位招聘情况

本次主要围绕数据分析岗位的招聘情况, 进行一个简单的数据分析环境win8, python3.7, pycharm, jupyter notebook正文1. 明确分析目的了解数据分析岗位的最新招聘情况, 包括地区分布, 学历要求, 经验要求, 薪资水平等.2. 数据收集这里借助爬虫, 爬取招聘网站的招聘信息, 进而分析出相关的薪资以及招聘要求.2.1 目...

2018-11-02 13:37:00 896

转载 Iris数据集实战

本次主要围绕Iris数据集进行一个简单的数据分析, 另外在数据的可视化部分进行了重点介绍.环境win8, python3.7, jupyter notebook目录1. 项目背景2. 数据概览3. 特征工程4. 构建模型正文1. 项目背景鸢尾属(拉丁学名：Iris L.), 单子叶植物纲, 鸢尾科多年生草本植物, 开的花大而美丽, 观赏价值很高. ...

2018-10-26 18:25:00 977

转载泰坦尼克号幸存预测

本次项目主要围绕Kaggle上的比赛题目: "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存" 进行数据分析环境win8, python3.7, jupyter notebook目录1. 项目背景2. 数据概览3. 特征分析4. 特征工程5. 构建模型正文1. 项目背景泰坦尼克号:是当时世界上体积最庞大、内部设施最豪华的客运轮船,于190...

2018-10-24 17:37:00 462

转载 Python项目--Scrapy框架(二)

本文主要是利用scrapy框架爬取果壳问答中热门问答, 精彩问答的相关信息环境win8, python3.7, pycharm正文1. 创建scrapy项目文件在cmd命令行中任意目录下执行以下代码, 即可在该目录下创建GuoKeWenDa项目文件scrapy startproject GuoKeWenDa2. 创建爬虫主程序在cmd中切换到G...

2018-10-15 19:32:00 104

转载 Python项目--Scrapy框架(一)

环境win8, python3.7, pycharm正文1.Scrapy框架的安装在cmd命令行窗口执行:pip install Scrapy即可完成Scrapy框架的安装2. 创建Scrapy项目在cmd命令行窗口下切换到想要的目录下, 我这里是C:\Users\Administrator\PycharmProjects\untitled\Tes...

2018-10-15 16:21:00 78

转载 Python数据分析--Pandas知识点(三)

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘.Python数据分析--Pandas知识点(一)Python数据分析--Pandas知识点(二)下面将是在知识点一, 二的基础上继续总结.前面所介绍的都是以表格的形式中展现数据, 下面将介绍Pandas与Matplotlib配合绘制出折线图, 散点图, 饼图, 柱形图, 直方图等五大基本图...

2018-10-01 22:33:00 364

转载解决在jupyter notebook中遇到的ImportError: matplotlib is required for plotting问题

昨天学习pandas和matplotlib的过程中, 在jupyter notebook遇到ImportError: matplotlib is required for plotting错误, 以下是解决该问题的具体描述, 在此记录, 给后面学习的朋友提供一个参考.环境win8.1, python3.7, jupyter notebook问题描述1 import ...

2018-09-29 18:52:00 1829

转载 Python数据分析--Pandas知识点(二)

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘.Python数据分析--Pandas知识点(一)下面将是在知识点一的基础上继续总结.13. 简单计算新建一个数据表df1 import pandas as pd2 3 df = pd.DataFrame({"地区": ["A区","B区", "C区"],4 ...

2018-09-27 20:13:00 242

转载 Python数据分析--Pandas知识点(一)

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘1. 重复值的处理利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID.1 import pandas as pd2 df = pd.DataFrame({"ID": ["A1000","A1001","A1002", "A1002"],3 ...

2018-09-26 16:26:00 139

转载 Python爬虫项目--爬取某宝男装信息

本次爬取用到的知识点有:1. selenium2. pymysql3 pyquery正文1. 分析目标网站1. 打开某宝首页, 输入"男装"后点击"搜索", 则跳转到"男装"的搜索界面.2. 空白处"右击"再点击"检查"审查网页元素, 点击"Network".1) 找到对应的URL, URL里的参数正是Query String Parameters的参数...

2018-09-17 20:12:00 163

转载 Python爬虫项目--爬取自如网房源信息

本次爬取自如网房源信息所用到的知识点:1.requests get请求2. lxml解析html3. Xpath4. MongoDB存储正文1.分析目标站点1. url:http://hz.ziroom.com/z/nl/z3.html?p=2 的p参数控制分页2. get请求2.获取单页源码 1 # -*- coding: utf-8 -...

2018-09-13 21:24:00 378

转载 Python爬虫项目--爬取猫眼电影Top100榜

本次抓取猫眼电影Top100榜所用到的知识点:1.python requests库2.正则表达式3.csv模块4.多进程正文目标站点分析通过对目标站点的分析,来确定网页结构,进一步确定具体的抓取方式.1. 浏览器打开猫眼电影首页,点击"榜单", 点击"Top100榜",即可看到目标页面.2.浏览网页, 滚动到下方发现有分页, 切...

2018-09-11 20:24:00 331