自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

初一的博客

克己复礼

  • 博客(87)
  • 资源 (3)
  • 收藏
  • 关注

原创 随机森林系列(一)——随机森林分类算法原理推导

一文看懂随机森林!

2020-05-08 11:26:56 6074

原创 线性回归、Lasso回归、岭回归预测北京PM2.5浓度

一、项目背景北京PM2.5浓度回归分析训练赛1.数据  数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据。  数据分为训练数据和测试数据,分别保存在pm25_train.csv和pm25_test.csv两个文件中。其中训练数据主要包括35746条记录,13个字段,主要字段说明如下:date:观测数据发生的日期(年-月-日)hour:观...

2019-12-26 17:46:24 5754 5

原创 KMeans算法项目实战:航空公司客户价值分析

一、背景与目标  通过对客户进行分类,区分无价值客户、高价值客户,企业针对不同价值的客户制定优化的个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值用户,实现企业利润最大化目标。数据为某航空公司的用户档案信息与航班记录。字段名称字段说明MEMBER_NOFFP_DATE...

2019-10-30 16:25:24 4189 4

原创 解决Pandas的to_excel()写入不同Sheet,而不会被重写

  在使用Pandas的to_excel()方法写入数据时,当我们想将多个数据写入一个Excel表的不同DataFrame中,虽然能够指定sheet_name参数,但是会重写整个Excel之后才会存储。import pandas as pd  现在我有三个DataFrame,分别是大众某车型的配置、外观和内饰数据。现在我想要将这三个DF存入一张表的不用sheet中>>> ...

2019-09-12 11:55:40 36865 12

原创 决策树系列(四)——基于决策树算法实现员工离职率预测

基于决策树算法实现员工离职率预测

2021-02-08 13:26:30 7138 3

原创 决策树系列(三)——基于决策树算法实现用户流失预测

基于决策树算法实现电信用户流失预测任务

2021-02-04 16:41:00 6272 6

原创 决策树系列(一)——从ID3,C4.5到CART树算法原理推导

从ID3,C4.5到CART树算法原理推导

2021-01-26 17:59:31 618

原创 聚类分析

聚类是数据挖掘和计算的基本任务,是**将大量数据集中具有"相似"特征的数据点或样本划分为一个类别**。聚类分析的基本思想是"物以类聚,人以群分",因此大量的数据集中必然存在相似的数据样本,基于这个假设就可以将数据区分出来,并发现不同类的特征。

2020-08-10 22:11:33 3973

原创 数据预处理Part9——数据降维

维度指的就是样本的数量或者特征的数量。一般无特别说明,指的都是特征数量。降维算法中的降维,指的就是降低特征矩阵中特征的数量。

2020-06-06 23:15:19 3585

原创 数据预处理Part8——数据共线性

所谓共线性问题是指输入的自变量之间存在较高的线性相关度

2020-06-04 14:07:54 5070

原创 数据预处理Part7——特征选择

特征选择就是从所有的特征中,选择出有意义,对模型有帮助的特征,以避免必须将所有特征都导入模型去训练的情况

2020-06-03 16:20:42 3577 2

原创 数据预处理Part6——数据抽样

样是从整体样本中通过一定的方法选择一部分样本。抽样是数据处理的基本步骤之一,也是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

2020-06-02 14:36:13 2850

原创 数据预处理Part5——样本分布不均衡

解决样本类别分布不均衡的问题

2020-05-31 11:18:14 4987

原创 数据预处理Part4——数据离散化

离散化,就是把无限空间中有限的个体映射到有限的空间中!

2020-05-26 21:16:42 12936 2

原创 数据预处理Part2——数据标准化

数据标准化是一个常用的数据预处理操作,目的是将不同规格的数据转换到统一规格或不同分布的数据转换到某个特定范围,以减少规模、特征、分布差异等对模型的影响。

2020-05-24 18:35:44 6830 1

原创 数据预处理Part3——真值转换

将分类数据和顺序数据转换为标志变量

2020-05-23 17:28:24 3013

原创 数据预处理Part1——数据清洗

在数据清洗过程中,主要处理的是**缺失值**、**异常值**和**重复值**。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作。达到去除异常、纠正错误、补足缺失的目的。

2020-05-22 14:48:54 42893 7

原创 基于CART树的银行贷款风控模型实现

基于CART树的银行贷款风控模型实现

2020-05-19 16:58:43 548 1

原创 LeetCode(Python实现)——Easy部分【Day9】

LeetCode(Python实现)——Easy部分【Day9】

2020-05-18 22:23:08 210

原创 LeetCode(Python实现)——Easy部分【Day8】

LeetCode(Python实现)——Easy部分【Day8】

2020-05-12 22:55:53 214

原创 LeetCode(Python实现)——Easy部分【Day7】

LeetCode(Python实现)——Easy部分【Day7】

2020-05-11 23:13:19 179

原创 LeetCode(Python实现)——Easy部分【Day6】

文章目录69. x 的平方根问题描述:解题思路代码实现70. 爬楼梯问题描述:解题思路代码实现83. 删除排序链表中的重复元素问题描述:解题思路代码实现69. x 的平方根问题描述:实现 int sqrt(int x) 函数。计算并返回 x 的平方根,其中 x 是非负整数。由于返回类型是整数,结果只保留整数的部分,小数部分将被舍去。示例 1:输入: 4输出: 2示例 2...

2020-05-07 23:54:50 145

原创 LeetCode(Python实现)——Easy部分【Day5】

LeetCode(Python实现)——Easy部分【Day5】

2020-05-06 23:02:36 197

原创 爬虫管理工具CrawlLab环境配置及使用

爬虫管理工具CrawlLab环境配置及使用

2020-04-30 10:27:21 2118 5

原创 LeetCode(Python实现)——Easy部分【Day4】

LeetCode(Python实现)——Easy部分【Day4】

2020-04-28 23:14:26 160

原创 LeetCode(Python实现)——Easy部分【Day3】

文章目录26. 合并两个有序链表问题描述:解题思路:代码实现:27. 移除元素问题描述:解题思路:代码实现:26. 合并两个有序链表问题描述:给定一个排序数组,你需要在 原地 删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。 示例 1:给定数组 nums = [...

2020-04-26 23:00:02 155

原创 LeetCode(Python实现)——Easy部分【Day2】

文章目录13. 罗马数字转整数问题描述:解题思路:代码实现:14. 最长公共前缀问题描述:解题思路:代码实现:解题思路2:代码实现2:20. 有效的括号问题描述:解题思路:代码实现:13. 罗马数字转整数问题描述:罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。字符 数值I 1V 5X ...

2020-04-24 23:52:20 188

原创 LeetCode(Python实现)——Easy部分【Day1】

文章目录1. 两数之和问题描述:解题思路:代码实现:7. 整数反转问题描述:解题思路:代码实现:9. 回文数问题描述:解题思路:代码实现:1. 两数之和问题描述:给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。 示例:给定 nums ...

2020-04-23 17:13:30 190

原创 决策树系列(二)——基于决策树算法实现泰坦尼克号生还预测

泰坦尼克号生还预测

2020-04-03 19:37:45 2470 5

原创 机器学习系列——决策树(一)

决策树决策树是一种非参数的有监督学习方法。他能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题

2020-03-31 22:58:47 577

原创 Python—WebSocket爬虫实战

1.WebSocket

2020-03-11 17:09:46 7362 7

原创 pandas处理Excel中的列转行

问题描述:在数据处理过程中,我们有时会遇到数据并不是我们想要的格式,比如给的数据表是这样的:然而我们需要的格式是这样的:这时,我们可以使用set_index()+stack()进行列转行:...

2020-03-10 13:06:04 1208

原创 如何提高爬虫的性能?

文章目录一. 基础理论1. 进程与线程2. 进程与线程的使用场景二. 代码实现1. 准备工作2. 单线程抓取3. 多线程抓取4. 多进程抓取一. 基础理论1. 进程与线程什么是进程?什么是线程?百度百科中是这样解释的:进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。程序是指令、数据及其组织形式的描述,进程是程...

2020-03-10 12:40:45 431

原创 深入理解线性回归与岭回归(数学推导)

线性回归推导1. 回顾  对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:用“残差和最小”确定直线位置...

2020-01-07 17:59:15 2178 6

原创 将Excel中的图片链接替换为图片

使用前提:第一行不能是合并单元格,openpyxl处理会出现问题openpyxl version > 3.0如果图片地址不是以.jpg结尾,需要更改requests部分代码from openpyxl import load_workbookfrom openpyxl.drawing.image import Imageimport requestswb =load_wo...

2019-12-18 18:12:55 4333 3

转载 数据可视化工具大全

转自:Alfred数据室原文地址:好看的数据可视化的图片是怎么样做的? - Alfred数据室的回答 - 知乎1. 动态条形图工具1.1 Flourish  Flourish是一个在线数据可视化网站,可以快速地把表格数据转换为各种各样好看的图表,并且,它提供的Bar Chart Race(动态条形图)有一套完整的参数让我们可以绘制出自己想要的动态条形图。  除此之外,它还可以用于绘制其...

2019-12-18 11:33:10 2635

原创 线性回归实例-----预测鲍鱼年龄

预测鲍鱼年龄前言  线性回归是监督学习的一个方向,用来预测连续的数值型数据。比如房价预测、销量预测等等。优点:计算简单,易于理解缺点:只使用与线性数据,对于非线性数据使用非线性回归模型使用条件:连续的数值型数据实战:预测鲍鱼年龄1.数据源 &emsp本文使用的数据源是从UCI数据库中获取。UCI数据库是有个常用的标准测试数据集。下载地址:https://archive...

2019-12-05 13:56:51 5934

原创 %matplotlib inline在Jupyter中到底有什么用?

%matplotlib inline在Jupyter中到底有什么用?前言  在Jupyter Lab 或者 Jupyter Notebook中,当我们需要进行可视化时,我们需要引入matplotlib 包进行画图。一般我们会在引入的同时直接运行魔法命令%matplotlib inline。其实,不需要这段代码Matplotlib也能正常工作。那么%matplotlib inline到底激活了什...

2019-12-03 16:16:48 2324

原创 会员数据化运营(一)

会员数据化运营1.概述  会员数据化运营几乎是所有企业的必备运营工作,企业要生存必须有会员(客户)。会员数据化运营辅助于客户关系管理(CRM),可以用来解决以下问题:企业的生命周期状态是什么?企业的核心诉求是什么?会员的转化习惯和路径是什么?会员的价值如何?如何扩大市场覆盖、获得更多的新会员?如何更好的维系老会员?应该在什么时间、采取何种措施、针对哪些会员做哪些运营活动?在特...

2019-11-28 10:58:00 1967

原创 Python获取给定时间段内的每月第一天以及最后一天

背景需要2016年至2019年每个月的月初及月末,比如这样:(‘2016-01-01’, ‘2016-01-31’),(‘2016-02-01’, ‘2016-02-29’),(‘2016-03-01’, ‘2016-03-31’),(‘2016-04-01’, ‘2016-04-30’),(‘2016-05-01’, ‘2016-05-31’),(‘2016-06-01’, ‘2...

2019-11-06 14:01:56 3598

2019-19 NBA Season.csv

Python数据挖掘入门实践中第三种用决策树预测获胜球队中所用到的数据。因书中下载方式已经失效,所以整理好最新一版供大家使用!

2020-04-29

流畅的Python.pdf

本书致力于帮助Python开发人员挖掘这门语言及相关程序库的优秀特性,避免重复劳动,同时写出简洁、流畅、易读、易维护,并且具有地道Python风格的代码。本书尤其深入探讨了Python语言的高级用法,涵盖数据结构、Python风格的对象、并行与并发,以及元编程等不同的方面。

2019-06-21

Python数据科学手册.pdf

本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的/列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为最重要的机器学习算法提供了高效整洁的Python版实现。

2019-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除