2020重新做人-CSDN博客

原创使用pandas的drop函数删除数据

使用pandas对DataFrame进行删除操作drop函数参数详解DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')labels：待删除的行列名，labels = ‘A’ 即表示A列或者A行axis：｛0或1｝默认方向为0，纵向也就是列方向，1则表示横向，即行方向index：某一行或者多行colums：某一列或者多列level：等

2021-06-29 11:38:19 4905

原创数据挖掘实战(二):信用卡欺诈检测

此次信用卡欺诈是采用科赛数据科学社区一个项目的数据集来分析的，具体的数据集可以在这里下载传送门数据集有100多M，使用excel打开会有有些卡顿，所以直接在python观察文章目录数据集解读数据探索数据规范化数据集划分模型创建模型训练评估总结与不足数据集解读数据集名称数据类型特征数实例数值缺失相关任务信用卡欺诈检测数据集数值数据31284807无不平...

2019-08-08 23:39:24 5029 3

原创二元分类器模型评估指标

文章目录准确率精准率与召回率F1值ROC AUC得分sklearn操作各个指标准确率准确率顾名思义就是分类器正确分类的样本数占总体数的比例，虽然准确率可以衡量分类器的整体正确性，但是当类别在总样本中呈偏态分布是，准确率就不是一个很有效的衡量指标，例如信用卡欺诈检测，大多数是合法交易，所以分类器的分类准确率会达到99%以上，但是这不能说明模型就一定是好的，所以分类器会经常使用精准率和召回率来进行...

2019-08-07 16:44:52 1293

原创网格搜索：GridSearchCV函数参数解释及示例

GridSearchCV，网格搜索

2019-08-07 00:16:40 3974

原创数据挖掘实战：信用卡违约率分析建模

这次做一个信用卡违约率的分析项目，具体的数据集可以在这里下载数据集传送门文章目录提出问题数据集解读数据探索数据处理建模分析缺点与不足提出问题总体的违约率情况怎样什么样的人群容易违约违约模型的准确率怎样数据集解读这是一个台湾银行2005年的信用卡数据，首先观察数据集，了解一下个字段含义：字段含义ID客户IDLIMIT_BAL可透支金额(新台币)...

2019-08-06 12:38:22 6456 1

原创机器学习(四)：K-means聚类算法

文章目录K-means介绍K-means原理Sklearn实现K-means的优缺点优点缺点K-means与KNN的区别K-means介绍这是写机器学习笔记以来的第一个无监督学习算法，最常见的无监督学习就是聚类，也就是将无标记的数据分成几种集群，这些集群是根据某种相似度指标进行划分的。例如欧式距离等。聚类常常被用来探索数据集，例如推荐系统，会使用聚类定位一个用户感兴趣的产品。市场营销会对相似用...

2019-08-05 16:14:24 787

原创机器学习(三)：SVM支持向量机

文章目录支持向量机介绍支持向量机原理SVM做分类SVM回归示例SVM做回归SVM回归示例SVM优缺点SVM优点SVM缺点支持向量机介绍支持向量机(Support Vectoc Machine,SVM)是一种强大的用于分类和回归的模型，十大数据挖掘算法之一。SVM是很好的现成分类器，即可以不加修改直接使用，应用SVM分类器会有很好的容错率。SVM甚至被称为是监督学习中最好的定式算法，所以SVM被...

2019-08-03 16:59:36 349

原创 sklearn的pipeline管道机使用及原理

在使用机器学习的时候，往往需要对数据进行规范化处理，每一步都需要去执行，上一步执行完的数据传递给下一步执行数据，每一步生成的数据需要用一个变量来存储，这样子会繁琐的多，所幸，python有pipline管道机制Pipeline管道机制Pipeline管道机制，顾名思义，它就像水管一样，数据就像水一样，在管道之间流动，Pipline的每一步就将一节节水管，数据经由这一节水管留到下一节水管，流向下...

2019-08-01 14:08:06 2159

原创数据降维：PCA主成分分析降维示例及函数参数解释

文章目录主成分分析(PCA)介绍PCA转化步骤PCA示例sklearn中的PCAPCA优缺点优点缺点主成分分析(PCA)介绍PCA也被叫做卡尔胡宁-勒夫转换(KLT)，是一种用户在高维空间发现模式的技术。PCA常被用于探索和可视化高纬度数据集。PCA可以压缩数据，也就是所谓的数据降维。数据降维是指在保留重要信息的同时消除那些“无用信息量的信息”。PCA关注的是线性相关性，如果一个数据矩阵的列空...

2019-08-01 00:30:24 6129

原创机器学习(二)：朴素贝叶斯算法

文章目录朴素贝叶斯介绍原理实现python代码实现scikit-learn实现总结朴素贝叶斯介绍朴素贝叶斯是一个使用贝叶斯定理进行建模的分类器。属于分类算法一列，它是基于贝叶斯定理和一个朴素的假设，即所有的特征都相互独立于其他给定的响应变量。而朴素贝叶斯还有一个假设就是每个特征同等重要。尽管这个假设看起开起来是有错的，但是实际效果却很好。朴素贝叶斯有多项式朴素贝叶斯、高斯朴素贝叶斯、伯努利朴...

2019-07-07 22:02:16 893

原创数据预处理--One-hot编码

文章目录原理实现与pandas.get_dummies()的区别原理当我们遇到的变量是标称型变量时，也就是无法比较大小、没有序列性的数据时候，就需要独热编码，独热编码通过将数据进行编码，例如装修类型，分为精装、简装、毛坯三种类型，无法比较大小，只能通过独热编码来表示实现这里介绍的one-hot编码是使用scikit-learn.preprocessing的OneHotEncoder方法实现...

2019-06-22 17:06:54 946

原创机器学习(一)：K-近邻算法(KNN)分类与回归

这是自己的第一篇机器学习的文章，单纯做自己的学习笔记，一起加油进步K-近邻算法(KNN)

2019-06-21 18:19:33 6144

原创对广州链家网二手房数据进行分析

上一篇我们利用了python抓取了链家网广州地区的历史二手房数据，上一篇爬虫文章。这次将如何对数据进行分析。问题定义对于数据分析，第一步是定义问题，由于数据的获已经固定，所以问题固定住了是在广州地区二手房的问题上，所以我们有如下的问题：广州二手房各地区的房价概况各因素对房价的影响程度给定一定条件后的大概房价是多少数据预处理首先将数据从数据库中导出转为csv文件。在Excel中进行...

2019-06-12 18:06:50 5533 5

原创 deepin安装Pycharm2019并生成桌面图标

使用deepin安装pycharm会与Windows安装不一样，笔者自己安装pycharm，做篇记录首先到官网下载最新版本的Pycharm，官网下载地址按照箭头下载安装包接下来Ctrl+Alt+T快捷键打开控制台先将压缩包解压并放至/usr/local文件夹下，方便整理sudo tar zxvf pycharm-professional-2019.1.3.tar.gz -C /u...

2019-06-05 16:04:58 2612 1

原创 [leecode]Python:766 Toeplitz Matrix托普利茨矩阵

如果一个矩阵的每一方向由左上到右下的对角线上具有相同元素，那么这个矩阵是托普利茨矩阵。给定一个 M x N 的矩阵，当且仅当它是托普利茨矩阵时返回 True。示例1输入: matrix = [ [1,2,3,4], [5,1,2,3], [9,5,1,2]]输出: True解释:在上述矩阵中, 其对角线为:"[9]", "[5, 5]", "[1, 1, 1]", &am

2019-02-27 10:20:22 457

原创 [leecode]Python:566. Reshape the Matrix 重塑矩阵

In MATLAB, there is a very useful function called ‘reshape’, which can reshape a matrix into a new one with different size but keep its original data.You’re given a matrix represented by a two-dimens...

2019-02-27 10:00:13 553

原创 matplotlib绘图中文出现乱码

在ipython notebook中，我们使用matplotlib进行绘图的时候，中文会无法显示。如图这是因为matplotlib默认字体不支持汉字，所以需要修改为SimHei字体，代码如下from pylab import mpl mpl.rcParams['font.sans-serif']=['SimHei'] # 修改为中文字体data.house_position.valu...

2019-02-18 16:47:11 1485 1

原创 MySQL中数值类型常见的问题

MySQL中的数值类型可以由小到大可以分为：tinyintsmallintmediunintintbigint其存储空间大小还有位数如下表这里显示的位数其实只是决定数据显示的位数，有遇见过在建表的时候将数值类型设置为int，然后在位数值那里设置了15，以为可以将数值提升到15位数的区间，其实这就是没把数值类型了解正确。1字节有8位，所以一字节可以存2^8-1数字，如果数值超过范...

2019-02-18 10:20:01 630

原创 'utf-8' codec can't decode byte 0xb6 in position 0: invalid start byt & excel打开utf-8文件显示乱码问题解决办法

当我们将数据从MongoDB数据库中导出为CSV文件时，使用Excel打开会显示为乱码，如图：这是由于MongoDB导出的CSV文件默认都是utf-8格式的数据，而我们的Excel打开文件的编码方式时ANSI格式的，也就是说不能够识别我们的汉字，如果想要在Excel中查看我们的数据，可以按照如下方法：新建一个excel文件，在数据栏点击自文本导入数据导入文件，在文件原格式选择"utf-8"...

2019-01-17 16:47:21 11390 1

原创 Python进程池pool使用方法以及map函数用法

在进行多数量的数据爬取时，我们常常需要使用多进程来实现数据爬取。这里我们来看一下python的进程池pool要怎么使用首先当然是导入相关的库文件from multiprocessing.pool import Pool这里我们简单的写一个函数def hhh(i): return i * 2if __name__ == '__main__': pool = Pool(...

2019-01-15 17:52:56 60473 15

原创多线程抓取链家网数据

链家网是集房源信息搜索、产品研发、大数据处理、服务标准建立为一体的以数据驱动的全价值链房产服务平台。主营：二手房、租房、新房。通过链家网的数据可以很方便的获取商品房的市场信息此次目的是抓取链家网广州地区二手房的数据首先明确步骤：分析网页分析数据节点编写爬虫程序存储数据首先分析网页链家网网址在这广州链家网二手房可以看到一共有25934套房源，数据是更新的，我怕取得时候是没...

2019-01-15 16:12:22 2175 1

原创批量抓取西刺ip并保存到本地

西刺是一个免费提供IP代理的网站，因为所提供的IP数量庞大且免费，可以为有需要的人提供很大的帮助，所以受到了想要获取免费IP人的热捧，这里是它的网站地址点这里。话不多说，现在开干首先观察网页，进入网站，进入开发者模式，选取要爬取的字段，这里确定自己要爬取的是IP的地址、端口、类型可以看到，我们要爬取的字段在一个tr标签下面的td标签中，直接右键点击，复制css selector地址。...

2019-01-08 10:10:31 1069

2020重新做人的博客