自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 数据科学猫:机器学习建模流程

所谓框架,或者说方法论,就是指整个设计数据科学(数据分析与挖掘,机器学习)的项目过程。不管项目领域是金融、电信、医学或者交通,其实只要项目中涵盖数据分析或数据挖掘的应用,项目的步骤大多会有些共通的地方。将这些共性的步骤总结并且归纳为一般性的方法,就变成了数据分析与挖掘的框架。在真正开始数据采集、抽样、清洗,甚至建模之前,一个清晰的框架等同于写作前的草稿。它是一个项目的骨架,能够为数据分析与挖掘...

2018-05-09 15:50:42 7647

原创 数据科学猫:数据预处理 之 数据分箱(Binning)

进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!​简介 本篇主要介绍机器学习建模中数据预处理步骤的数据分箱部分。在本篇中,会对数据分箱的定义、目的、方法分类以及Python的实现方法进行介绍。 一句话概括版分箱就是把数据按特定的规则进行分组,实现数据的离散化,增..

2021-05-07 11:21:12 24535 11

原创 数据科学猫:强化学习的定义

进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介几句话概括版:机器学习的算法可以分为以下三类:有监督学习(Supervised Learning):有预测目标Y,通过X预测Y 无监督学习(Unsupervised Learning):没有Y,只通过X进行分析..

2021-04-30 14:18:24 512

原创 数据科学猫:数据分析的主要类型、描述性分析、预测性分析与规范性分析

进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介 本篇介绍三大数据分析的方法,以及机器学习在这三种方法中的定位。 几句话概括版数据分析的三大方法为: 描述性分析(Descriptive analytics) 预测性分析(Predicti...

2021-04-21 13:22:17 10875

原创 数据科学猫:人工智能要素、生态与应用领域(下篇)

进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介 在上篇中,本文会主要针对人工智能的要素、生态进行概括性的介绍。同时介绍两个AI的应用场景,即AI在智能医疗与智能安防的发展场景。 在下篇中,会主要介绍AI在智能家居、智能零售与智能汽车方向的应用。 一句..

2021-04-06 20:03:29 367

原创 数据科学猫:人工智能要素、生态与应用领域(上篇)

进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介 在上篇中,本文会主要针对人工智能的要素、生态进行概括性的介绍。同时介绍两个AI的应用场景,即AI在智能医疗与智能安防的发展场景。 在下篇中,会主要介绍AI在智能家居、智能零售与智能汽车方向的应用。 ...

2021-04-01 13:51:12 2008 1

原创 数据科学猫:人工智能、机器学习与深度学习的概念

进击的橘子猫正式改名上线啦!我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat也欢迎大家搜索微信公众号“进击的橘子猫”,里面文章会有更多的数据科学PPT展示哦~ 我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。让我们进击起来吧!简介最近人工智能、机器学习与深度学习越来越火爆。所以简单介绍一下这三个现下比较流行的概念以及它们之间的区别。一句话概括版 人工智能(Artificial Intellige..

2021-03-25 15:17:25 923

原创 项目管理(一) - RFP、合同与SOW的内容与区别

简介投标申请书RFP(request for proposal)是客户招标时给出的大纲,会宣布有关项目的信息,一般会包含项目预期、高阶的工作与交付需求,是项目招投标书与解决方案撰写的重要依据。 合同(Contract)相对好理解,在招标成功后,甲方与乙方将会签订合同,正式确立业务合作关系、付款条件以及法律责任等。 工作说明书SOW(Statement of work)是招标成功后,用于进一步明确项目工作范围的文档。SOW会以RFP为基准,对项目的需求、交付、时间点进行明确与细化。一般SOW会与项..

2021-03-23 15:30:47 20021 2

原创 Python基础(八)- 数据读取 之 csv文件

简介csv文件是相当普遍的一种数据源文件。一般我们在对小量级数据进行分析时,大多会直接读取CSV文件。CSV文件的全称是"Comma-Separated Values",解释为用逗号分隔的值。当我们希望把CSV文件读取到Python中时,最常用的方法之一就是使用pd.read_csv()将CSV数据读取为DataFrame。环境介绍系统环境:Windows 10Pyt...

2019-11-21 12:05:05 2012 1

原创 Python基础(七)- 统计Dataframe中每一列独立值/唯一值的个数

简介介绍一下在Python中如何统计DataFrame中每一列的唯一值,并输出唯一值的数量。环境介绍系统环境:Windows 10Python版本:Python 3.5核心语句df['column'].unique()df['column'].value_counts()示例与解释a = list(dataSetRaw['vin'].uniq...

2019-07-03 17:02:39 31861 1

原创 环境搭建(一) - PyTorch在Windows下的安装(2019.05.24)

简介PyTorch进行神经网络的学习十分有用, 但是,其在中国大陆的安装包下载十分缓慢。这里介绍一下我在Windows10中安装PyTorch的过程与建议。系统配置Windows 10 Anaconda环境 Python 3.7 无CUDA内核显卡版本选择进入PyTorch的官网:https://pytorch.org/get-started/locally/...

2019-05-24 16:48:16 1855 4

原创 Python基础(五) - 在Conda中更改源

简介介绍一下在Python安装包的时候怎么能更改源,让下载速度提升。这里介绍的是通过conda进行安装的更改源方法。环境介绍系统环境:Windows 10Python版本:Python 3.5必备环境:Anaconda已经安装进入Anaconda3中的Anaconda Prompt程序在Windows程序中搜索“Anaconda Prompt”,右键以管...

2019-05-17 15:17:50 1484

原创 Python基础(四) - 自动在Windows中运行Python脚本并定时触发作业

简介讲一下在Python中写好了一个脚本之后,怎么自动双击一个程序自动就跑起来。以及,怎么在Windows 10中设计定期定时触发并跑脚本。环境介绍系统环境:Windows 10Python版本:Python 3.5必备包:无运行Python脚本:.bat文件在Windows中,.bat文件是批处理文件,是与Linux中.sh(shell)文件很像的东西。...

2019-04-12 15:01:50 3764 1

原创 3.4.1 Spark RDD - 概念与简单理解

简介Spark是一个计算引擎,是MapReduce的高配升级版本。Spark RDD是Spark中的核心理念。Spark RDD概念Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。RDD的全称为Resilient Distribu...

2019-04-09 14:10:16 509

原创 3.4.1 MapReduce - 概念、框架、运行机制

简介MapReduce(分布式计算框架)始于Google的MapReduce论文,发表于2004年12月。 MapReduce用于计算海量数据。它将计算抽象成Map 和Reduce两部分。MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。在如下MapReduce的官网中,有对MapReduce的详细描述,针对最新版本,如果想找某一特定版本(如Hadoop 2.7.7...

2019-04-01 13:35:40 333

原创 3.4.1 HDFS(分布式文件系统) - 概念、架构、运行机制、配置文件与命令

简介作为Hadoop生态中核心的组件,HDFS在Hadoop项目最初就已经存在。HDFS始于 Google 在2003年10月份发表的GFS(Google File System)论文。 它其实就是 GFS 的一个克隆版本。但是经过这些年的发展,HDFS的架构和功能基本固化,并成为一个完善的核心组件。在如下HDFS的官网中,有对HDFS的详细描述,针对我装的版本(Hadoop 2.7.7)...

2019-03-29 10:24:47 681

原创 Python基础(三) - DataFrame中的表关联

简介讲一下怎么在Python中关联两个表,并看到结果。环境介绍系统环境:Windows 10Python版本:Python 3.5必备包:pandas核心语句:pd.mergepd.merge是用于进行类似SQL中JOIN语句的操作。可以实现根据指定字段匹配并将两个表关联起来。核心参数下面是公式的几个核心参数,一般我只会用到这些。 l...

2019-03-28 12:15:09 6090

原创 3.4.1 大数据、Hadoop以及Hadoop生态的概念与区别

简介大数据是现如今兴起的名词,提到大数据肯定少不了Hadoop、Spark、Kafka等等名词。那么Hadoop与大数据有什么关系。Hadoop又与HDFS、MapReduce、Spark有什么关系?一句话解释版本:大数据是与传统数据仓库相对应的概念,它是一种理念与方法。Hadoop是与Oracle、Teradata相对应的概念,它是实现大数据理念的手段与工具。Hadoop是一...

2019-03-27 15:24:55 956

原创 大数据平台搭建(一) - Ubuntu 18.04中Hadoop组件的版本与安装顺序

简介目前在学习大数据的基础知识,希望能与机器学习与数据挖掘进行更好的融合。最近花费了一段时间,在自己的虚拟机中安装了Ubuntu 18.04并搭建了Hadoop伪分布式平台。在平台中安装了几个核心的组件。这篇文章主要记录一下安装的版本与顺序,希望能给也需要安装的人提供一些建议。后续会陆续将搭建的过程一步步写出来留作知识积累。环境介绍主机环境:Windows 10虚拟软...

2019-03-15 11:41:14 1308

原创 Python基础(二) - 在Windows中运行python脚本

简介讲一下怎么在windows中运行.py的脚本文件,并看到结果。 环境介绍系统环境:Windows 10Python版本:Python 3.5 步骤第一步:写一个Python脚本,保存为.py的格式,放在一个文件目录下。比如放在这个目录:“C:\Users\Desktop”第二步:在Windows中单击开始,在搜索中输入“cmd”,打开Command Prom...

2018-10-09 18:32:38 1384

原创 Python基础(一) - Json文件解析与读写至DataFrame

简介简单讲一下怎么把txt文件中的json格式文件导入到python中,同时转为Data Frame形式的数据框。以方便后续进行数据分析。 环境介绍系统环境:Windows 10Python版本:Python 3.5GUI:Anaconda Spyder必备库:pandas, json 代码及解释如果你的txt中只有一个json对象,那么用以下的语法就可...

2018-09-26 14:03:35 4736 2

原创 4.3.4.集成学习(一) - 袋装法(Bagging),提升法(Boosting),随机森林(Random Forest)

简介集成学习(Ensemble Learning)是通过聚合多个分类器的预测结果来提高分类的准确率。比如,在集成学习中,会生成多个分类树模型,从中选取表现较好的那些树模型,在通过投票等筛选方式决定最终输出的分类器。在聚合算法中,以Bagging,Boosting与Random Forest(随机森林)最为典型。这三个算法,因为能够显著改善决策树的缺陷而被广泛应用。一句话解释版本:Bag...

2018-09-17 15:51:19 8507

原创 4.3.2无监督学习(四) - 序列模式与AprioriAll算法

简介关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,序列模式算法中最基本的是AprioriAll算法。一句话解释版本:序列模式就是有时间顺序概念的关联规则。数据分析与挖掘体系...

2018-09-06 10:53:15 1818

原创 4.4.2分类模型评判指标(四) - ROC,AUC,GINI,KS,Lift,Gain,MSE总结

简介分类模型的评判指标光是图就有好多,ROC,AUC,GINI,KS,Lift,Gain,MSE,这些有些是图有些是指标,放在一起乱七八糟搞得人分不清东南西北。所以这里我先整体给大家一个直观的介绍。省的以后再遇上这么多图的时候完全分不清是谁是谁。三句话概括版本:Confusion Matrix -> Lift,Gain,ROC。ROC -> AUC,KS -> G...

2018-09-05 16:45:24 10795 1

原创 4.3.2无监督学习(三) - 关联规则与Apriori算法

简介关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,关联规则算法中最出名的是Apriori算法。其应用最广为流传的是“啤酒与尿布”的例子。一句话解释版本:关联分析通过支持度与置信度衡...

2018-09-04 12:50:50 2761

原创 R基础(一)- R版本升级、现有版本查看

R版本升级系统:WINDOWS方式:推荐打开RGui界面进行升级,而不要再RStudio中直接输入命令包:installr代码:# 安装包,如果已经有此包可跳过此步骤install.packages("installr")# 加载包,升级library(installr)updateR() 查看R版本代码:version ...

2018-09-04 12:43:47 57410 1

原创 4.3.1有监督学习(六) - 朴素贝叶斯分类(Naive Bayesian Classifier)

简介贝叶斯分类方法是与有监督学习中的最直观简单的方法。贝叶斯分类器缘起于贝叶斯定理,在定理的基础上发展为了朴素贝叶斯分类法(Naive Bayesian Classification)。朴素贝叶斯分类方法的好处在于简单直接,它一般用于概率推理与决策,即在信息不全的时候,通过观察随机变量,推断不可观察的随机变量。一句话解释版本:贝叶斯分类是利用概率论作为基础推断不可观测变量的类别,其基础...

2018-08-29 15:06:18 5501

原创 4.3.1有监督学习(五) - 支持向量机(SVM - Support Vector Machine)

简介支持向量机(Support Vector Machine,SVM)是一种有监督学习中的分类器。它适合小样本、非线性以及高维度的分割。SVM通过选择不同的核函数来构造不同的模型,并构建不同的分割器。例如,核函数为线性函数时,SVM等同于线性回归;核函数为Sigmoid时,SVM等价于神经网络。一句话解释版本:SVM通过非线性转换升维数据,实现线性可分;通过最大化边界,寻找最优分割器。...

2018-08-27 17:02:27 2831

原创 4.4.2分类模型评判指标(三) - KS曲线与KS值

简介KS曲线是用来衡量分类型模型准确度的工具。KS曲线与ROC曲线非常的类似。其指标的计算方法与混淆矩阵、ROC基本一致。它只是用另一种方式呈现分类模型的准确性。KS值是KS图中两条线之间最大的距离,其能反映出分类器的划分能力。一句话概括版本:KS曲线是两条线,其横轴是阈值,纵轴是TPR与FPR。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。KS值是MAX(TP...

2018-08-24 17:04:55 35402 2

原创 4.3.1有监督学习(四) - BP神经网络(BP Neuron Networks)

简介BP神经网络(Backpropagation Neuron Networks)又被称作多层感应机(Multi-layer Perceptrons)。BP神经网络通过设定隐藏层,能够在原有逻辑回归的基础上实现非线性的分割。神经网络在构建过程中,通过定义输入层、隐藏层与输出层,明确激活函数、损失函数,通过梯度递减法训练样本,最终实现分类器。一句话解释版本:神经网络由输入层、隐藏层、输出...

2018-08-23 08:14:28 7317

原创 4.3.1有监督学习(三) - 决策树(Decision Tree) - 剪枝(Pruning)

简介决策树是与有监督学习中的常用方法。决策树的算法多见于分类问题中,即我们常说的分类树(Classification Tree);少数情况下,决策树也可以用于连续问题,即回归树(Regression Tree)。若构建决策树的自变量过多,会产生高维度、过拟合等问题,因此,需要在全树的基础上进行剪枝,保留最有效的自变量,删除不那么重要的自变量。这一过程,就叫剪枝。一句话解释版本:剪枝分为...

2018-08-13 18:28:38 4030

原创 3.4数据预处理(四) - 数据转换(Data Transform)

简介数据经过集成、清理与规约等步骤后,我们很可能要将数据进行标准化、离散化、分层化。这些方法有些能够提高模型拟合的程度,有些能够使得原始属性被更抽象或更高层次的概念代替。这些方法统一可以称为数据转换(Data Transform)。一句话解释版本:数据转换就是通过标准化、离散化与分层化让数据变得更加一致,更加容易被模型处理。 数据分析与挖掘体系位置数据转换是有数据预处理中的...

2018-08-13 12:28:41 13701 1

原创 3.4数据预处理(三) - 数据规约(Data Reduction)

简介在数据集成与清洗后,我们能够得到整合了多数据源同时数据质量完好的数据集。但是,集成与清洗无法改变数据集的规模。我们依然需通过技术手段降低数据规模,这就是数据规约(Data Reduction)。数据规约采用编码方案,能够通过小波变换或主成分分析有效的压缩原始数据,或者通过特征提取技术进行属性子集的选择或重造。一句话解释版本:数据规约就是缩小数据挖掘所需的数据集规模,具体方式有维度规...

2018-08-09 17:48:29 23887

原创 3.4 数据预处理(一) - 数据集成(Data Integration)

简介数据集成(Data Integration)是一个数据整合的过程。通过综合各数据源,将拥有不同结构、不同属性的数据整合归纳在一起,就是数据集成。由于不同的数据源定义属性时命名规则不同,存入的数据格式、取值方式、单位都会有不同。因此即便两个值代表的业务意义相同,也不代表存在数据库中的值就是相同的。因此需要数据入库前进行集成,去冗余,保证数据质量。一句话解释版本:数据集成是将不同来源的...

2018-08-08 15:35:16 17304 4

原创 数据科学猫:数据预处理 之 数据清洗(Data Cleansing)

简介由于数据源在实际生活中千奇百怪,因此不经任何处理就进入数据库的数据很可能违背数据质量三要素的要求。用这样的数据在进行后续的数据挖掘,其可靠性更加堪忧。虽然在数据挖掘中,均有过程用于处理缺失数据或异常值,但是这不过是在避免建模的过拟合。如若希望尽可能小让缺失值、噪声等脏数据影响数据挖掘的结果,更有效的方法应是提高数据质量,即进行数据清理过程。一句话解释版本:数据清洗就是通过缺失值处理...

2018-08-07 17:12:07 27273

原创 1.1需求调研(一) - 需求调研的目的

简介需求调研是大多数数据分析师或数据挖掘师都要兼顾的工作。对一个项目来说,需求调研就像是铁路的轨道、飞机的航线,它同时定义了一个项目的核心思想与详细方案。同时需求也是风向标,整个项目的架构、开发、建模、测试将全部围绕着需求调研的结果展开。而需求本身,既可以是High Level的愿景,也可以是Detail Level的准则。需求分析的目的就是在不断的交流中,梳理出逻辑性、体系性强的需求框架,并...

2018-08-03 10:15:53 9047

原创 4.3.1有监督学习(二) - 决策树(Decision Tree) - 构建树的核心指标

简介决策树是与有监督学习中的常用方法。决策树的算法多见于分类问题中,即我们常说的分类树(Classification Tree);少数情况下,决策树也可以用于连续问题,即回归树(Regression Tree)。总体而言,决策树是基于树状结构来进行决策的,它模仿了人在面临决定时自然的处理方式,并将这种决策的过程用树的姿态展现出来。一句话解释版本:决策树是在模仿人的决策过程,构造树的指标...

2018-06-15 13:19:09 3076 1

原创 3.1数据采集(一) - 数据采集的步骤与方法

简介数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。一句话解释版本:数据采集就是怎么获得原始数据,如果把数据采集看成吃饭,自己撸起袖子做饭就是用一手数据,点外卖就是用二手数据。...

2018-06-13 17:41:53 40867

原创 4.2数据探索(一) - 数据探索的方法

简介数据探索是在具有较为良好的样本后,对样本数据进行解释性的分析工作。在我看来,数据探索是数据挖掘较为前期的部分。它并不需要应用过多的模型算法。数据探索更偏重于定义数据的本质,描述数据的形态与特征并解释数据的相关性。通过数据探索的结果,我们能够更好的开展后续的数据挖掘与数据建模工作。一句话解释版本:数据探索要弄清楚这些问题:样本数据长什么样子?有什么特点?数据之间有没有关系?样本数据是否能满足建模...

2018-06-08 09:53:29 17005

原创 5测试评审(二) - 项目测试方法

简介上一篇中讲到了测试的整个流程,以及测试的各个阶段。这一篇主要讲在四个测试阶段中常用的一些测试方法。一句话解释版本:这个没什么一句话好解释的,想了半天,只能说测试方法的选择要结合测试中不同的阶段,结合测试用例选择方法吧。...

2018-06-05 11:41:26 657

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除