1 Orange_Spotty_Cat

尚未进行身份认证

暂无相关简介

等级
TA的排名 4w+

Python基础(八)- 数据读取 之 csv文件

简介csv文件是相当普遍的一种数据源文件。一般我们在对小量级数据进行分析时,大多会直接读取CSV文件。CSV文件的全称是"Comma-Separated Values",解释为用逗号分隔的值。当我们希望把CSV文件读取到Python中时,最常用的方法之一就是使用pd.read_csv()将CSV数据读取为DataFrame。环境介绍系统环境:Windows 10Pyt...

2019-11-21 12:05:05

Python基础(七)- 统计Dataframe中每一列独立值/唯一值的个数

简介介绍一下在Python中如何统计DataFrame中每一列的唯一值,并输出唯一值的数量。环境介绍系统环境:Windows10Python版本:Python3.5核心语句df['column'].unique()df['column'].value_counts()示例与解释a=list(dataSetRaw['vin'].uniq...

2019-07-03 17:02:39

环境搭建(一) - PyTorch在Windows下的安装(2019.05.24)

简介PyTorch进行神经网络的学习十分有用,但是,其在中国大陆的安装包下载十分缓慢。这里介绍一下我在Windows10中安装PyTorch的过程与建议。系统配置Windows10 Anaconda环境 Python3.7 无CUDA内核显卡版本选择进入PyTorch的官网:https://pytorch.org/get-started/locally/...

2019-05-24 16:48:16

Python基础(五) - 在Conda中更改源

简介介绍一下在Python安装包的时候怎么能更改源,让下载速度提升。这里介绍的是通过conda进行安装的更改源方法。环境介绍系统环境:Windows 10Python版本:Python 3.5必备环境:Anaconda已经安装进入Anaconda3中的Anaconda Prompt程序在Windows程序中搜索“Anaconda Prompt”,右键以管...

2019-05-17 15:17:50

Python基础(四) - 自动在Windows中运行Python脚本并定时触发作业

简介讲一下在Python中写好了一个脚本之后,怎么自动双击一个程序自动就跑起来。以及,怎么在Windows 10中设计定期定时触发并跑脚本。环境介绍系统环境:Windows 10Python版本:Python 3.5必备包:无运行Python脚本:.bat文件在Windows中,.bat文件是批处理文件,是与Linux中.sh(shell)文件很像的东西。...

2019-04-12 15:01:50

3.4.1 Spark RDD - 概念与简单理解

简介Spark是一个计算引擎,是MapReduce的高配升级版本。Spark RDD是Spark中的核心理念。Spark RDD概念Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。RDD的全称为Resilient Distribu...

2019-04-09 14:10:16

3.4.1 MapReduce - 概念、框架、运行机制

简介MapReduce(分布式计算框架)始于Google的MapReduce论文,发表于2004年12月。 MapReduce用于计算海量数据。它将计算抽象成Map 和Reduce两部分。MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。在如下MapReduce的官网中,有对MapReduce的详细描述,针对最新版本,如果想找某一特定版本(如Hadoop 2.7.7...

2019-04-01 13:35:40

3.4.1 HDFS(分布式文件系统) - 概念、架构、运行机制、配置文件与命令

简介作为Hadoop生态中核心的组件,HDFS在Hadoop项目最初就已经存在。HDFS始于 Google 在2003年10月份发表的GFS(Google File System)论文。 它其实就是 GFS 的一个克隆版本。但是经过这些年的发展,HDFS的架构和功能基本固化,并成为一个完善的核心组件。在如下HDFS的官网中,有对HDFS的详细描述,针对我装的版本(Hadoop 2.7.7)...

2019-03-29 10:24:47

Python基础(三) - DataFrame中的表关联

简介讲一下怎么在Python中关联两个表,并看到结果。环境介绍系统环境:Windows 10Python版本:Python 3.5必备包:pandas核心语句:pd.mergepd.merge是用于进行类似SQL中JOIN语句的操作。可以实现根据指定字段匹配并将两个表关联起来。核心参数下面是公式的几个核心参数,一般我只会用到这些。 l...

2019-03-28 12:15:09

3.4.1 大数据、Hadoop以及Hadoop生态的概念与区别

简介大数据是现如今兴起的名词,提到大数据肯定少不了Hadoop、Spark、Kafka等等名词。那么Hadoop与大数据有什么关系。Hadoop又与HDFS、MapReduce、Spark有什么关系?一句话解释版本:大数据是与传统数据仓库相对应的概念,它是一种理念与方法。Hadoop是与Oracle、Teradata相对应的概念,它是实现大数据理念的手段与工具。Hadoop是一...

2019-03-27 15:24:55

大数据平台搭建(一) - Ubuntu 18.04中Hadoop组件的版本与安装顺序

简介目前在学习大数据的基础知识,希望能与机器学习与数据挖掘进行更好的融合。最近花费了一段时间,在自己的虚拟机中安装了Ubuntu 18.04并搭建了Hadoop伪分布式平台。在平台中安装了几个核心的组件。这篇文章主要记录一下安装的版本与顺序,希望能给也需要安装的人提供一些建议。后续会陆续将搭建的过程一步步写出来留作知识积累。环境介绍主机环境:Windows 10虚拟软...

2019-03-15 11:41:14

Python基础(二) - 在Windows中运行python脚本

简介讲一下怎么在windows中运行.py的脚本文件,并看到结果。 环境介绍系统环境:Windows 10Python版本:Python 3.5 步骤第一步:写一个Python脚本,保存为.py的格式,放在一个文件目录下。比如放在这个目录:“C:\Users\Desktop”第二步:在Windows中单击开始,在搜索中输入“cmd”,打开Command Prom...

2018-10-09 18:32:38

Python基础(一) - Json文件解析与读写至DataFrame

简介简单讲一下怎么把txt文件中的json格式文件导入到python中,同时转为DataFrame形式的数据框。以方便后续进行数据分析。 环境介绍系统环境:Windows10Python版本:Python3.5GUI:AnacondaSpyder必备库:pandas,json 代码及解释如果你的txt中只有一个json对象,那么用以下的语法就可...

2018-09-26 14:03:35

4.3.4.集成学习(一) - 袋装法(Bagging),提升法(Boosting),随机森林(Random Forest)

简介集成学习(EnsembleLearning)是通过聚合多个分类器的预测结果来提高分类的准确率。比如,在集成学习中,会生成多个分类树模型,从中选取表现较好的那些树模型,在通过投票等筛选方式决定最终输出的分类器。在聚合算法中,以Bagging,Boosting与RandomForest(随机森林)最为典型。这三个算法,因为能够显著改善决策树的缺陷而被广泛应用。一句话解释版本:Bag...

2018-09-17 15:51:19

4.3.2无监督学习(四) - 序列模式与AprioriAll算法

简介关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,序列模式算法中最基本的是AprioriAll算法。一句话解释版本:序列模式就是有时间顺序概念的关联规则。数据分析与挖掘体系...

2018-09-06 10:53:15

4.4.2分类模型评判指标(四) - ROC,AUC,GINI,KS,Lift,Gain,MSE总结

简介分类模型的评判指标光是图就有好多,ROC,AUC,GINI,KS,Lift,Gain,MSE,这些有些是图有些是指标,放在一起乱七八糟搞得人分不清东南西北。所以这里我先整体给大家一个直观的介绍。省的以后再遇上这么多图的时候完全分不清是谁是谁。三句话概括版本:ConfusionMatrix->Lift,Gain,ROC。ROC->AUC,KS->G...

2018-09-05 16:45:24

4.3.2无监督学习(三) - 关联规则与Apriori算法

简介关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,关联规则算法中最出名的是Apriori算法。其应用最广为流传的是“啤酒与尿布”的例子。一句话解释版本:关联分析通过支持度与置信度衡...

2018-09-04 12:50:50

R基础(一)- R版本升级、现有版本查看

R版本升级系统:WINDOWS方式:推荐打开RGui界面进行升级,而不要再RStudio中直接输入命令包:installr代码:#安装包,如果已经有此包可跳过此步骤install.packages("installr")#加载包,升级library(installr)updateR() 查看R版本代码:version ...

2018-09-04 12:43:47

4.3.1有监督学习(六) - 朴素贝叶斯分类(Naive Bayesian Classifier)

简介贝叶斯分类方法是与有监督学习中的最直观简单的方法。贝叶斯分类器缘起于贝叶斯定理,在定理的基础上发展为了朴素贝叶斯分类法(NaiveBayesianClassification)。朴素贝叶斯分类方法的好处在于简单直接,它一般用于概率推理与决策,即在信息不全的时候,通过观察随机变量,推断不可观察的随机变量。一句话解释版本:贝叶斯分类是利用概率论作为基础推断不可观测变量的类别,其基础...

2018-08-29 15:06:18

4.3.1有监督学习(五) - 支持向量机(SVM - Support Vector Machine)

简介支持向量机(Support Vector Machine,SVM)是一种有监督学习中的分类器。它适合小样本、非线性以及高维度的分割。SVM通过选择不同的核函数来构造不同的模型,并构建不同的分割器。例如,核函数为线性函数时,SVM等同于线性回归;核函数为Sigmoid时,SVM等价于神经网络。一句话解释版本:SVM通过非线性转换升维数据,实现线性可分;通过最大化边界,寻找最优分割器。...

2018-08-27 17:02:27

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。