自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Gavin Chen的专栏

计算机技术、数据科学、管理科学

  • 博客(61)
  • 收藏
  • 关注

原创 R语言语法及建模合集

点击下列超链接可进入博客:一、语法篇:R语言常用包分类R语言数据导入导出总结R语言数据探索功能总结R语言中的离群点检测方法R语言中的向量使用合集R语言中的因子类型R语言中的对象以及它的模式与属性R语言中的列表和数据框R语言中的控制流函数R语言中的函数定义二、画图篇:三、统计篇:使用R语言进行参数估计使用R语言进行假设检验使用R语言进行方差分析使用R语言进行回归分析使用R语言进行回归诊断四、数据...

2018-04-04 19:50:17 5207 1

原创 数据挖掘常用算法理解与自定义函数实现(ing)

要做啥:1、把自己学到的数据挖掘常用算法,按照自己的理解做详细的整理和解释。2、用R语言自带包实现经典算法小案例。3、用R语言编写自定义函数实现算法。4、做算法自定义函数的模型评估。为何做:1、熟悉R语言语法2、深入理解算法内容3、练习模型评估方法做了啥【决策树】 ID3算法理解与实现【聚类算法】Kmeans算法理解与实现【分类算法】BP神经网络算法理解与实现【关联规则】Aprior 算法理解与实...

2017-12-18 10:40:33 1318 1

原创 数据分析的统计学基础

数据分析中的统计学基础--数理统计基础数据分析的统计学基础--描述性统计数据分析的统计学基础--抽样估计数据分析的统计学基础-假设检验数据分析的统计学基础--方差分析数据分析的统计学基础--相关及回归分析

2017-11-14 18:28:53 1939 1

转载 【转】十大数据挖掘算法

数据挖掘十大经典算法转自:https://www.cnblogs.com/lcchuguo/p/4874288.html 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。 2)...

2019-02-20 10:53:51 843

转载 相关性分析步骤

简单相关分析的基本步骤如下:下面以腰围、体重、脂肪比重为例,来说明应该怎样进行相关分析。第1步:绘制散点图在SPSS中,绘制散点图非常简单。操作步骤如下:1)点击图形à图表构建程序。2)在库中选择散点图,双击简单散点图。3)分别将腰围和体重,拖入X轴和Y轴,确定即可。观察散点图,可知:腰围与体重应该是存在线性相关性的,或者说,腰围对体重是有影响的。不过,这相关...

2018-12-04 17:39:57 88277 1

转载 R语言中时间序列日期设置

时间序列的不同时间分段设置1. 普通的时间序列:年、月、季 1 myserises<-ts(data,start=,end=,frequency=)#其中frequency=1代表年;frequency=12代表月;frequency=4代表季度数据 2. 如果以天为单位的时间序列1 t<-ts(1:365,frequency=1,start=as.Date("201...

2018-11-23 11:41:19 31249 3

转载 【转】python数据分析(分析文本数据和社交媒体)

1、安装NLTK[html] view plain copypip install nltk  至此,我们的安装还未完成,还需要下载NLTK语料库,下载量非常大,大约有1.8GB。可以直接运行代码下载、代码如下:[html] view plain copyimport nltk  nltk.download()  这样可以直接下载NLTK语料库了。2、滤除停用词、姓名和数字进行文本分析时,我们经常...

2018-06-26 20:14:42 1622

原创 Spss 使用合集

11

2018-06-06 11:07:08 1284

原创 Python语法与建模合集

Python 多元回归实现与检验

2018-06-06 11:05:02 672

转载 Python 多元回归实现与检验

python 实现案例1、选取数据 执行代码#!usr/bin/env python#_*_ coding:utf-8 _*_import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport matplotlib as mpl #显示中文def mul_lr(): pd_data=pd...

2018-06-06 11:03:42 18227 3

转载 【转载】机器学习实战:模型评估和优化

原文:Real-World Machine Learning: Model Evaluation and Optimization 作者:Henrik Brink, Joseph W. Richards, Mark Fetherolf 监督学习的主要任务就是用模型实现精准的预测。我们希望自己的机器学习模型在新数据(未被标注过的)上取得尽可能高的准确率。换句话说,也就是我们希望用训练数据训练得到的模...

2018-06-05 09:36:11 609

转载 SPSS 做数据预测方法

在做logistics回归之前,我们要先对你要做预测的变量做个相关分析,找出和你因变量相关的自变量。我这里就不做了,直接用我处理之后的数据。打开我们要分析的数据,单击“分析”,选择“回归”,然后选择“二元Logistics回归”,弹出下面的界面,如图:     把是否购买移到因变量框里面去,把消费金额和消费数量移动到协变量框里面去,然后单击“保存”按钮,弹出“Logistics回归:保存”界面,选...

2018-05-21 18:34:17 85321 2

转载 数据挖掘算法学习及应用场景

                                                                   ------------------------------------------------------------------------------------                                                 ...

2018-05-21 15:09:49 4503

转载 数据分析师职业规划

最近有不少同学向大讲台老师咨询有关数据分析职业发展的问题,由此可见,随着大数据的飞速发展,数据分析职业也成为很多同学关注的目标。不要急,大讲台老师这就给大家介绍数据分析的职业发展。入门和职业规划应该从两个角度考虑:领域和路线。领域是不少新人常忽略的要素,其实数据分析不会脱离业务存在。你进入哪个行业,很大程度会决定你初期的技能树和技能点。譬如金融领域的风控模型、营销领域的生命周期、广告领域的点击率预...

2018-05-13 20:51:11 4037

原创 R语言中的控制流函数

文本包含ifelse、while、switch、repeat函数的使用#条件语句 if else x<-c(1,2,3,-5)#如果x中存在负数,那么x赋值为y,否则将x+1 赋值给yif(any(x<0)) y<-x else y<-x+1y# [1] 1 2 3 -5#这两者的语句是类似的y<-if(any(x<0)) x else...

2018-04-11 18:43:39 1720 1

原创 R语言中的列表和数据框

一、列表# --列表#列表是一种特殊的对象集合,跟数组一样,他的元素也有序号确定,但是不同点在于可以存在不同类型的元素。Lst<-list(name="Fred",no.children=3,wife="Lucy",children.ages=c(4,7,9))# $name# [1] "Fred"# # $no.children# [1] 3# # $wife# [1...

2018-04-10 23:13:06 10422

原创 R语言中的多维数组、矩阵、列表、数据框

在R中,数组(Arrary)可以看做是带多个下标的相同类型的元素集合,常用的是数值型的数组如矩阵,也可以是别的类型的数组,比如字符型,逻辑型等。Dim属性是数组中很重要的属性,也叫维数向量,当维数向量有两个值时代表为矩阵,有一个值时代表为一维数组。#使用向量生成数组或者矩阵c<-1:12c# [1] 1 2 3 4 5 6 7 8 9 10 11 12dim(c)&...

2018-04-10 20:29:28 9338 1

原创 R语言中的因子类型

一、Factor函数#函数factor可以把一个向量编码为一个因子,其一般形式为:#factor(x,levels=sort(unique(x),na.last=TRUE),labels,exculde=NA,order=FALSE)#其中x是向量,levels是水平,可以自行指定各离散的取值,不指定时由x的不同值来表示,labels可以用来指定各水平的标签#不指定时用各离散取值的对应字符串...

2018-04-10 18:30:08 10477 1

原创 R语言中的对象以及它的模式与属性

#R中的对象与他的模式和属性#--------固有属性mode和length#mode 即向量的类型,可以分为数值型、逻辑型、复数型、字符型mode(c(1,2,3))# [1] "numeric"mode(c(1,2,3)<3)# [1] "logical"#使用is.character可以判断某个对象的类型is.character(c("1","2")) #另外有is...

2018-04-10 16:11:52 3744 1

原创 R语言中的向量使用合集

#---r中向量相关的操作#----数字型向量#赋值x<-c(1,2,3)assign("x",c(1,2,3))y<-c(x,2,x)# > y# [1] 1 2 3 2 1 2 3#向量的运算x<-c(1,2,3);y<-c(2,3,4)v1<-2*x+x*y+1# > v1# [1] 5 11 19v2<-2...

2018-04-10 16:09:15 11435

原创 【数据挖掘】使用R语言进行聚类分析

本文主要介绍在R语言中使用k-means和K-Medoids进行聚类分析的方法。一、首先介绍下聚类分析中主要的算法:lK-均值聚类(K-Means)十大经典算法l K-中心点聚类(K-Medoids)l 密度聚类(DBSCAN)l 系谱聚类(HC)l期望最大化聚类(EM)十大经典算法聚类算法软件包主要函数K-meansstatskmeans()K-Medoidsclust...

2018-04-09 15:29:15 91381 1

原创 使用R语言进行时间序列分析

一、时间序列的定义时间序列是将统一统计值按照时间发生的先后顺序来进行排列,时间序列分析的主要目的是根据已有数据对未来进行预测。一个稳定的时间序列中常常包含两个部分,那么就是:有规律的时间序列+噪声。所以,在以下的方法中,主要的目的就是去过滤噪声值,让我们的时间序列更加的有分析意义。二、时间序列的预处理1、平稳性检验:拿到一个时间序列之后,我们首先要对其稳定性进行判断,只有非白噪声的稳定性时间序列...

2018-04-08 10:50:32 117564 2

原创 R语言中的离群点检测方法

本文中将介绍单变量离群点检测、通过聚类检测离群点的例子最后演示从时间序列中检测离群点。一、单变量和多变量的离群点检验。set.seed(123)data<-rnorm(100)#随机生成100个符合正态分布的随机数summary(data)plot(density(data)) #打印出data的概率密度函数#打印出data箱线图,从箱线图中可以看到地步有一个离群值boxplot(...

2018-04-07 16:13:11 18537 1

原创 使用R语言进行回归诊断

人们提出所谓回归诊断的问题,其主要内容有:关于误差项是否满足:独立性、等方差性、正态性。选择线性模型是否合适是否存在异常样本回归分析的结果是否对某些样本依赖过重,也就是回归模型是否具有稳定性自变量之间是否存在高度相关,即是否存在多重共线性下面我们通过一个小例子来大体认识一下回归诊断的重要性。一、使用散点图显示变量之间的关系及修正过程:Anscombe<-data.frame( X =c(...

2018-04-07 10:59:02 11147

原创 使用R语言进行回归分析

1、线性回归的基本函数lm<-lm(formula,data=data.frame)#其中formula为回归公式,data为数据源数据框#例如:lm<-lm(y~x1+x2,production)2、与线性模型相关的函数print()原本为打印函数,当参数为线性模型对象时,会打印出模型中的系数以及截距值。基于线性模型操作的对象有很多,比如:predict、summary、...

2018-04-06 21:26:11 21207 2

原创 使用R语言进行决策树建模

关于决策树的理解及自定义代码实现请参考我的另一个博客:数据挖掘常用算法理解与R语言实现(系列待完成)本次技能点:训练集和测试集的选取决策树构建与减值决策树的print和plot预测值与实际值关系描述用到的函数或包:ctree(party包),rpart(rpart包),set.seed、sample、predict、cptable、cp属性、prune、xerror属性。代码:#一、使用part包...

2018-04-06 16:25:03 14632 1

原创 R语言数据探索功能总结

#本次技能点:#str dim attribute head tail summary quantile hist cov cor aggregate pairs boxplot scatterplot3d plot3d heatmap#使用iris数据集进行数据探索的练习#本次练习点:#str dim attribute head tail summary quantile hist...

2018-04-06 16:13:22 2183

原创 R语言数据导入导出总结

#本次学习关键词 save()、load()、read.csv()、write.csv()、read.xlsx()、write.xlsx()#odbcConnect、readChar、sqlQuerystr(iris) #查看数据结构类型、观测值数、列数、以及每个列的大体概况names(iris)#查看数据结构中的列名,及赋值列名#R数据的保存与加载setwd("/Users/gavin...

2018-04-06 13:01:33 24486 3

转载 R语言plot函数参数合集

最近用R语言画图,plot 函数是用的最多的函数,而他的参数非常繁多,由此总结一下,以供后续方便查阅。plot(x, y = NULL, type = "p", xlim = NULL, ylim = NULL,log = "", main = NULL, sub = NULL, xlab = NULL, ylab = NULL,ann = par("ann"), axes = TRUE, fra...

2018-04-06 00:20:47 89897

原创 利用税务数据分析美国人群收入情况

一、案例描述:本案例数据集中记录了从过去大约100年内全球各国高收入信息,通过这些信息我们能分析群人的收入变化情况,以及专注在美国的各个收入阶层之间的差别关系。本案例集的下载地址为:https://old.datahub.io/dataset/world-top-incomes-database二、相关代码:#coding=utf-8import numpy as npimport matpl...

2018-04-05 16:55:15 7776 10

原创 【分类算法】BP神经网络算法理解与实现

一、模型理解本次介绍的主要为BP神经网络,是ANN(Artifical Neural Networks)神经网络中的一种。BP即为前馈的意思,即输入节点只跟前边的隐藏层或者输出节点向前发生关系。这是一种预测模型,能根据已有的学习集训练出模型,根据预测集中的x1,x2,x3预测Y的值。在下边的博客中,详细介绍了BP神经网络的算法:https://blog.csdn.net/google1989010...

2018-04-04 22:40:42 2391

原创 R语言数据分析案例合集

 案例一、汽车数据可视化分析(R)-ggplot2案例二、房价指数的分析与预测-时间序列

2018-04-04 19:54:36 60745 3

原创 ScienceCookBook-汽车数据可视化分析(R)总结

1、本次案例概述(案例描述、代码地址)获取近几年汽车行业总体数据,并对其进行一定整理。重点分析燃油使用率(MPG),发动机类型(cylinder)、传动类型(Trany)、排量(displ)供应商以及其相互之间的关系,来发现近年来汽车生产销售的趋势或规律。代码展示:代码下载:https://github.com/HelloMrChen/DataScienceCookbook/tree/master...

2018-04-02 10:38:29 22801 26

原创 R语言中Legend 函数的参数详解

legend(x, y = NULL, legend, fill = NULL, col = par("col"),border = "black", lty, lwd, pch,angle = 45, density = NULL, bty = "o", bg = par("bg"),box.lwd = par("lwd"), box.lty...

2018-03-09 13:43:52 70660 1

转载 R语言中的分屏函数

1、使用par(mfrow=c(2,2))即可 (论文中的使用方法)[plain] view plain copy>par(mfrow=c(3,3))  > plot(Nile)  > plot(Nile)  > plot(Nile)  > plot(Nile)  > plot(Nile)  > plot(Nile)  > plot(Nile)  &...

2018-03-09 10:41:50 5728

转载 R语言绘图样式设置(符号、线条、颜色、文本属性)

设置图像样式有两种方法,一种是全局修改,一种只针对一幅图片有效。全局修改[python] view plain copya<-c(1:10)    #全局修改  old_par<-par(no.readonly=TRUE) #记录默认样式到变量old_par中  par(lty=2,pch=17)              #设置线型lty=2虚线,pch=17实心三角形,键值对的方式...

2018-02-08 21:03:30 87812

原创 多层线性模型(HLM or Mix Model)使用中的问题合集

1、HLM运行只运行到一半,报错:无法继续,Matrix Vtheta1 is not invertible. Unable to continue  报错如下图。在运行HLM中时,出现上述错误,直译是说矩阵不可逆,无法继续,所以没有得出期望的结果。现在查到线索说是《分层线性模型层-1自变量中心化问题研究综述》何晓群,文献中有详细的说明,正在跟踪。问题原因已找到,确实是因为数据未中心化

2018-01-05 15:39:28 18289 1

转载 R语言常用包分类

R语言常用函数包

2018-01-03 16:09:27 4080

原创 【电商运营】京东数字化运营【客单价篇】

客单价篇客单价,即店铺每一位顾客平均购买商品的金额,客单价也成为平均交易金额,其计算公式为:销售额除以顾客总数。我们前边重点介绍了流量和转化率,那么在获得了高流量和高转化率之后,我们来介绍如何运用定价策略、爆款和关联营销,步步为营的提升店铺客单价,进而店铺销量的。定价策略说到客单价,我们首先要知道最初始的商品商家是如何定价的,作为影响利润最直接的因素,商家只有制定最合理的价

2018-01-01 21:25:01 4015

原创 【电商运营】京东数字化运营【转化率篇】

转化率篇在店铺赚足了流量之后,我们考虑怎么将流量转化为销售额,才是我们的最终目的。重要指标我们将转化率按照购物环节进行拆解,那么可以分为:静默转化率、咨询转化率、加购转化率、付款转化率。我们还是介绍一些比较枯燥,但是很容易懂的转化率相关的指标:入店访客数,即我们第一节中所说的UV,对店铺进行过访问的即为入店访客数。有效访客数:即在店铺中访问了至少两个页面之后才离开的用户。咨

2017-12-31 17:09:26 6444

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除