自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 R语言-逻辑回归+主成分分析-员工离职预测训练赛

题目:员工离职预测训练赛网址:http://www.pkbigdata.com/common/cmpt/员工离职预测训练赛_竞赛信息.html要求:数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。数据分为训练数据和测试数据,分别保存在pfm_train.csv和pfm_test.csv两

2017-09-11 11:10:59 7491 1

原创 R语言-向量机-员工离职预测训练赛

题目:员工离职预测训练赛网址:http://www.pkbigdata.com/common/cmpt/员工离职预测训练赛_竞赛信息.html要求:数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。数据分为训练数据和测试数据,分别保存在pfm_train.csv和pfm_test.csv两

2017-09-11 11:00:25 1246

原创 R语言-决策树-员工离职预测训练赛

题目:员工离职预测训练赛网址:http://www.pkbigdata.com/common/cmpt/员工离职预测训练赛_竞赛信息.html要求:数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。数据分为训练数据和测试数据,分别保存在pfm_train.csv和pfm_test.csv两

2017-09-11 10:50:00 2723

原创 cbind()/data.frame()构建数据框字符串chr变因子Factor问题解决

cbind() 帮助文档中有这么一段话:The cbind data frame method is just a wrapper for data.frame(..., check.names = FALSE). This means that it will split matrix columns in data frame arguments, and convert characte

2017-08-14 11:44:42 6581

原创 R语言学习-提取igraph的节点和边

网络分析的时候,可能需要提取出网络中的节点或者边,igraph包中其实提供了很多可用的函数。#创建网络方法之一:data.framedata<-data.frame(id1=c(1,1,2,3,4,4,5,5,6,6,7,8,8,9,10,5,15,6,7,16),id2=c(2,11,11,12,13,14,15,16,7,15,16,17,18,18,9,19,19,19,19,19))

2017-08-04 16:08:08 14520 1

原创 R语言学习-交集和并集

两组向量求交集和并集a <- c(1,2,3,4,1)a[1] 1 2 3 4 1b <- c(1,5,7)b[1] 1 5 7intersect(a,b) #交集[1] 1union(a,b) #并集[1] 1 2 3 4 5 7

2017-08-02 10:07:58 12405 1

原创 R语言学习-table()结果提取

test <- c(1,2,3,2,1,1,5,6,4,5,1)test [1] 1 2 3 2 1 1 5 6 4 5 1test1 <- table(test)test1test1 2 3 4 5 6 #test中的元素4 2 1 1 2 1 #各个元素出现的频率#1.提取table()中的元素names(test1)[1] "1" "2" "3" "4" "5"

2017-08-02 09:38:29 70119 7

原创 R语言学习-创建新的矩阵matrix

A <- matrix(nrow=0,ncol=2) #创建空的矩阵A [,1] [,2]B <- matrix(c(1:10),ncol=2) #初始化矩阵B [,1] [,2][1,] 1 6[2,] 2 7[3,] 3 8[4,] 4 9[5,] 5 10C <- data.fram

2017-07-24 15:58:49 41728

原创 R语言学习-问题解决-Error in output$nodeID : $ operator is invalid for atomic vectors

问题:在使用"$"符查看变量列的时候,报错Error in output$nodeID : $ operator is invalid for atomic vectorsoutput <- data$scoreoutput <- cbind(nodeID=dat$nodeID,score=output)head(output$nodeID) Error in output$nod

2017-07-19 10:46:15 41345 2

原创 R语言学习-问题解决-reached getOption("max.print")

#Rstudio默认屏幕打印变量数据行*列不超过1000,超出部分会被省略#构造数据data <- cbind(c(1:600),c(600:1),c(0:9))data [,1] [,2] [,3] [1,] 1 600 0 [2,] 2 599 1 [3,] 3 598 2 [4,] 4 597 3

2017-07-19 10:02:37 29139 3

原创 R语言学习-查看数据头和尾

#构造数据data <- cbind(c(1:10),c(10:1))data [,1] [,2] [1,] 1 10 [2,] 2 9 [3,] 3 8 [4,] 4 7 [5,] 5 6 [6,] 6 5 [7,] 7 4 [8,] 8 3 [9,] 9

2017-07-19 09:42:27 7682

原创 R语言学习-复杂网络中心度计算

中心度概念说明:指标名称概念比较实际应用点度中心度在某个点上,有多少条线强调某点单独的价值★作为基本点的描述接近中心度该点与网络中其他点距离之和的倒数,越大说明越在中心,越能够很快到达其他点强调点在网络的价值,越大,越在中心★★基本描述,用户价值中间中心度代表最短距离是否都经过该点,如果都经过说明这个点

2017-07-18 16:23:46 13310 1

原创 R语言-股票数据库(4)-股票行业和概念板块数据-Wind

################################################################################################################## 行业数据 ###################################################################

2017-07-11 11:26:55 3383

原创 R语言-股票数据库(3)-股票日K线信息-前复权-Wind

前文股票历史交易数据是未复权的,在此使用WIND数据库获取复权后价格安装Rstudio: https://www.rstudio.com/products/rstudio/download/安装WIND客户端: WAPI.PE.exe用户名:略  密码:略WindR 读取数据通过下面7 个函数实现的。w.wsd 读取历史序列数据,包括日间的行情数据,基本面数据以及技术数据指标。

2017-07-11 11:22:16 1931

原创 R语言-股票数据库(2)-股票日K线信息-未复权

注:1、此方法获得的股票价格是实际价格,未进行前/后复权       2、只举例深市的获取方法,沪市的同理       3、步骤:先从网上爬取每个股票的交易历史,存为csv格式文件;读取csv文件数据加载至mysql数据库###################################################################################

2017-07-11 11:08:17 1060

原创 R语言-股票数据库(1)-股票上市日期

############################################################################################################################################获取股票上市日期##################################################

2017-07-11 10:57:24 1014

原创 R语言-关键节点问题-方案四-K-shell分解法

K-shell分解法,O(N)     step 1  查找网络中所有度为1的节点,并将这些节点及连接的边去掉。      step 2  经过步骤1后,网络中可能会出现新的度为1的节点,循环执行步骤1,直至所剩的网络中没有度为1的节点为止。      step 3  去掉网络中剩余度为2的节点,一次类推,重复循环执行。      step 4  重复以上操作,直至网络中没有节点为

2017-07-10 11:00:11 3157

原创 R语言-关键节点问题-方案三

依旧是无向图关键节点问题,此方案使用一次性计算权重,排序输出,胜在运算快,避免循环。权重计算公式:节点权重=节点度+直接关联节点的度权重计算比较粗糙,仅为试水,并为后面的方案做铺垫。library(dplyr)library(RMySQL) # 载入RMySQL包conn <- dbConnect(MySQL(),dbname = "NE

2017-07-06 11:08:04 632

原创 R语言学习-Group By的实现

library(dplyr)data <- data.frame(year = rep(2016:2017,6),month = seq(1:12),sales=rep(c(10,20,30,40),3)) year month sales1 2016 1 102 2017 2 203 2016 3 304 2017 4

2017-07-05 14:06:47 82227 2

原创 R语言学习-JOIN的各种实现

library(data.table)library(dplyr)A<-data.table(X1=c("a","b","c","d","e"),Y1=c(1,2,3,4,5),Z1=c("num1","num2","num3","num4","num5"))AB<-data.table(X2=c("c","d","e","f"),Y2=c(4.4,5.5,6.6,7.7))B#LEF

2017-07-05 13:44:49 15108 1

原创 R语言学习-问题解决-Error in `[<-.ts`(`*tmp*`,...only replacement of elements is allowed

Error in `[<-.ts`(`*tmp*`, ri, value = c(2.7110254334953, 2.95418132827278, : only replacement of elements is allowed

2017-07-05 10:55:08 38914

原创 R语言学习-创建空矩阵

方法一:x <- rep(0,15)dim(x) <- c(3,5)x [,1] [,2] [,3] [,4] [,5][1,] 0 0 0 0 0[2,] 0 0 0 0 0[3,] 0 0 0 0 0方法二:x <- matrix(0,3,5)x [,1] [,2]

2017-07-04 14:34:12 28192 1

原创 R语言-时间序列-销量预测

数据源:day sales2015/1/1 1196132015/2/1 584812015/3/1 903502015/4/1 1519752015/5/1 2014642015/6/1 2180752015/7/1 2974482015/8/1 3330362015/9/1 5241852015/10/1 6744262015/11/1 6526502015/12/1

2017-07-04 11:41:03 6357

原创 R语言学习-数据导入数据库-MYSQL

#将变量中的数据导入数据库conn <- dbConnect(MySQL(),dbname = "NETWORKS",username = "root") # 建立数据库连接dbSendQuery(conn, "SET @@sql_mode=ANSI;") # 启动非严格模式dbSendQuery(conn, "SET NAMES GBK") # win7环境下如果汉字乱码,就

2017-06-30 16:52:41 3693

原创 R语言学习-一行/列转多行

> A<-seq(1:20)> A [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20> class(A)[1] "integer"> B<-matrix(A,nr=5)> B [,1] [,2] [,3] [,4][1,] 1 6 11 16[2,] 2 7

2017-06-30 15:58:19 10172

原创 R语言-关键节点问题-方案二

紧接方案一由于方案一每次输出一个权重最高结点,然原始网络规模达100W,到假设一秒输出一个结点也约需要277小时,到中间阶段,有很多结点具有相同的权重。因此做性能优化,每次输出权重最大的全部结点,预计可以吧时间缩短在3小时以内。缺点是同属最大权重的结点间可能相关,导致结果不是特别精准,尤其随着权重变小,规模变大,尤其明显,所以设置当最大权重为5的时候停止输出。实现代码:libr

2017-06-30 10:41:56 1005

原创 R语言学习-Group by的实现

library(dplyr)   node_rel    node_rel       #循环node_del   for (m in 1:length(node_del))     {       node_del_tmp        node_rel      }   node_rel    View(node_rel)          

2017-06-29 16:15:53 4693

原创 R语言学习-读取数据库数据-MYSQL

library(RMySQL)                                                                                                       # 载入RMySQL包conn dbSendQuery(conn, "SET @@sql_mode=ANSI;")                    

2017-06-29 11:25:58 3099

原创 R语言-关键节点问题-方案一

问题说明:社交网络以及其他各种各样的网络,在社会经济、自然科学等领域中发挥着越来越大的作用,而其中一个很核心的问题是了解一个节点在网络中发挥的作用。比如SARS的传播,可能香港一个超级传播者带来的影响比其他100甚至1000个人还多;一条谣言的传播,一个核心大号的转发可能带来巨大的影响。因此需要我们有一种能力,可以从生物的大规模基因调控网络中,找到导致疾病的重要基因;从大规模的社交网络中,找到

2017-06-28 16:37:07 1551

原创 R语言学习-创建新的数据框

output = data.frame(nodeID = 0,Weight = 0,seq = 0)        #建立空的输出序列output = output[-1,]                                      #清空数据

2017-06-28 16:11:39 3607

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除