自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

关注我,你就是我的电子朋友咯!

公众号:灵魂体验官

  • 博客(42)
  • 资源 (4)
  • 收藏
  • 关注

原创 这个笑话不太冷|慎重

Bourne Ideology Hey , let me tell you a joke , provided that I'm joking , here we go.​ CHARLES BOU...

2019-10-17 11:18:59 433

原创 R语言dplyr包高效处理数据-补充函数

关于R语言中dplyr包实用函数的补充:cur_group_、add_count、cumall、cumany

2023-09-17 18:25:17 385

原创 R语言-高效数据处理之泛函数化@灵魂体验官

本文主要运用apply函数族、map函数族、自定义函数的数据处理。将同类数据处理函数化,极大提升数据处理效率!1、自定义函数-含变量、参数#通用函数说明#data_eg为传入的数据集,var1为传入的变量,para1、para2为传入的参数#此函数便于计算任意变量在指定的范围内的计算结果eg_function<-function(data_eg,var1,para1,para2){ data_eg%>% filter(between({{var1}},para1,para

2022-04-26 18:55:52 517

原创 R语言dbplyr包实现R与SQL语句无缝衔接

注:并不支持所有R函数语句转换为SQL,例如:dplyr包的with_groups1、cop_to函数适用于少量数据复制到数据库(通常创建为临时表),然后使用R语句计算并转换为SQL语句;不建议直接复制数据到库再进行操作,大量数据复制会耗费较长时间,使用src_memdb将极大节省时间(并不会创建新的数据在R中,而是存储在src_memdb)。copy_to( src_x,#远程数据源链接,例如src_postgres,src_sqlite df,#需要复制的数据 name =

2021-11-11 18:38:42 1314

原创 R语言data.table包高效处理/提升大数据效率@灵魂走风的江湖

data[i,j,lapply(.SD,fun),.SDcols=,by]fifelse()函数,可对照dplyr包if_else、软件内置ifelse函数计算效率大数据集(GB量)处理

2021-11-03 19:02:55 1553

原创 R语言&ggplot2包连载之ggplot分面图@灵魂走风的江湖

ggplot2包运用实例—定制化绘图1、作图代码iris %>% #变量选择select(Sepal.Length,Sepal.Width,Species)%>%#图表基础数据ggplot(mapping=aes(y=Sepal.Length,x=Sepal.Width,color=Species))+#绘图方式geom_point(shape=8)+#分面函数facet_wrap(~Species)+#图形猪蹄设置theme(legend.text.align .

2021-08-26 14:36:08 354

原创 R语言dplyr包:高效数据排序函数

窗口函数均在dplyr包中,相当于深入运用,可对应SQL函数数据处理排序函数dense_rank#对数据按照日期分组后排序,从大到小排序activity_value_rank<-activity_value%>%group_by(date)%>%mutate(value_rank=dense_rank(desc(max_value)))#对数据按照日期分组后排序,从小到大排序activity_value_rank<-activity_value%>%group_

2021-06-17 18:47:34 1086

原创 R语言高效处理复杂数据函数汇总@灵魂体验官

#清除Rstudio中已读取、输出结果、函数等数据rm(list=ls())#设定文件读取路径setwd("E:/r_files")library(dplyr)library(stringr)library(magrittr)library(openxlsx)library(lubridate)library(Hmisc)library(docxtractr)install.packages("readtext")library(data.table)library(mice.

2021-01-13 18:53:41 950

原创 echarts知识巩固

chart指一个完整的图表,如折线图、饼图等,由基本图形或者混搭图形组合而成axis直角坐标系的坐标轴,坐标轴可以分为类目型、数值型或时间型xaxis直角坐标系中的横轴,默认类目型yaxis直角坐标系中的纵轴,默认数值型grid直角坐标系中除坐标轴外的绘图网格,用于定义直角系整体布局legend图例,表述数据和图形的关联dataRange值域选择,常用于展现地域数据时选择值域范围dataZoom数据区域缩放,常用于展现大量数据时选择可视范围roamController缩放漫游

2020-11-14 17:40:34 348

原创 常用函数记小本本上

四舍五入函数ROUND(x)、ROUND(x,y)保留返回值小数位数TRUNCATE(x,y)将数字格式化后保留小数位数FORMAT(x,n)字符串长度CHAR_LENGTH(str)字符串拼接CONCAT(v1,v2,...)带有分隔符的拼接CONCAT_WS(v,v1,v2,...)字符串截取SUBSTRING()取固定长度字符串LEFT(v,n)、RIGHT(v,n)去除空格LTRIM(v)、RTRIM(v)、TRIM(v)当前时间CURDATE()、CURRENT_DATE.

2020-05-26 16:46:36 326

原创 R中HIVE实战

R连接hive报错:R中报错java.lang.NoClassDefFoundError: com/google/protobuf/ProtocolMessageEnumhiveserver2端报错java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.aut...

2020-04-10 16:39:26 563

原创 HIVE环境搭建杂交版

windows环境下1、Hadoop环境配置:环境变量配置:java_home=C:\Program Files\Java\jdk1.8.0_201hadoop_home=D:\hadoop-3.1.1path中添加%HADOOP_HOME%\binhadoop文件配置修改:安装目录下hadoop\etc\hadoophdfs-site.xml<configur...

2020-03-13 17:31:01 481

原创 python爬虫知识深度巩固

AJAXAJAX原理:Asynchronous JavaScript and XML,即异步的JavaScript和XML,利用JavaScript在保证页面不被刷新、页面不改变的情况下与服务器交换数据更新部分网页。发送AJAX请求到网页更新步骤:发送请求、解析内容、渲染网页发送请求的JavaScript代码:var xmlhttp;if (window.XMLHttpRequ...

2020-02-25 19:02:57 712

原创 python抓取天猫店铺归属信息地址(扫码登录)@灵魂走风的江湖

不作任何解释,自行阅读 傲娇selenium扫码登录import randomfrom selenium import webdriverimport timefrom ...

2019-12-06 17:07:10 850

原创 Tableau可视化—复杂图形绘制实战updating

目录1、雷达图2、 箱线图/盒须图3、 圆环图4、南丁格尔玫瑰图5、蝴蝶图6、帕累托图7、瀑布图1、雷达图前期准备:描述产品或者用户多维度的数据感觉Tableau画雷达图比其他可视化软件相对要复杂些,雷达图本身的背景(多个半径等差的同心圆转换得到的多边形)也是需要我们自己去画的,所以就需要另外画多个多边形图。1.1 选中量化的变量数据,创建数据透视...

2019-11-05 16:59:54 2517 2

原创 Bourne博客/微信公众号专属留言版

你的每一句我都会回复(话题不限,至于质量,那就得看你了)

2019-10-29 16:53:51 227

原创 Python中wordcloud安装失败的准确解决方案

关于python作词云的时候wordcloud加载失败的问题终于得以解决了可能你遇见过以下的一些报错(这些都不重要,看最后):Collecting WordCloud Using cached https://files.pythonhosted.org/packages/d4/95/d260ce89441d1f28192fa5a0a016f547829517b11cabe0079a...

2019-10-25 10:46:49 13952 16

原创 python常用函数语法(骚操作)

目录1、列表操作2、字典处理3、字符串操作4、模式匹配与正则表达式5、shutil模块6、调试7、保持时间、计划任务、启动程序8、发送电子邮件和短信9、多线程编程1、列表操作用下标取得列表中的单个值;负数下标。列表连接和复制del语句删除列表中的值del spam[2]index在列表中查找值,找到则返回值的下标append、ins...

2019-10-24 16:06:13 982

原创 心甘情愿的出轨|Complex TO Simple

从复杂到简单需要的时间 ...

2019-10-17 11:25:52 337

原创 超文本标记语言HTML知识NOTES

目录●静态、动态网页常见扩展名1、HTML标记:单标记、双标记2、常用HTML标记和格式3、字体标记4、文字布局5、图像和链接6、表单7、表格8、框架9、网页中的动态图文和多媒体10、DIV布局●静态、动态网页常见扩展名静态网页扩展名:.htm、html、shtml、xml等动态网页扩展名:.asp、jsp、php、perl、cgi等,网页中...

2019-10-09 16:03:03 1408

原创 python基于selenium自动化的股票历史数据爬取,但是难产了

Bourne同志这次用python爬取数据发生了严重车祸,现场惨不忍睹,堪比近期红遍网络的高速岔口轿车爬上了指路牌,啊!python中selenium的环境搭建是极其简单的,相比于R要简单许多,同时在运行上相对稳定些。图片源自:澎湃新闻这次用了selenium模块、正则表达式,正在准备的代理池。万万没想到前天早上突然发现那个网站竟然消失了,没有了,我的个天啊,搞了好几天的东...

2019-09-18 16:14:24 729

原创 Tableau之数据可视化大屏/智慧大屏(成都大熊猫繁育研究基地,模拟旅游相关数据)@灵魂走风的江湖

目录本案例的可视化内容均为模拟——以成都大熊猫繁育研究基地为例1、四川省市州/自治区地图2、词云展现游客对于大熊猫基地的评价/印象(评论词云)3、日客流量走势4、数据可视化大屏(蓝色星空背景)5、数据可视化大屏(墨蓝背景)6、数据可视化大屏(地图背景,四川) 7、数据可视化大屏(地图背景,成都) 8、成都大熊猫繁育研究基地数据可视化大屏(终版)...

2019-09-06 16:00:05 6517 12

原创 python爬虫猫眼电影TOP100(爬虫入门基础,同步入库)

小编辗转了比较长的一段时间,现在终于提笔于python的运用,这次尝试也是一个开端。本篇文章所爬取的数据网上已经有了很多版本,并不是什么新鲜的数据,仅仅作为个人进阶的参考。python爬虫进阶第S190811期python爬虫将会进一步深入到JavaScript渲染网页(动态渲染)、验证码识别、代理设置、cookies池搭建等,有兴趣的同道中人可以持续关注哈。本次尝试爬取小量电影数...

2019-08-12 10:22:41 1366

原创 网络爬虫HTTP原理、网页请求、网页基础

目录1、URI与URL 2、超文本hypertext3、HTTP和HTTPS 4、HTTP请求过程5、请求方法 6、请求头7、请求体 8、响应9、网页基础1、URI与URLURI是统一资源标志符(URL是URI的子集,URI还包括一个子类为URN统一资源名...

2019-07-18 15:20:01 5226

原创 MYSQL查询优化方法集合

少用一次select * ,少一次苦恼。小编:这篇杂记,很水1、避免使用select *查询2、避免重复查询相同数据3、mysql是否在扫描额外的记录,尽可能查询只返回需要的数据。最简单的衡量查询开销的3个指标:响应时间,扫描行数,返回的行数。检查慢日志记录是找出扫描行数过多的查询的办法 。3.1 查看查询扫描的行数与返回行数3.2 查看扫描行数和访问类型explain...

2019-07-04 17:40:58 282

原创 Hmisc包函数(变量名批量修改、变量标签、变量描述性统计)

Hmisc包函数1、upData(object, ...,subset, rename, drop, keep, labels, units, levels, force.single=TRUE,lowernames=FALSE, caplabels=FALSE, moveUnits=FALSE,charfactor=FALSE, print=TRUE, html=FALSE)函数主要参数...

2019-06-21 15:38:30 5556

原创 R语言purrr包函数(map函数族)

R语言高效数据处理包purrr参数说明:x:列表或者向量;.f:函数或者公式或者向量; .p:判断函数;.else:若.p参数为false则执行该参数的函数 .at:函数只修改.at对应的参数;.l向量列表初始函数名 作用说明 对应二维列表/参数 对应多维列表/参数 map(.x,.f,......

2019-06-13 17:54:12 10496

原创 Tableau可视化杂记

Tableau6、高级数据操作:6.1.1分层结构:分层结构是一种维度之间自上而下的组织形式。tableau默认包含了对某些字段的分层结构,如:日期、时间、地理角色。分层结构对维度之间的重新组合有重要作用,上钻、下钻是导航分层结构的最有效方法。创建分层结构:(当待分层字段出现在文件夹内部时,不能再通过拖放的方式来创建分层结构)方式1:通过拖动方式创建名为“XX”的分层...

2019-05-26 22:08:28 1346

原创 R语言正则表达式语法共享(更新中)

R语言正则表达式语法在之前文章stringr包里面提到需要用到正则表达式的去处理一些杂乱数据,尤其是在处理从网络爬取的数据,而非自由平台的数据时候,数据是非常脏的。R语言可运用正则表达式的函数 1、有基础包自带函数grep, grepl, regexpr, gregexpr,regexec,sub,gsub这些函数的参数都一样grep(pattern, x, ignore....

2019-05-22 16:34:14 1150

原创 R语言基于selenium模拟浏览器操作进行(AJAX渲染网页、动态网页)数据爬取-连载NO.02(更新中)

R语言动态网页数据爬取用法连载NO.02selenium是一个开源的软件套件。selenium通过浏览器控制与网页进行交互,这样我们可以操作实时DOM树(浏览器窗口中视觉显示的方式)。selenium可以控制浏览器实现文本输入、点击、滚动、滑动的操作。 可进行身份验证哦使用selenium之前需要初始化selenium jav...

2019-05-21 17:45:28 2048 3

原创 R语言连接MySQL读写中文数据乱码问题解决方案

R语言在对中文的读写上是有点不友好,估计也是众多R语言使用者吐槽的点。Rstudio连接mysql可以通过RMySQL和RODBC连接,通常对于非中文的数据读写、分析都不会出现问题,但是遇到中文的时候问题就来了。对于R连接MySQL读取中文或者写入中文数据的时候乱码问题,这里给出的解决方案如下:1、通过RODBC包进行读取,可以完美解决(相对来说,odbc的连接方式比RMysql...

2019-05-09 18:03:09 2806

原创 R语言RSelenium包爬取动态网页数据前期准备(环境配置)-连载NO.01

生而为人,学无止境。作为爬虫爱好者,最开始的时候多少都会遇到爬取的时候返回各种bug,抓头挠耳吧;R语言爬虫的包基础的就是rvest和RCurl,解析的就是xml包,当然你还得有html、css、http协议;但基本的包仅对于静态网页的爬取比较有效,而对于动态网页(渲染网页)就没用了;接下来写一下R语言里面对于动态网页爬取(AJAX异步渲染/加载网页)的前期环境配置/搭建(模...

2019-04-22 22:22:48 2016 4

原创 R语言data.table包高效数据处理(大量数据分析/处理)

在数据处理量较大的时候,最为头痛的就是数据的读写、运算效率。 data.table处理大数据集(数据文件达到以1G为单位)时相对于R语言的基本函数在数据读写、处理速度都不能与之相比可以对比基础函数、dplyr包函数做同样运算处理的时间。可自行对比数据处理函数(filter、group_by、mutate、summarise),数据量在上100万左右,稍微复杂的计算差距就特别明显。...

2019-04-07 20:38:26 7455 2

原创 R语言dplyr包:高效数据处理函数case_when、inner/semi_join/anti_join、right/left_join@灵魂走风的江湖

R语言高效数据处理包本篇为dplyr包实用函数的连载,主要为SQL数据库中类似功能的实现。1、case_when函数,有一些SQL基础(casewhen)的都猜得到这个函数的功能可实现多条件判断并可以添加标签的函数,这在我们对数据进行分类整理中十分的实用,这个函数中的参数可以这样分:一部分是判断条件,另一部分是所要做的标签iris%>%select(Sepal.Lengt...

2019-03-30 21:38:08 10985

原创 R语言stringr包字符串、文本数据处理函数(数据清洗、正则表达式)

最近一直在忙于数据清理、整理,分析、可视化都不多,想来把数据处理中的一些方法分享给大家!本篇是对你接到一个烫手山芋时,如何将它们一并拿下!stringr包函数处理脏数据可谓是屡试不爽,例如:网络爬取的数据、平台反馈数据、用户数据、医疗数据由于时间比较赶,下面写到的都是常用的数据处理函数1、最基础的就是字符串拼接函数:str_c、str_join2、数据匹配函数:inner...

2019-03-19 22:51:07 4992

原创 R语言Spark大数据分析/可视化环境配置/部署教程(sparklyr、hadoop)

R软件本身软件可以处理的数据量其实对于一些喜欢用R处理数据的有一些局限性,但是R现在也可以部署大数据环境,过程虽然比较艰辛,但结果是安逸的。最开始我们需要下载配置环境,配置环境小编把分为两部分:1、外部环境配置文件(java、spark);2、Rstudio中配置1.1java下载、安装,选择适合你系统的就可以;1.2安装好java后我们需要做的一件重要的事就是系统环...

2019-02-27 21:34:36 1578

原创 R语言tidyr包数据变换函数(dplyr包组合使用,完美)

日常的数据预处理中,不可避免的会遇到数据的各种变形、转换,R语言中的tidyr包函数解决了数据变形上的问题,变量、列的转换。1、宽数据变长数据gather(data, key = "key", value = "value", ..., na.rm = FALSE,convert = FALSE, factor_key = FALSE)参数说明:data数据; ...

2019-02-23 23:00:00 3905

原创 R语言dplyr包:高效数据处理函数arrange、sample_n、n_distinct、select、compute等

今天是个特别的日子,小编在这里祝大家情人节快乐!本篇文章继续之前文章提到的关于dplyr包数据处理的函数。错了,小编是准备那天发的,忘发了R语言在数据整理、分析上面的方法是很多的,并且通俗易懂,相信热衷于用R语言处理数据的同仁也深有体会。1、数据排序函数arrange()函数其实和大家经常用的EXCEL中的降序、升序相似,但该函数的功能肯定更便捷、强大,可以按照多列(有序的列)进行...

2019-02-16 15:14:48 14357

原创 R语言dplyr包:高效数据处理函数(filter、group_by、mutate、summarise)

R语言dplyr包的数据整理、分析函数用法文章连载NO.01在日常数据处理过程中难免会遇到些难处理的,选取更适合的函数分割、筛选、合并等实在是大快人心!利用dplyr包中的函数更高效的数据清洗、数据分析,及为后续数据建模创造环境;本篇涉及到的函数为filter、filter_all()、filter_if()、filter_at()、mutate、group_by、select、summa...

2018-12-13 22:56:51 73950 17

原创 R语言RCurl爬虫(多线程爬虫)-高评分豆瓣图书

R语言爬虫-高评分图书(豆瓣)# R语言爬虫-高评分图书(豆瓣)本篇文章依然延续之前的爬虫类型文章,多次实操有助于对于代码的理解和技术的提升。此次爬取的是豆瓣上高评分的图书,每一次爬取都会给大家提供一份有价值、有意义的东西,每一次都有所提升,我是ERIC,希望喜欢这方面技术的或者对于发表的内容感兴趣都可以相互交流,共同提升。 (此篇爬虫数据采集后只进行了简单的可视化分析,未进...

2018-11-09 00:07:22 2643 6

tableau_desktop_2018.3.pdf

本书是tableau2018的教程,适合对于tableau深入学习与应用。

2019-05-24

Plyr包函数讲解

该PPT为plyr包中数据处理函数的讲解,比较R语言中一般函数。

2018-12-12

豆瓣图书TOP250多线程爬虫代码

该代码为爬取豆瓣图书TOP250的源代码,有任何疑问随时联系博主

2018-11-15

豆瓣图书TOP250

该文件为豆瓣上评分排行前250的图书信息数据,数据爬取文章网址:https://blog.csdn.net/LEEBELOVED/article/details/83790006

2018-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除