自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 个人Django博客项目

一、Django-blog-material-x本站是基于的Hexo博客主题 Material X ,改用 Python3.6.3+Django2.17编写的,后台集成Markdown编辑器 mdeditor,前端代码高亮使用的是highlight.js插件。项目地址: https://github.com/Bgods/Django-blog-material-x1、页面侧边栏有侧边栏有个人卡片、、广告位、友情链接、热门标签、音乐插件,可在默认配置文件及后台管理修改相关设置。主页

2020-07-04 18:23:27 2543

原创 R语言:表达式、数学公式、特殊符号

在R语言的绘图函数中,如果文本参数是合法的R语言表达式,那么这个表达式就被用Tex类似的规则进行文本格式化。y <- function(x) (exp(-(x^2)/2))/sqrt(2*pi)plot(y, -5, 5, main = expression(f(x) == frac(1,sqrt(2*pi))*e^(-frac(x^2,2))), lwd = 3, col = "blue")lib

2020-08-11 11:05:47 55218

原创 初识Scrapy-实战(一)

接触爬虫也有一段时间了,起初都是使用request库爬取数据,并没有使用过什么爬虫框架。之前仅仅是好奇,这两天看了一下scrapy文档,也试着去爬了一些数据,发现还真是好用。以下以爬 易车网的销售指数为例。具体过程就不多说了;需要的字段:时间(年月);销售量;类别(包括小型、微型、中型、紧凑型、中大型、SUV、MPV、品牌、厂商);车型。分析网站分析URL http://index.bi

2016-04-22 21:21:26 1018

原创 CSS笔记(语法)

CSS 规则:由选择器和声明(一条或多条)组成:选择器通常是您需要改变样式的 HTML 元素;每条声明由一个属性和一个值组成。CSS声明总是以分号(;)结束,声明组以大括号({})括起来:p { color:red; text-align:center;}CSS 注释:CSS注释以 “/*” 开始, 以 “*/” 结束。选择器标签选择器:标签名 { 声明1

2016-04-21 08:59:06 497

转载 XML和XPath使用方法备忘(转载)

XML和XPath使用方法备忘(转载)如果把XML看作传统的关系数据库,那么XPath就是SQL。R语言中的XML包可用来解析处理XML或是HTML数据。在之前的文章中,我们了解到readHTMLTable函数,如果页面中的数据是一个规整的表格,用它是很方便的,但如果页面中是一些非结构化的数据,就要用到XML包中的其它函数了。其中最重要两个函数是xmlTreeParse()和getNodeSet()

2016-03-09 21:07:08 1509

转载 60 个实用的 R 语言技巧(转载)

本文转载自: 60 个实用的 R 语言技巧 | EthanDeng +http://ddswhu.com/2015/09/07/60-r-tips/转载请注明以上的原文地址。  本文内容来源于 Rstatistics.net 的 60 R Tips,这些都是作者们长期使用 R 积累下来的一些技巧或者建议。我觉得这个内容挺好的,并且在书上看不到这些内容,所以做了搬运和翻译,重点是加了例子,否则如果只看

2015-12-16 12:57:52 3486

转载 使用 dplyr 包进行数据操作与清洗 | EthanDeng(转载)

本文转载自:使用 dplyr 包进行数据操作与清洗 | EthanDeng+http://ddswhu.com/2015/02/05/dplyr-data-clean-manipulation/转载请注明以上原文地址。使用 dplyr 包进行数据操作与清洗  在我们数据分析的实际应用中,我们可能会花费大量的时间在数据清洗上,而如果使用 R 里面自带的一些函数(base 包的 transform 等)

2015-12-16 12:11:45 1378

转载 python 文件、目录操作(新增、移动、删除等)

python中对文件、文件夹的操作需要涉及到os模块和shutil模块。创建空文件 os.mknod("test.txt") 直接打开一个文件,如果文件不存在则创建文件open("test.txt",w)创建目录os.mkdir("file")创建多层新目录:def mkdirs(path): # 去除首位空格 path=path.strip() # 去除尾

2015-11-12 21:33:33 986

原创 CentOS 安装R语言

环境准备在编译R之前,需要通过yum安装以下几个程序:# 使用root用户su root# 安装gcc-gfortranyum install gcc-gfortran# 安装gcc gcc-c++yum install gcc gcc-c++# 安装readline-develyum install readline-devel# 安装libXt-develyum install lib

2015-11-09 13:09:08 1176

转载 centos mysql 安装及配置

转自百度经验工具/原料接入Internet的Centos计算机安装Mysql查看mysql-server包列表yum list mysql-server当只有一个时候就可直接安装,过程中选择Y继续安装yum install mysql-server最后安装成功设置Mysql的服务先启动Mysql服务service mysqld start进入mysqlmysql退出mysq

2015-11-08 13:46:39 488

原创 R语言连接Mysql数据库的步骤及简单使用(学习笔记)

实验环境:win8.1-64操作系统,MySQL5.61、下载(mysql-connector-odbc-5.3.4-winx64.msi) 下载地址:http://dev.mysql.com/downloads/connector/odbc 2、安装mysql-connector-odbc-5.3.4-winx64.msi(安装按照默认就好了)3、配置datasourcewindow

2015-11-05 10:49:53 7071 3

原创 hadoop伪分布式安装

准备工作修改主机名修改主机名和IP的映射关系关闭防火墙配置jdk环境变量hadoop伪分布式安装1 解压hadoop文件2 修改配置文件第一个hadoop-envsh第二个core-sitexml第三个hdfs-sitexml第四个mapred-sitexml第五个yarn-sitexml3 把hadoop添加到环境变量格式化namenode是对namenode进行初始化

2015-11-04 14:59:37 665

原创 ggplot2学习笔记之分面

分面是一个强大的工具,可以快速分析出数据各子集模式的异同。ggplot2 提供了两种分面类型。1.网格分面(facet_grid)  网格分面在2 维网格中展示图形。输入数据时,你需要考虑哪些变量作为行,哪些变量作为列,规则如下:不进行分面:即不使用函数facet_grid()或者使用facet_null(),此时得到的是单独画板;ggplot(mtcars, aes(mpg, wt)) + g

2015-10-29 14:32:59 1867

原创 ggplot2学习笔记之手动离散型标度

使用以下手动型标度可以定制新的标度:scale_colour_manual(..., values)、scale_fill_manual(..., values)、scale_size_manual(..., values)、scale_shape_manual(...,values)、scale_linetype_manual(..., values)等。使用这些标度,可以对图形的...

2015-10-24 22:09:18 4343

原创 ggplot2学习笔记之颜色标度

除了位置标度之外,最常用的图形属性就是颜色了。对于连续型变量有三种基于渐变的方法,对于离散型有两种方法。rgb 编码的色彩空间使用了红、绿、蓝三种光的强度来表示一种颜色,这种色彩空间存在个问题:视觉感知上不均匀。这里使用的是hcl 色彩空间的现代方案,它分别由色相(hue)、彩度(chroma)、明度(luminance)三部分构成。 以下标度对边界色(co...

2015-10-24 21:42:14 54037

原创 jiebaR中文分词快速入门

参考这篇于jiebaR中文分词帮助文档,做个笔记方便学习。1. 分词jiebaR提供了四种分词模式,可以通过函数worker()来初始化分词引擎,使用函数segment()进行分词。具体使用?worker查看帮助====================================简单用法举例说明====================================text <- '你要明白,

2015-10-19 15:18:35 10977 3

原创 ssh无密码登陆

笔记1、修改主机(非必要)为了后面方便输入,修改主机名,修改“/etc/sysconfig/network”文件,使用root用户,加入以下代码HOSTNAME=mHOSTNAME=s(另一台)修改/etc/hosts文件,增加如下地址映射,然后保存:2、配置ssh无密码登陆切换回hadoop用户。以下注意顺序:(1)分别在s、m机中,...

2015-10-18 22:01:59 567

原创 使用xshell连接vmware虚拟机安装的centos服务器

作为笔记使用:我虚拟机上centos系统使用的虚拟机网卡IP是192.168.128.1:Centos系统IP地址必须与虚拟网卡IP在同一网段,才能相互访问,可以设置为192.168.128.xxx。使用命令“vi /etc/sysconfig/network-scripts/ifcfg-eth0 ”,修改ONBOOT=yes(开机启动网卡),IPADDR=192...

2015-10-18 20:02:47 2924

原创 jiebaR中文分词,并做词云(R语言)

使用结巴中文分词(jiebaR)对之前爬取的新浪新闻 文本进行分词,统计词频之后,使用包wordcloud画词云。1、读入数据以下数据是在这里爬取的,这里只对社会新闻类进行测试,文件还是比较大的。分词完有一千多万个词,处理完后有将近30万。library(jiebaR)library(wordcloud)#读入数据分隔符是‘\n’,字符编码是‘UTF-8’,what=''表示以字符串类型读入f

2015-10-16 21:34:12 29535 8

原创 python获取新浪新闻

1、获取新浪新闻的标题以及要闻,保存到txt中(目录以及文件名可以自定义);2、新闻包括国内新闻、国际新闻、社会新闻(依据提示选择);3、运行环境,python2.7、win8.1(64位)、IDE(pycharm4.5)。声明:仅用作学习交流=========================以下是完整代码================================#coding:UTF-8im

2015-10-12 22:21:19 2778

原创 JDK环境变量配置(linux)

作为笔记使用下载jdk-7u71-linux-x64.gz压缩包1. 新建“/usr/java”文件夹(需要root用户)2. 把jdk文件复制到“/usr/java”文件夹下3. 使用命令“tar zxvf jdk-7u71-linux-x64.gz”解压到当前文件夹,解压后,得到“jdk1.7.0_71”文件夹配置环境变量:...

2015-10-11 09:51:36 717

原创 ggplot2学习笔记之位置标度

每一幅图形一定拥有两个位置标度,一个指定水平位置(x 标度),另一个是指定竖直标度(y 标度)。ggplot2 提供了连续性、离散型(针对因子型、字符型、逻辑向量)、以及日期型。 对所有的位置坐标来说,修改坐标轴范围是一项常见任务,使用辅助函数xlim()和ylim()可以减轻我们工作量。比如:xlim(10,20):从10 到20 的连续型标度;xlim(”a”, “b”, “c”):离散型

2015-10-09 21:54:22 3214 1

原创 ggplot2学习笔记之标度scale

标度(scale),是将数据空间(标度的定义域)映射到图形属性空间(标度的值域) 的一个函数。 每一种图形属性都有一个默认的标度,当我们每一次使用这个图形属性时都会自动 添加到图形中。 图形属性 离散型 连续型 颜色(colour)和填充色(fill) brewer、grey、hue、identity、manual gradient、gradient2、gradientn

2015-10-09 21:22:59 19574

原创 爬取淘宝MM图片

获取淘宝MM的所有用户主页的图片。以下是代码(包含注释),运行环境是win、python2.7.10:#coding:GBKimport requestsimport json,refrom lxml import etreeimport urllibimport osdef get_totalpage(): '''获取所有页面总数''' url = "http://mm

2015-09-27 15:16:21 1100

原创 ggplot2学习笔记之构建图层

传统的画图函数(如plot、qplot)就好比在一张画布上画图,画好之后不能修改,而且只能使用一个数据集;而图层的思想是在多张透明的画布上绘图,再把这些画布按顺序叠加在一起形成一个完整的图形。每一张画布都可以使用不同数据集,可以单独对每一个图层进行修改,需要到哪些图层就画哪些图层。1.创建绘图对象在用 ggpot()绘制时,需先创建绘图对象,也就是第一个图层,它包含两个参数(数据与图形属性映射)。

2015-09-25 18:37:27 5232

原创 ggplot2学习笔记之qplot

ggplot2 之从qplot 开始qplot 是包ggplot2 中的一个快速画图函数,如果你已经对R 的基础包画图函数plot基本掌握,那么qplot 就很容易掌握了。install.packages(‘ggplot2’) #安装ggplot2包library(ggplot2) #加载ggplot2包set.seed(1410) #设置随机种子dsmall <- diamonds[sampl

2015-09-19 21:19:38 2498

原创 python使用cookie登陆新浪微博用户信息

在上一篇博客python模拟新浪微博登陆之获取cookies中,已经实现了登陆新浪微博并把cookie保存了下来。接下来通过得到的cookie去访问新浪微博其他页面,并获取我们想要的信息。顺便一提,我的软件是python2.7.10(64位),IDE是pycharm,win8.1系统环境。所用到的包是base64、rsa、binascii、re、requests。这里,我首先通过访问自己新浪微博主页

2015-09-13 16:09:57 8171 1

原创 python模拟新浪微博登陆之获取cookies

python模拟新浪微博登陆之获取cookie首先感谢,敲代码的耗子http://www.cnblogs.com/mouse-coder/archive/2013/03/03/2941265.html?utm_source=tuicool,之前一直搞不懂登陆新浪微博的原理,看了他那篇文章之后,终于明白了基本原理。在这里主要是通过代码实现那篇文章的过程。获取网页使用的包是requests,正则匹配用的

2015-09-12 18:58:08 13013 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除