自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 graphviz画决策树图中文乱码问题解决

1、修改graphviz配置文件C:\Program Files\Graphviz2.38\fonts <dir>C:\WINDOWS\Fonts</dir> 更改为 <dir>~/.fonts</dir>2、将决策树dot_data文件保存下来def save_dot_data(model): from s...

2018-07-02 12:53:24 9651 4

原创 Spark快速大数据分析之RDD基础

RDD基础Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义的对象。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(比如list 和set)。RDD支持两种类型的操作:转化操作和行动操

2017-08-04 17:09:36 1877

转载 Python3.x和Python2.x的区别以及不同版本共存方法

Python官方网站对于Python3.x的新增的内容有详细的描述,详细可以参考网站: What’s New In Python 3.0 — Python 3.6.1 documentation https://docs.python.org/3/whatsnew/3.0.html关于应该使用Python3.x还是Python2.x的问题,官方文档的介绍详见:、 Python2orPython

2017-05-12 11:28:47 922

转载 对自己的上网搜索记录进行爬虫是怎样一种体验

前言国外习惯用 Google 进行搜索,可以毫不夸张的说 Google 已经彻底地融入了日常生活。如今人们一有什么问题都习惯谷歌一下,敲敲键盘,你就能找到想要的答案。与此同时,你的 Google 搜索记录也反映了某段时间你的心态,好奇心,追求甚至是担忧。如果你已注册了 Google 帐户(通常是 Gmail ),根据你对隐私项的设置, Google 能够记录并提供你的搜索历史。下面我将告诉大家如何获

2017-05-11 15:19:20 832 1

原创 R语言文本挖掘tm包详解(附代码实现)

文本挖掘相关介绍1什么是文本挖掘2NLP3 分词4 OCR5 常用算法6 文本挖掘处理流程7 相应R包简介8 文本处理词干化stemming snowball包记号化Tokenization RWeka包中文分词 Rwordseg包9 tm包常用操作介绍tm包具体操作建立语料库导出语料库语料库检索和查看元数据

2017-05-06 23:00:34 26224 1

原创 超全整理!Python数据分析知识体系

自从1991年诞生以来,Python现在已经成为最受欢迎的动态编程语言之一,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用Python进行科学计算的势头越来越猛。 在数据分析和交互、探索性计算以及数据可视化方面,Python将不可避免地接近于其他开源和商业领域的特定编程语言/工具,如R、matlab、SAS、stata等。 下面是笔者在学习

2017-05-06 19:16:43 4745

原创 Python数据分析:pandas包知识结构树

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。笔者在学习《用Python进行数

2017-05-06 16:41:04 1923

原创 python数据分析之pandas包

pandas知识体系图Pandas是一个开源的Python数据分析库。pandas具有强大的数据分析功能,这不仅体现在其数据分析功能的完备性,更体现在其对于大数据运算的速度,它可以将几百MB数据以高效的向量化格式加

2017-05-06 15:47:52 3332 1

《用Python写网络爬虫》随书源代码

《用Python写网络爬虫》随书源代码

2017-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除