自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 使用Python将文本按标点整句切分

利用分词工具包例如jieba可以轻易的将句子切分为不同的单词,但是当你有切分整句的需求时,该怎么解决呢?将段落按句号切分整句1.jieba分词可以切分单词进行中文自然语言处理时,分词是一个常见的操作,例如:import jieba.posseg as psegtxt = "【#奔驰女车主不接受4S店道歉# 双方现场交涉言语激烈】4月13日,西安维权奔驰女车主和4S店方见面,双方并...

2019-08-06 17:44:15 15126 2

原创 Scrapy基础入门(一)

俏咪咪的给自己放了个小长假之后,我白汉三又回来啦。这次要开始慢慢系统学习scrapy了,这个框架真的很厉害,我只是写了个很小的例子,就只花了十行代码就完成了我之前的一篇文章的工作量,而且速度超快,个人认为非常值得学习,它上手简单并且通俗易懂欢迎关注公众号:老白和他的爬虫1.创建一个爬虫在Anaconda+pycharm配置和Scrapy ——环境搭配与一个简单的例子这两篇文章里已经讲述了...

2019-05-05 15:04:36 929

原创 Scrapy ——环境搭配与一个简单的例子

在我刚接触爬虫的时候就已经听过Scrapy大名了,据说是一个很厉害的爬虫框架,不过那个时候沉迷于Java爬虫。现在终于要来揭开它神秘的面纱了,来一起学习一下吧欢迎关注公众号:老白和他的爬虫1.环境搭配使用Scrapy的话,我建议使用Anaconda+pycharm的环境配置,首先Anaconda为我们继承好了很多的第三方库非常方便实用,pycharm是一个非常好用的python IDE,...

2019-04-18 08:53:42 228

原创 Anaconda+pycharm配置

如果你没使用anaconda的话,你肯定经常需要去pip某个包,像我们接下来可能学习的爬虫框架scrapy,科学计算Numpy等,可以一个一个pip安装,但是有点麻烦,因此我强烈推荐各位装上Anaconda,这是一个基于Python的数据处理和科学计算平台,它已经内置了很多非常有用的第三方库,安装上Anaconda,就相当于把数十个第三方模块自动安装好了,非常好用,Anaconda安装自带Spy...

2019-04-16 08:31:23 259

原创 微博任意关键词爬虫——使用selenium模拟浏览器

使用selenium,我们很快就可以做到这一点——“在浏览器上能看到什么,我们就能采集到什么数据”,selenium可以用来模拟浏览器的行为,让代码自动操控你的浏览器,抓取数据欢迎关注公众号:老白和他的爬虫1.初识selenium简单通过一些基础操作来熟悉一下selenium,在此之前你需要下载一个谷歌驱动,我帮你下载好了,公众号回复“20190403”获取驱动及今日份代码。打开浏览器...

2019-04-03 15:29:12 3950 8

原创 学习如何存储你爬取的数据(2)

之前我写过 学习如何存储你爬取的数据 这一篇文章,学习如何使用sqlite3来读取数据库,用来操作.db文件,这种操作对比今天要学习的存取方式,略显复杂。在我们日常简单的数据爬取工作中,可能只需要把它存在excel文件里面即可,今天就来了解下如何把你爬取的数据存储在excel文件中欢迎关注公众号:老白和他的爬虫今天我就话不多说,直接跟着代码来学习吧!我帮你封装好了,你可以选择在你需要存储数...

2019-04-02 22:35:32 445

原创 学习如何存储你爬取的数据

今天来学习下另一个库sqlite3,它可以用来操作数据库,可以将我们爬取后的数据存储起来。这是很重要的一步,即使你会爬取数据,你也要用简洁明了的方式把它存储起来,供我们自然语言处理以及一些其他的数据分析操作欢迎关注公众号:老白和他的爬虫1.安装Datum-Lite在操作数据库的过程中,我们需要一个可视化的软件来展示,之前使用Windows系统时,我使用的是SQLite来显示的,非常方便,...

2019-03-26 15:16:48 831

原创 基础学习——BeautifulSoup篇(2)

这一篇文章接在上一篇 基础学习——BeautifulSoup篇(1) 之后,今天来继续学习BeautifulSoup4.遍历文档树4.7父节点和兄弟节点

2019-03-20 10:20:59 189

原创 使用python画k均值分类图

欢迎关注公众号:老白和他的爬虫昨天帮小余同学用python画了下k均值分类图,原理比较简单在这里分享一下。首先小余同学已经用spss做好了族群分类,分类结果如图所示一共有100条结果,这里只截取了部分,今天的程序就是要用python画出这个分类图1.明确需求我们需要把100条记录按类别显示在坐标系中,每一个族群需要使用不同的颜色显示,并且我们还需要计算出来每一个族群的中心点,并将这...

2019-03-18 13:21:37 1914

原创 基础学习——BeautifulSoup篇(1)

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。换句话说,它是我们解析网页的利器欢迎关注公众号:老白和他的爬虫BeautifulSoup3 目前已经停止开发,今天学习的是BeautifulSoup41.简单入手我们以豆瓣网为例,编辑下面这段代码from bs4 import Be...

2019-03-18 13:20:13 317

原创 一个简单的爬虫——新闻爬虫

公众号的第一篇文章,就先来介绍一下我做的最多的也是最简单的新闻爬虫吧。这个爬虫本身是用java写的,搭载在我之前项目的服务器上,今天用python实现一下。这个爬虫我也给别人讲过很多次,在双创之星的舞台上讲过,在新生导航课上讲过(两次),在课堂上讲过。其实现在回头看一下这个爬虫真的很low很简单,但好歹也是我花了很久学习的,今天就系统的用python来实现一下吧。欢迎公众号关注:老白和他的爬...

2019-03-18 13:17:59 6701 6

原创 markdown语法参考

markdown语法参考欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设...

2019-03-18 13:15:40 180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除