老白和他的爬虫-CSDN博客

原创使用Python将文本按标点整句切分

利用分词工具包例如jieba可以轻易的将句子切分为不同的单词，但是当你有切分整句的需求时，该怎么解决呢？将段落按句号切分整句1.jieba分词可以切分单词进行中文自然语言处理时，分词是一个常见的操作，例如：import jieba.posseg as psegtxt = "【#奔驰女车主不接受4S店道歉# 双方现场交涉言语激烈】4月13日，西安维权奔驰女车主和4S店方见面，双方并...

2019-08-06 17:44:15 15126 2

原创 Scrapy基础入门（一）

俏咪咪的给自己放了个小长假之后，我白汉三又回来啦。这次要开始慢慢系统学习scrapy了，这个框架真的很厉害，我只是写了个很小的例子，就只花了十行代码就完成了我之前的一篇文章的工作量，而且速度超快，个人认为非常值得学习，它上手简单并且通俗易懂欢迎关注公众号：老白和他的爬虫1.创建一个爬虫在Anaconda+pycharm配置和Scrapy ——环境搭配与一个简单的例子这两篇文章里已经讲述了...

2019-05-05 15:04:36 929

原创 Scrapy ——环境搭配与一个简单的例子

在我刚接触爬虫的时候就已经听过Scrapy大名了，据说是一个很厉害的爬虫框架，不过那个时候沉迷于Java爬虫。现在终于要来揭开它神秘的面纱了，来一起学习一下吧欢迎关注公众号：老白和他的爬虫1.环境搭配使用Scrapy的话，我建议使用Anaconda+pycharm的环境配置，首先Anaconda为我们继承好了很多的第三方库非常方便实用，pycharm是一个非常好用的python IDE，...

2019-04-18 08:53:42 228

如果你没使用anaconda的话，你肯定经常需要去pip某个包，像我们接下来可能学习的爬虫框架scrapy，科学计算Numpy等，可以一个一个pip安装，但是有点麻烦，因此我强烈推荐各位装上Anaconda，这是一个基于Python的数据处理和科学计算平台，它已经内置了很多非常有用的第三方库，安装上Anaconda，就相当于把数十个第三方模块自动安装好了，非常好用，Anaconda安装自带Spy...

2019-04-16 08:31:23 259

原创微博任意关键词爬虫——使用selenium模拟浏览器

使用selenium，我们很快就可以做到这一点——“在浏览器上能看到什么，我们就能采集到什么数据”，selenium可以用来模拟浏览器的行为，让代码自动操控你的浏览器，抓取数据欢迎关注公众号：老白和他的爬虫1.初识selenium简单通过一些基础操作来熟悉一下selenium，在此之前你需要下载一个谷歌驱动，我帮你下载好了，公众号回复“20190403”获取驱动及今日份代码。打开浏览器...

2019-04-03 15:29:12 3950 8

原创学习如何存储你爬取的数据(2)

之前我写过学习如何存储你爬取的数据这一篇文章，学习如何使用sqlite3来读取数据库，用来操作.db文件，这种操作对比今天要学习的存取方式，略显复杂。在我们日常简单的数据爬取工作中，可能只需要把它存在excel文件里面即可，今天就来了解下如何把你爬取的数据存储在excel文件中欢迎关注公众号：老白和他的爬虫今天我就话不多说，直接跟着代码来学习吧！我帮你封装好了，你可以选择在你需要存储数...

2019-04-02 22:35:32 445

原创学习如何存储你爬取的数据

今天来学习下另一个库sqlite3，它可以用来操作数据库，可以将我们爬取后的数据存储起来。这是很重要的一步，即使你会爬取数据，你也要用简洁明了的方式把它存储起来，供我们自然语言处理以及一些其他的数据分析操作欢迎关注公众号：老白和他的爬虫1.安装Datum-Lite在操作数据库的过程中，我们需要一个可视化的软件来展示，之前使用Windows系统时，我使用的是SQLite来显示的，非常方便，...

2019-03-26 15:16:48 831

原创基础学习——BeautifulSoup篇(2)

这一篇文章接在上一篇基础学习——BeautifulSoup篇(1) 之后，今天来继续学习BeautifulSoup4.遍历文档树4.7父节点和兄弟节点

2019-03-20 10:20:59 189

原创使用python画k均值分类图

欢迎关注公众号：老白和他的爬虫昨天帮小余同学用python画了下k均值分类图，原理比较简单在这里分享一下。首先小余同学已经用spss做好了族群分类，分类结果如图所示一共有100条结果，这里只截取了部分，今天的程序就是要用python画出这个分类图1.明确需求我们需要把100条记录按类别显示在坐标系中，每一个族群需要使用不同的颜色显示，并且我们还需要计算出来每一个族群的中心点，并将这...

2019-03-18 13:21:37 1914

原创基础学习——BeautifulSoup篇(1)

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。换句话说，它是我们解析网页的利器欢迎关注公众号：老白和他的爬虫BeautifulSoup3 目前已经停止开发,今天学习的是BeautifulSoup41.简单入手我们以豆瓣网为例，编辑下面这段代码from bs4 import Be...

2019-03-18 13:20:13 317

原创一个简单的爬虫——新闻爬虫

公众号的第一篇文章，就先来介绍一下我做的最多的也是最简单的新闻爬虫吧。这个爬虫本身是用java写的，搭载在我之前项目的服务器上，今天用python实现一下。这个爬虫我也给别人讲过很多次，在双创之星的舞台上讲过，在新生导航课上讲过（两次），在课堂上讲过。其实现在回头看一下这个爬虫真的很low很简单，但好歹也是我花了很久学习的，今天就系统的用python来实现一下吧。欢迎公众号关注：老白和他的爬...

2019-03-18 13:17:59 6701 6

原创 markdown语法参考

markdown语法参考欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设...

2019-03-18 13:15:40 180

cjy1041403539的博客