北木x-CSDN博客

原创爬虫入门（八）——MongoDB

MongoDB是一个基于分布式文件存储的nosql数据库。在处理大数据的时候会比MySQL更有优势。爬虫的数据如果上了一个量级,可能用MongoDB会比MySQL更好

2020-08-01 21:35:33 755

import requestsimport osurl='http://pvp.qq.com/web201605/js/herolist.json'head={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}res=requests.get(url,headers=head)...

2020-07-10 16:55:45 639

原创爬虫入门（七）——Redis

随着互联网+大数据时代的来临，传统的关系型数据库已经不能满足中大型网站日益增长的访问量和数据量。这个时候就需要一种能够快速存取数据的组件来缓解数据库服务I/O的压力，来解决系统性能上的瓶颈。

2020-07-10 16:36:48 381

原创简易海龟绘图

python的turtle模块是进行绘图常用的模块，以简短的、简单的程序可以创造出许多复杂的视觉效果，今天我们先用一段简短的代码演示海龟绘图的简单命令python版本：3.7.4相关模块：turtle模块环境搭建：安装python并添加到环境变量，pip安装turtle模块（pip install turtle)代码如下：import turtle def draw_diamond(turt): for i in range(1,3): turt...

2020-07-06 22:05:06 898

原创爬虫入门（六）——Scrapy框架初探

1. Scrapy介绍1.1 什么是ScrapyScrapy是⼀个为了爬取⽹站数据，提取结构性数据⽽编写的应⽤框架，我们只需要实现少量的代码，就能够快速的抓取特点：Scrapy使⽤了Twisted异步⽹络框架，可以加快我们的下载速度(相同条件下用Scrapy爬取信息的速度要比直接爬取的速度快很多，有时几乎是瞬时的，具体例子在后续会给出）安装:pip install scrapy (因为Scrapy框架较大，直接安装速度慢且容易失败，因此可以采用换源安装，如：pip install scrapy

2020-07-03 18:42:41 154

原创三分钟了解js2py模块

1. js2py简介1.1 在python中的作用Python中执⾏JS代码,通常两个库:js2py,pyexecjs。js2py是纯python实现的库,⽤于在python中运⾏js代码,本质上是将js代码翻译成python代码1.2 安装pip install js2py2. js2py的使用2.1 快速入门在这里插入代码片import js2pya=js2py.eval_js('console.log("hello world")')func_js="""function ad

2020-06-30 12:06:42 2024

原创爬虫入门（五）——BeautifulSoup4

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间

2020-06-14 00:43:58 147

原创 Xpath爬取豆瓣top250电影

python爬取信息的方式有很多，今天就教大家如何使用xpath爬取豆瓣top250的电影名称、评分、链接、引言，并存储到csv中python版本：3.7.4相关模块：lxml模块；requests模块；以及python自带模块csv环境搭建：安装python并添加到环境变量，pip安装需要的相关模块代码如下：import requestsfrom lxml import etreeimport csv#豆瓣top250网址doubanUrl='https://movie.d

2020-06-07 10:18:20 2518

原创模拟登录之图片验证

一些网站在登录时需要手动进行图片验证，这其实并不是针对反爬而进行的处理，然而的确增加了爬虫爱好者的麻烦。本文以中国铁路12306为例，教你如何用python做图片验证！

2020-06-05 16:43:36 1336

原创爬虫入门（四） ——xpath与lxml模块

1. xpath介绍1.1 基本概念1.2 结点的关系2. 基本使⽤2.1 ⼯具安装2.2 基本用法2.3模块的使⽤1. xpath介绍1.1 基本概念XPath（XML Path Language）是⼀种XML的查询语⾔，他能在XML树状结构中寻找节点。XPath ⽤于在 XML ⽂档中通过元素和属性进⾏导航 xml是⼀种标记语法的⽂本格式，xpath可以⽅便的定位xml中的元素和其中的属性值。lxml是python中的⼀个包，这个包中包含了将html⽂本转成...

2020-06-01 00:17:59 325

原创爬虫入门（三）——正则表达式(用法+实操）

正则表达式的概念是使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。简单来说，正则表达式就是通过一定的匹配规则，从一个字符串中提取出我们想要的数据。虽然有时候会比较复杂，但无疑它是非常强的。

2020-05-18 00:29:03 1592

原创爬虫入门（二）——请求模块

目录1. urllib.request模块2. urllib.parse模块3. 请求方式4. requests模块1. urllib.request模块urllib.request模块是python的自带的模块，可能有些小伙伴习惯于使用python的第三方requests模块，的确，如果论书写简洁的话requests模块更具优势，但是urllib.request模...

2020-05-05 00:40:57 676

原创爬虫入门（一）——初识爬虫

一.爬虫介绍1.什么是爬虫？爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据（简单一句话就是代替人去模拟浏览器进行网页操作）。2.为什么需要爬虫？为其他程序提供数据源如搜索引擎(百度、Google等)、数据分析、大数据等等。爬虫能做很多事，能做商业分析，也能做生活助手。而公司，同样可以利用爬虫来实现巨大的商业价值。比如你所熟悉的搜索引擎——百度和谷歌，它们的核心技术...

2020-04-27 14:41:12 323 1

木木的博客