北欧VI海盗-CSDN博客

原创抓取facebook的过程

一、租服务器购买阿里云开通3306端口（习惯）参考该网站安装图形界面参考1 ；参考2 （可选）二、配置python环境CentOS 7安装Python教程三、配置pycharm下载下载汉化包：①将下载文件名改为resources_cn.jar，放入lib文件夹下远程连接海外服务器...

2019-12-05 12:33:11 1824 1

原创抓取微信公众号文章

https://www.cnblogs.com/xiao-apple36/p/9447877.html

2019-08-28 12:49:12 165

原创服务器数据库安装及配置指南

下载安装mysql 点击查看配置参数

2019-08-09 17:56:25 254

原创 python分词工具使用

官网：http://hanlp.com安装pip install pyhanlp若报错“缺少VC++组件”，则需要在 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 网站找到JPype1-0.6.2-cp36-cp36m-win_amd64.whl ，点击下载，当下载地址输入pip install JPype1-0.6.3-cp36-cp36m-...

2019-05-24 02:33:22 284

原创实用知识点

scrapy篇提取标签中所有文本div.find('a').get_text()参考【A】1. 爬虫\【微博】\【bs4】微博抓取

2019-04-18 11:24:58 120

原创【编程学习进度】

12月7日修改了当当、京东图书评论爬虫，实现了对指定日期评论的抓取（代码见“11月咨询报告”）

2018-12-07 21:32:03 205

原创【mac上安装scrapy环境】

1 安装scrapysudo conda install scrapy2 安装splash安装docker https://www.docker.com/products/docker-toolbox更换镜像地址 https://registry.docker-cn.com安装splash 输入指令docker pull scrapinghub/splash下载py...

2018-08-18 12:03:15 403

原创【亚马逊】亚马逊图书详情抓取_8.17

1 准备工作打开docker，运行splash docker run -p 8050:8050 scrapinghub/splash确定抓取目标新建数据库的表2 建立项目

2018-08-17 17:43:58 751

原创 D 实战 window 配置python及scrapy环境

（一）’twisted.enterprise’报错错误：ModuleNotFoundError: No module named 'twisted.enterprise'怀疑1：‘twisted’ 或 ‘twisted.enterprise’ 库没装（将twisted和scrapy卸载后，用conda重新安装，就不报错了）3. ...

2018-08-14 23:02:05 225

原创 D 4. 实战 - scrapy爬虫抓取亚马逊图书评论

scrapy爬虫抓取京东图书评论

2018-08-07 19:55:48 748

原创 D 2. 实战 - scrapy爬虫抓取当当图书评论_8.13

scrapy爬虫抓取当当图书评论

2018-08-07 19:55:07 1319 1

原创【D】前言：linux安装mysql/scrapy/splash环境

以后scrapy就在linux上运行咯

2018-08-06 12:20:18 575

原创 python3基础教程笔记

第一章快速上手：基础知识问题：unicode和utf-8和assci之间的关系

2018-08-02 20:15:24 528

1 项目需求抓取当当网上当当自营的湖南教育出版社书籍信息和评论，通过异步的方式存入mysql数据库。url 地址： http://search.dangdang.com/?key=%BA%FE%C4%CF%BD%CC%D3%FD%B3%F6%B0%E6%C9%E7&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;ddsale=1图书信息包括：名字价格出版日期 ...

2018-07-22 15:08:41 507

原创 C 4. 背诵 - scrapy爬虫编写流程

scrapy爬虫编写流程及小tips

2018-07-21 20:34:24 207

原创 C 3. 背诵 - scrapy爬虫常用页面解析测试方法

scrapy爬虫页面解析测试工具描述：编写页面解析代码时，需要预先执行代码，查找错误，有两种方法方法一： scrapy shell < URL > 命令# 运行完这条命令后，页面信息会打包放在 response 中scrapy shell http://books.com方法二：通过 requests 构造 responsefrom scrap...

2018-07-21 20:05:11 499 1

原创 C 2. 背诵 - scrapy数据封装、处理、存储常用命令（18年7月）

1 Item 封装数据Item 类可以对爬取的数据进行封装，便于后续的处理、存储封装步骤: ① 打开items.py，进行修改 ② 再spider中进入items类items 简单应用：对图书名、作者数据进行封装# items.py修改import scrapyfrom scrapy import Item,Fieldclass BookItem(Item):...

2018-07-18 21:42:48 277

原创 B 2. 编写scrapy时遇到的问题

7.17scrapy爬虫抓取的内容不是url指定的页面一页20本书，只能抓取第一本书的名字

2018-07-17 21:31:50 171

原创 Z 2. CSS选择器基本语法

scrapy css选择器语法

2018-07-17 20:30:30 467

原创 Z 1. XPath常用的语法

接下来，我们通过一些例子展示XPath的使用。首先创建一个用于演示的html文档，并用其构造一个HtmlResponse对象：&amp;gt;&amp;gt;&amp;gt; from scrapy.selector import Selector&amp;gt;&amp;gt;&amp;gt; from scrapy.http import HtmlResponse&am

2018-07-16 22:46:09 184

原创 A 3. 笔记 - 精通scrapy网络爬虫 - 刘硕（18年7月）

第1章初识scrapy1.1 创建第一个项目项目描述：抓取电商网站上的图书名称和价格流程：新建项目 —— 新建爬虫 —— 修改爬虫 ——运行爬虫并保存# 新建项目 scrapy startproject example # 新建爬虫 scrapy genspider book_spider# 修改爬虫# 解析网页for book in re...

2018-07-14 14:41:55 2229 2

原创 1. 资料汇总（18年）

1 正在使用1.1 爬虫《Python 3网络爬虫开发实战-崔庆才》纸质版《精通scrapy网络爬虫-刘硕》电子版2 积累

2018-07-14 14:14:43 243 1

原创 C 1. 背诵 - scrapy静态页面、js页面解析（18年7月）

css、xpath命令 https://blog.csdn.net/mouday/article/details/80455560

2018-07-14 14:13:14 333

原创 A 2. 笔记 - scrapy创建项目与爬虫-嵩天（7.11--7.12）

学习自嵩天《Python网络爬虫与信息提取》地址：https://www.icourse163.org/learn/BIT-1001870001?tid=1002236011#/learn/content?type=detail&amp;amp;id=1002993619&amp;amp;cid=1003503434

2018-07-12 12:07:57 387

原创 B 1. 问题 - MySQL数据库和Front安装时的问题（7.8）

打开 front 出现 1251- Client does not support authentication protocol 的错误原因：密码机制改变参考：https://www.cnblogs.com/xiaojian1/p/mysql.htmlnet start mysql 启动无效的解决办法参考：https://blog.csdn.net/Java_W...

2018-07-09 16:23:24 1075

原创 A 1. 笔记 - python网络爬虫实战笔记 - 崔庆才（7.9--）

崔庆才《Python网络爬虫开发实战》读书笔记

2018-07-09 16:19:34 399

原创 python3爬虫_基础篇（7.8）

一、HTTP抓包工具 - Fiddler原理通过修改浏览器上的代理服务器地址，fiddler可以截获所有的请求模式分为：流模式，缓冲模式工具栏介绍：TextWizard，URL的编码和解码POST和GET的区别： https://www.cnblogs.com/logsharing/p/8448446.html官方插件下载二、火狐开发者工具 - Firebug...

2018-07-08 21:07:29 166

转载 NLP 会议、大牛

国内NLP的那些人那些会： https://blog.csdn.net/wusecaiyun/article/details/49689211nlp一些好的会议： https://blog.csdn.net/Eric_LH/article/details/77455640NLP（自然语言处理）界有哪些神级人物： https://www.zhihu.com/question/32318...

2018-06-12 09:31:19 629

原创以前的BUG

抓取数据后保存出现问题UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 11126: illegal multibyte sequence产生原因：文本中出现的一些特殊符号超出了gbk的编码范围http://blog.csdn.net/shijing_0214/article/details/5197173...

2018-04-24 10:00:10 139

转载抓取动态页面

Python爬虫入门实战七：使用Selenium–以抓取QQ空间好友说说为例 https://zhuanlan.zhihu.com/p/25006226selenium + PhantomJS使用时 PhantomJS报错解决 https://blog.csdn.net/u010358168/article/details/79749149...

2018-04-16 18:02:10 206

转载 word2vec聚类

评论抓取、去重、去标点符号、词性标注+分词、去停用词（linux上，txt存为默认，不用存utf-8；win上txt存utf-8）安装linux 使用VMware安装CentOS7详请 https://blog.csdn.net/hui_2016/article/details/68927487安装vmware tool 工具 VMWare里CentOS7与win10共享文件 ht...

2018-04-10 15:13:02 1271

原创读写csv时，mac不出错，但win总乱码

出现问题： UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xab in position 11126: illegal multibyte sequence解决办法： 1.读取时加encoding='utf-8'，如下：open(r'C:\Z2programe\当当文学图书语料库\data\ID汇总.csv',enco...

2018-03-29 15:51:15 303

转载 gensim库的安装

pip install gensim参考：https://blog.csdn.net/churximi/article/details/51364518

2018-03-29 15:43:47 2592

原创 jieba库的安装

jieba库安装过程及出现的问题

2018-03-27 17:17:48 9950

空空如也

空空如也