Hathaway321-CSDN博客

原创 8.1 淘宝实战selinum代码完整

案例三：爬取淘宝）1 mongodb打开方法之前讲过。+++2 如果用requests的方式需要准备一定量的ip，所以此次采用selinum方式3 注意此次使用pyquery解析，和前端挂钩。--------------------------------------------------------------------------------实战环节爬取淘宝网有关“鞋子

2018-02-02 22:04:26 3531

原创 8 使用自动化神器Selenium爬取动态网页（案例三：爬取淘宝）

Selenium 是一个用于浏览器自动化测试的框架，可以用来爬取任何网页上看到的数据。selinim,京东淘宝反爬严重http://http://npm.taobao.org/mirrors/chromedriver/2.33/环境变量设置：我的电脑-右键属性-高级设置-环境变量--注意环境变量添加好后，需要重启pycharm，不然报错。

2018-02-02 22:00:35 1670

原创 9.5 Scrapy项目管道爬取58实战代码

spider文件：yield函数，这个函数没有结束，还可以继续返回，这里千万不能return，return就结束了1条数据。这才yield出去到管道，才管道开始了。yield item是yield到管道，yield request是yield到调度器。管道文件pipline.py文件天生有一个管道，但是这个管道里面什么都没有。之前讲过管道有4个函数。首先打开一个文件，pr

2018-02-02 21:58:13 691

原创 9.3 scrapy选择器的用法，css，xpath，正则。pyquery

scrapy至少有三种选择器，很大很多。理论上学会两种就够用了。项目组都用一个选择器最好了。一定要学会正则表达式。第一种介绍CSS选择器标签成对出现。div，p不管div和p有什么关系，都搜索出来div p 选择div下的所有p元素可以是父子关系也可以是爷孙关系等。div>p 这个只能是父子关系。还有一个函数 extract_first（

2018-02-02 21:57:40 2041

翻译 9.4 Scrapy的项目管道

这些组件最重要的思路就是拦截，即过滤item管道：作用一：入库校验：一是可以在管道，但主要是在item定义字段校验管道是什么Item管道(Item Pipeline)：主要负责处理有蜘蛛从网页中抽取的Item，主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后，将被发送到Item管道，并经过几个特定的次序处理数据。每个Item管道的组件都是有一个简单的方法组成的Pyth

2018-02-02 21:54:36 480

翻译 9.2 scrapy安装及基本使用

https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载即可。安装完方法2 后需要回到方法1继续安装，不是说方法2完成后，scrapy就安装好了。报错情况下安装下面的twisted而不是上面lxmlScrapy爬虫的使用一个基本的爬虫只需要两部分组成：Spider（爬虫）、Pipeline（管道）。管道是什么？每个项目管道组

2018-02-02 21:47:53 433

翻译 9.1 爬虫工程师及Scrapy框架初窥

蜘蛛的作用是进行各种数据匹配

2018-02-02 21:47:05 284

翻译 9.5 58同城scrapy爬取代码示例及存入Mongodb中

案例：爬取58同城爬取58同城步骤如下： - 在命令行输入 scrapy startproject city58，使用cd city58进入项目目录，使用scrapy genspider city58_test 58.com生成爬虫访问58同城网站，打开开发者工具，查看elements查找含有目标信息的元素，提取目标网页的url，填入新建的Scrapy项目中Spider文件下的sta

2018-02-02 21:37:13 796

翻译 9.6 笔记：scrapy爬取的数据存入MySQL，MongoDB

使用python:2.7.12一、MongoDB 一个小例子1 2 1.spider：dmoz_item.pyfrom dmoz.items import DmozItemclass DmozItemSpider(scrapy.Spider): name = "dmoz_item" #allowed_domains = ["dmoz.org"

2018-02-02 21:28:31 545

翻译 6 浏览器抓包及headers设置（案例一：抓取知乎） jason格式

翻页后url不变今日头条url也没有变化翻页左侧多了chorm中josonview插件所以加入不一样的请求头：headershttp://www.zhihu.com/api/v4/people/112 根据经验把api删掉即可打开这个链接第一个参数固定是url不用指定，后面的参数需要指明。headers字典。下面是翻页

2018-02-01 17:11:48 2358

翻译 5 pandas报存数据

with open 方法for 循环写入点write一译中文官方文档：http://python.usyiyi.cn/爬取《小王子》豆瓣短评的数据，并把数据保存为本地的excel表格import requestsfrom lxml import etreeurl = 'https:

2018-02-01 17:09:23 299

翻译 4 使用xpath解析豆瓣短评

建议用xpath不用beatifulsoup第二种手写xpath完整代码import requestsfrom lxml import etreeurl ='https://movie.douban.com/subject/6874741/comments?status=P'r = re

2018-02-01 17:06:57 648

翻译 3 使用requests爬取豆瓣点评及爬取网页通用框架完整代码

三个箭头代表在python环境下pip list首先分析是否是javascript加载另一种方法是查看网站源代码timeout=20 是超时等待时间我们所做的就是把url放进去红圈部分。爬取网页通

2018-02-01 17:02:15 600

翻译 7.1 python拉勾网实战并保存到mongodb

拉钩网实战爬取拉勾网有关“爬虫”的职位信息，并把爬取的数据存储在MongoDB数据库中首先前往拉勾网“爬虫”职位相关页面确定网页的加载方式是JavaScript加载通过谷歌浏览器开发者工具分析和寻找网页的真实请求，确定真实数据在position.Ajax开头的链接里，请求方式是POST使用requests的post方法获取数据，发现并没有返回想要的数据，说明需要加上headers加

2018-02-01 16:58:18 1232

翻译 7 数据库入库及拉钩网站爬取及mogodb及可视化安装

mongodb安装链接：https://zhuanlan.zhihu.com/p/29986675更改命令路径出现错误时可以关闭电脑删除lock文件即可。然后控制面板启动mongodb服务。mogodb在pycharm中的使用操作数据库的简单实验代码通用代码：#! /usr/bin/env python #表示用python写的# -*- cod

2018-02-01 16:55:38 305

原创 2.2 urllib和requests库书写代码以及完整豆瓣当页影评爬取代码

import urllib.request#导入urllib.request包和库f = urllib.request.urlopen('http://www.baidu.com')#打开网址，返回一个类文件对象f.read(500)#打印前500字符print(f.read(500).decode('utf-8'))#打印前500字符，并修改编码为utf-8import

2018-01-31 01:07:54 389

原创 2 初始爬虫

创建第一个案例，一般用第三方库和内置库-urllib库-requests库aikspath（通用的不可能像上面这么简单）用的是from 什么 import 什么 p标签，class属性beautifulsoup介绍：https://www.cnblogs.com/blackclody/p/6911559.html

2018-01-31 01:03:55 345

原创 1 python爬虫-什么是爬虫

网页组成：html 骨架，css这个页面的衣服是什么颜色的，js动态执行语言1 cookies 反爬会用到，告诉服务器前后页面其实是同一个人登陆通用的网络爬虫框架四种如何编写爬虫，架构三大步urllib 和requests 两个重要的库ps：造数网站可以轻易爬虫，但是貌似收费。

2018-01-30 23:12:40 956

原创 leetcode sql题目

1 # Write your MySQL query statement belowselect max(salary) as SecondHighestSalary from Employee where salary not in (select max(salary) from Employee )Write a SQL query to get the second hig

2018-01-11 17:20:00 390

原创 python3爬取新浪新闻文章内容代码

import pandas as pdimport requestsimport jsonfrom bs4 import BeautifulSoupfrom datetime import datetimeimport re#当页跳转urlurl = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&

2018-01-09 22:30:47 1673

原创文本过滤器

def text_filter(msg,censored_word = 'lame',changed_word = 'Awesome'): return msg.replace(censored_word,changed_word)def text_consored_creat(name,msg): desk_top_path = 'E:/Users/' full_pa

2018-01-08 11:09:20 1226

原创 heatmap学习笔记

#heatmap热度图，seaborn中常用的图，也是我最喜欢画的一种图#重要点思维：拿到一批数据一般会求特征之间的相关系数，可以用padas直接求出来相关系数，放到heatmap，可以很清楚的看到两个特征的相关程度，这是一个固定的数据思维#用途：比如拿到一批离散数据，想看一下在哪个点值比较大，在哪个点值比较低，你想把这样一个值的变化，用颜色来区分出来，这是我们要做的一个变化i

2017-12-23 19:59:20 4822

原创分类属性设置-可视化

分类属性绘制

2017-12-23 18:37:46 595

原创单变量分析绘制-学习笔记

import numpy as npimport pandas as pdfrom scipy import stats,integrate #stats统计简写，integrate积分import matplotlib.pyplot as pltimport seaborn as snssns.set_color_codes()np.random.seed(sum(map(ord,

2017-12-23 13:51:41 1573

转载可视化图代码汇总

从网络上下载真实数据CSV文件，本数据集汇总了从1970年到2011年之间美国大学各专业中女生数占总学生数的百分比例数值，如下图所示：1970-2011各专业女生百分比例利用Pandas库导入CSV文件，并快速绘制生物学专业女生比例随着年份变化的曲线图（plot方法），示例代码：import pandas as pdimport matplotlib.pyplot a

2017-12-21 16:30:21 3218

转载转载]利用Python进行数据分析——绘图和可视化 xticks-学习笔记

http://blog.csdn.net/ssw_1990/article/details/23739953Python有许多可视化工具，但是我主要讲解matplotlib（http://matplotlib.sourceforge.net）。此外，还可以利用诸如d3.js（http://d3js.org/）之类的工具为Web应用构建交互式图像。matplotlib是一个用于创建出

2017-12-21 11:18:55 24328

转载 Python 中的range,以及numpy包中的arange函数

Python 中的range,以及numpy包中的arange函数range()函数函数说明： range(start, stop[, step]) -> range object，根据start与stop指定的范围以及step设定的步长，生成一个序列。参数含义：start:计数从start开始。默认是从0开始。例如range（5）等价于range（0，

2017-12-21 10:10:53 408

转载 github创建仓库-学习笔记

一、创建github repository(仓库)1-1 登录githubgithub的官方网址：https://github.com ，如果没有账号，赶紧注册一个。点击Sign in进入登录界面，输入账号和密码登入github。1-2 创建repository(仓库)为啥要叫repository(仓库)？我起初也纳闷，叫代码库不更简单明了么？但仔细一琢磨，仓库

2017-12-21 00:14:52 3040

转载 pycharm 快捷键

Ctrl + Space 基本的代码完成（类、方法、属性）Ctrl + Alt + Space 类名完成Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息（在方法中调用参数）Ctrl + Q 快速查看文档Shift + F1 外部文档Ctrl + 鼠标简介Ctrl + F1 显示错误描述或警告信息Alt + Insert 自动生成代码

2017-12-20 22:00:49 240

翻译 python可视化

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom datetime import datetime, timezone# fig = plt.figure(figsize=(3, 3)) #figsize 表示图的比例# ax1 = fig.add_subplot(2,1,1)# ax2

2017-12-20 21:53:43 405

原创 1 描述统计入门

你好

2017-09-22 09:36:27 279

Hathaway的博客