1 向着朝阳,我走过冬夜寒冬

尚未进行身份认证

暂无相关简介

等级
TA的排名 13w+

手把手教Mongo基础命令

目录一、MongoDB专业术语二、表的操作(一)创建数据库和删除数据库(二)插入文档insert1、插入单条2、插入多条文档(三)查询find1、 范围匹配2、复杂的条件---逻辑关系3、案例(四)删除remove(五)更新(重点)(六)导入导出1、导出json格式2、导出csv格式一、MongoDB专业术语二、表的操作在操作前需要安装好MongoDB,配置好环境,并保证服务开启,安装地址:https://blog.csdn.net/raojiaxing_/article/details/10634

2020-05-26 23:32:48

最简MongoDB的简介与安装

目录一、简介二、特点三、安装一、简介MongoDB属于NoSQL,指的是非关系型的数据库。NoSQL的图如下:NoSQL 用于超大规模数据的存储。(例如谷歌或 Facebook 每天为他们的用户收集万 亿比特的数据)。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。二、特点存储速度快 (不用去进行属性字段限制性检查)存储的内容既可以是结构化数据,又可以是非结构化数据。没有声明性的查询语言没有预定的模式可以拥有非结构化不可预知的数据具有高可用

2020-05-25 21:40:33

最帅爬虫_破解安居客base64加密

目录一、实现逻辑二、代码一、实现逻辑网址: https://bj.zu.anjuke.com/二、代码import re,ioimport time,base64from fontTools.ttLib import TTFontimport requestsfrom lxml import etreedef base64_decode(page_content): """ 对base64加密的页面内容进行解密 """ # 1、提取出字体文

2020-05-25 21:26:15

最帅爬虫_破解有道翻译CSS加密文件

目录一、爬取逻辑二、代码实现一、爬取逻辑基础路径:http://fanyi.youdao.com/基于XHR文件判断这是ajax请求方式二、代码实现import randomimport time,hashlibimport requestsdef get_md5(value): return hashlib.md5(bytes(value,encoding='utf-8')).hexdigest()def fanyi(kw): ''' 翻译单

2020-05-24 21:17:41

最帅爬虫_滑动验证码解决案例

目录一、豆瓣网爬取逻辑二、代码实现一、豆瓣网爬取逻辑创建webdriver.Chrome对象,并请求登录的url (driver对象提升为全局变量到main方法当中)页面加载等待(20)秒输入账号与(错误的密码),多次登录,使其弹出验证码判断验证码是否弹出5. 如果弹出就解决5.1 点住滑块,悬浮5.2 找到滑块距离5.3 点住滑块,移动滑块距离5.4 点住滑块,到指定位置后,松开滑块6. 判断登录后标签的状态是否改变,改变就代表登录成功二、代码实现import time

2020-05-23 14:55:05

最帅爬虫_打码平台

目录一、超级鹰平台二、案例一、超级鹰平台所谓的打码平台,,它的作用就是在我们爬虫过程中,解决验证码校验的一个工具。这个工具可以自动识别验证码图片,并返回验证码图片的内容http://www.chaojiying.com/1.注册2.查看API二、案例只需要通过传入所需要的参数,即可解析返回验证码图片内容import requestsimport base64#http://my.cnki.net/Register/CheckCode.aspxdef verify_code(i

2020-05-21 22:32:29

最帅爬虫_Selenium 手动打码

目录一、验证码问题1.1 验证码出现位置1.2 验证码分类二、selenium手动打码一、验证码问题1.1 验证码出现位置登录界面登录界面没有验证码(特别网站),只有输错了多次情况下才会出现,只要输入一次,又很少出现了。查询数据的时候,查询按钮之前要输入。当我们爬一个网站,爬到一般出现验证码-----以滑动验证码居多1.2 验证码分类图片验证码–普通验证码知网图片验证码:http://my.cnki.net/elibregister/CheckCode.aspx滑

2020-05-20 23:27:24

最帅爬虫_斗鱼 selenium 翻页

网址: https://www.douyu.com/g_LOL需求:获取所有在线直播的房间信息代码实现:import timefrom lxml import etreefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom seleni

2020-05-19 23:20:54

最帅爬虫_豆瓣读书(加密数据获取)

网址: http://book.douban.com/subject_search?search_text=python&cat=1001&start=%s0需求: 获取所有 python 书籍的信息代码实现:from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWait # 等待对象from selenium.webdriver.support import ex

2020-05-19 23:16:54

最帅爬虫_Selenium 数据获取

目录一、什么是Selenium二、什么是PhantomJS三、百度 (Selenium+Phantom 快速入门)一、什么是SeleniumSelenium 是一个 Web 的自动化测试工具,最初是为网站自动化测试而开发的,类型像 我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同的是 Selenium 可以直接运行 在浏览器上,它支持所有主流的浏览器(包括 PhantomJS 这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面 截屏,或者判

2020-05-19 23:10:48

最帅爬虫_Ajax数据获取

目录一,什么是Ajax二,Ajax请求的分析方法Ajax 请求的分析步骤可以总结为三步:1、分析请求2、分析响应3、解析响应内容三,案例(豆瓣电影网信息的爬取)一,什么是Ajax我们与网站服务器通信的唯一方式,就是发出 http 请求获取新页面。如果提交表单之 后,或从服务器获取信息之后,网站的页面不需要重新刷新,那么你访问的网站就在用 Ajax 技术。Ajax不是一门语言,而是一种异部刷新的技术。二,Ajax请求的分析方法浏览器的开发者模式是有过滤 Ajax 请求功能的。Ajax 过滤界面如

2020-05-18 23:46:54

最帅爬虫_反爬虫

目录爬虫与反爬虫之间的战争第一天第二天第三天第四天第五天一、反爬虫常见方法1. IP 限制2. 验证码3. 登录限制4. 数据伪装二、反反爬虫常见方法1. 代理设置2. 构建代理池3. 设置请求频率爬虫与反爬虫之间的战争第一天小莫想要某站上所有的电影,写了标准的爬虫(基于 httpClient 库),不断地遍历某站的 电影列表页面,根据 Html 分析电影名字存进自己的数据库。这 个 站 点 的 运 维 小 黎 发 现 某 个 时 间 段 请 求 量 陡 增, 分 析 日 志 发 现 都 是 IP(

2020-05-18 23:32:11

最帅爬虫_lxml 模块

目录一、lxml简介二、lxml初步使用1. 解析 HTML 字符串2. lxml 文件读取一、lxml简介lxml 是一个HTML/XML 的解析器,主要的功能是如何解析和提取 HTML/XML 数据。我们可以利用之前学习的 XPath 语法,来快速的定位特定元素以及节点信息。安装方法:pip install lxml二、lxml初步使用1. 解析 HTML 字符串from lxml import etreetext = """<div> <ul>

2020-05-16 22:49:06

最帅爬虫_Xpath语法

目录一、Xpath语言简介1. 什么是 XML2. XML 和 HTML 的区别3. XML 的节点关系3.1 父(Parent)3.2 子(Children)3.3 同胞(Sibling)3.4 先辈(Ancestor)3.5 后代(Descendant)二、Xpath用法1. 选取节点2. 谓语3. 选取未知节点4. 选取若干路径一、Xpath语言简介正则用的不好,处理 HTML 文档很累,有没有其他的方法?有!那就是 XPath,我们可以:(1)先将 HTML 文件转换成 XML 文档,(2

2020-05-16 22:39:28

最帅爬虫_必须学的正则模块

目录摘要:为什么学正则表达式一、 什么是正则表达式二、 python中的re模块三、 re 模块的使用步骤compile 函数Pattern 对象1.match 方法2.search 方法3.findall 方法4.finditer 方法5.split 方法6.sub 方法四、贪婪模式与非贪婪模式示例一 :示例二 :摘要:为什么学正则表达式实际上爬虫一共就四个主要步骤:1.明确目标 (要知道你准备在哪个范围或者网站去搜索)2.爬 (将所有的网站的内容全部爬下来)3.取 (去掉对我们没用处的数据)

2020-05-14 23:02:25

最帅爬虫_代理的设置

目录一,为什么用代理二,代理的流程三,设置代理一,为什么用代理在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网。站信息的强度和采集速度太大,给对方服务器带去了太多的压力。 如果你一直用同一个代理 ip 爬取这个网页,很有可能 ip 会被禁止访问网页,所以基本 上做爬虫的都躲不过去 ip 的问题。二,代理的流程形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了 请求给 web 服务器,web 服务器把响应传回给我们。如果设置了代理服务器,实际上就是

2020-05-13 23:02:25

最帅爬虫_入门

目录一,爬虫简介二,Requests 模块 get 请求(一)Requests 模块1、requests 库简介2、安装方式(二)网络请求1,最基本的 POST 请求使用方法:2,response 对象的属性案例1. 爬取百度产品网页2. 爬取新浪新闻网页3. 爬取百度贴吧4. 爬取百度页面三,Requests 模块 post 请求(一)网络请求1. 最基本的 POST 请求使用方法:案例5. 重写百度翻译一,爬虫简介一句话,干脆利落。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

2020-05-13 00:22:04

Anaconda安装与使用

下载流程:点击Anaconda官网下载包看自己电脑版本是64位还是,32位,去下载对应的版本X86_64 是64位系统包;X86 是32位系统安装流程:1、选中anaconda的安装用户Anaconda自带了完整的数据分析的python包,比较大,不要安装在c盘。是否自动添加环境变量安装完成测试:在命令行输入python如果没有anaconda还是正常python...

2020-05-08 09:49:24

孤单是对你最好的惩罚

你苦,你比卡扎菲还苦,你总是一副苦大仇深的模样,似乎全世界都亏欠了你,没有一件事顺心,没有一个人顺眼,社会太黑暗,人心太险恶,你认为人与人之间都是种利益关系,各取所需罢了,你不相信爱情,两个人在一起不过是因为寂寞。你对人总是怀有戒备心,所以虽然你在人群中,虽然你脸上挂着笑,虽然你说着无所谓,却依然无法掩饰你眼底的孤单;你忙,你比奥巴马还忙,你总是马不停蹄地在奔波,你总有很多应酬,你总有打不完的电...

2020-04-19 22:10:55

10分钟带你入门Bootstrap前端框架

Bootstrap是一款带有样式的前端框架,只需要安装其包,在html页面的头部引用即可!!!目录一. bootstrap包的下载二. bootstrap的引入三. 用法一. bootstrap包的下载点这里进入bootstrap的官方去下载包。二. bootstrap的引入在头部引入三个样式,一定要按照如下顺序!!!<!DOCTYPE html><html ...

2020-04-09 18:26:58

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。