- 博客(121)
- 收藏
- 关注
原创 python机器学习:集成算法与随机森林(5)
跟上学时的考试一样,这次做错的题,是不是得额外注意,下次的时候就和别错了!以SVM分类器为例来演示AdaBoost的基本策略。
2022-07-20 15:41:35 453
原创 python机器学习:决策树(1)
树模型的可视化展示估计类概率输入数据为:花瓣长5厘米,宽1.5厘米的花。 相应的叶节点是深度为2的左节点,因此决策树应输出以下概率:决策树中的正则化DecisionTreeClassifier类还有一些其他参数类似地限制了决策树的形状:min_samples_split(节点在分割之前必须具有的最小样本数),min_samples_leaf(叶子节点必须具有的最小样本数),max_leaf_nodes(叶子节点的最大数量),max_features(在每个节点处评估用于拆分的最大特征数)。m
2022-07-10 16:28:17 600
原创 Python爬虫:第七章 动态加载数据处理 selenium模块(25)
第七章 动态加载数据处理 selenium模块example 医药局example 医药局from selenium import webdriverfrom lxml import etreefrom time import sleep#实例化一个浏览器对象(传入浏览器的驱动成)bro = webdriver.Chrome(executable_path='./chromedriver')#让浏览器发起一个指定url对应请求bro.get('http://scxk.nmpa.gov.cn
2021-10-15 16:10:14 176
原创 Python爬虫:第七章 动态加载数据处理 学习大纲(24)
第七章 动态加载数据处理selenium模块的基本使用问题:selenium模块和爬虫之间具有怎样的关联?- 便捷的获取网站中动态加载的数据- 便捷实现模拟登录什么是selenium模块?- 基于浏览器自动化的一个模块。selenium使用流程:- 环境安装:pip install selenium- 下载一个浏览器的驱动程序(谷歌浏览器)- 下载路径:http://chromedriver.storage.googleapis.com/index.html- 驱动程序和浏览器的映射
2021-10-14 10:13:44 149
原创 Python爬虫:第六章 高性能异步爬虫 学习大纲 (20)
第六章 高性能异步爬虫高性能异步爬虫高性能异步爬虫目的:在爬虫中使用异步实现高性能的数据爬取操作。异步爬虫的方式- 1.多线程,多进程(不建议): 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。 弊端:无法无限制的开启多线程或者多进程。- 2.线程池、进程池(适当的使用): 好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。 弊端:池中线程或进程的数量是有上限。- 3.单线程+异步协程(推荐):eve
2021-10-13 15:10:18 140
原创 Python爬虫:协程 & 异步编程(asyncio)
文章目录协程 & 异步编程(asyncio)1. 协程的实现1.1 greenlet1.2 yield1.3 asyncio1.4 async & awit1.5 小结2.协程的意义2.1 爬虫案例2.2 小结3.异步编程3.1 事件循环3.2 协程和异步编程3.2.1 基本应用3.2.2 await3.2.3 Task对象3.2.4 asyncio.Future对象3.2.5 futures.Future对象3.2.6 异步迭代器3.2.6 异步上下文管理器3.3 小结4. uvloop5
2021-08-23 19:07:39 1174
转载 Python爬虫:第五章 requests模块高级操作 综合案例-古诗文网模拟登录(19)
第五章 requests模块高级操作综合案例-古诗文网模拟登录综合案例-古诗文网模拟登录from CodeClass import YDMHttpimport requestsfrom lxml import etree#封装识别验证码图片的函数def getCodeText(imgPath,codeType): # 普通用户用户名 username = 'bobo328410948' # 普通用户密码 password = 'bobo328410948'
2021-08-19 15:27:14 228 1
原创 Python爬虫:第五章 requests模块高级操作 代理操作 (18)
第五章 requests模块高级操作代理操作代理操作#需求:import requestsurl = 'https://www.baidu.com/s?wd=ip'headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}page_text =
2021-08-19 15:25:24 408
转载 Python爬虫:第五章 requests模块高级操作 requests模块的cookie处理 (17)
第五章 requests模块高级操作requests模块的cookie处理requests模块的cookie处理#编码流程:#1.验证码的识别,获取验证码图片的文字数据#2.对post请求进行发送(处理请求参数)#3.对响应数据进行持久化存储from CodeClass import YDMHttpimport requestsfrom lxml import etree#封装识别验证码图片的函数def getCodeText(imgPath,codeType): # 普通用户
2021-08-19 15:21:56 119
原创 Python爬虫:第五章 requests模块高级操作 模拟用户登录(16)
第五章 requests模块高级操作example1 模拟用户登录example1 模拟用户登录#编码流程:#1.验证码的识别,获取验证码图片的文字数据#2.对post请求进行发送(处理请求参数)#3.对响应数据进行持久化存储from CodeClass import YDMHttpimport requestsfrom lxml import etree#封装识别验证码图片的函数def getCodeText(imgPath,codeType): # 普通用户用户名
2021-08-19 15:18:23 342
原创 Python爬虫:第五章 requests模块高级操作 学习大纲(15)
第五章 requests模块高级操作 学习大纲模拟登陆引入分析requests模块的cookie处理notes会话和Cookies无状态HTTPrequests模块的代理IP操作notes引入什么是代理代理的作用相关代理网站模拟登陆模拟登录: - 爬取基于某些用户的用户信息。需求:对人人网进行模拟登录。 - 点击登录按钮之后会发起一个post请求 - post请求中会携带登录之前录入的相关的登录信息(用户名,密码,验证 码......) - 验证码:每次请求都会变化需求:爬取当前用户的
2021-08-13 22:41:19 200
原创 Python爬虫:第四章 验证码识别 example 古诗文网验证码识别(14)
第四章 验证码识别古诗文网验证码识别import requestsfrom lxml import etreefrom CodeClass import YDMHttp#封装识别验证码图片的函数def getCodeText(imgPath,codeType): # 普通用户用户名 username = 'bobo328410948' # 普通用户密码 password = 'bobo328410948' # 软件ID,开发者分成必要参数。登录开发者
2021-08-13 18:15:33 218
原创 Python爬虫:第四章 验证码识别 学习大纲 (13)
第四章 验证码识别 学习大纲what is 验证码?验证码和爬虫之间的爱恨情仇?识别验证码的操作云打码的使用流程:学习案例附录-示例代码展示平台提供的类平台提供的调用程序what is 验证码?是一种区分用户是计算机还是人的公共全自动程序。验证码可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。验证码和爬虫之间的爱恨情仇?反爬机制:验证码.识别验证码图片中
2021-08-13 18:10:21 146
原创 Python爬虫:第三章 数据解析 xpath解析(12)
第三章 数据解析xpath 解析xpath 解析基础example1 爬取58二手房中的房源信息example2 解析下载图片数据example3 全国城市名称爬取xpath 解析xpath 解析基础#!/usr/bin/env python # -*- coding:utf-8 -*-from lxml import etreeif __name__ == "__main__": #实例化好了一个etree对象,且将被解析的源码加载到了该对象中 tree = etree.par
2021-08-13 17:59:42 306
转载 Python爬虫:第三章 数据解析 bs4解析(11)
第三章 数据解析example4 bs4解析将本地的html文档中的数据加载到该对象中爬取三国演义小说所有的章节标题和章节内容附件:本地的test.htmlexample4 bs4解析将本地的html文档中的数据加载到该对象中#!/usr/bin/env python # -*- coding:utf-8 -*-from bs4 import BeautifulSoupif __name__ == "__main__": #将本地的html文档中的数据加载到该对象中 fp =
2021-08-11 20:19:41 100
原创 Python爬虫:第三章 数据解析 正则解析(10)
第三章 数据解析爬取糗事百科的一张图片import requestsif __name__ == "__main__": #如何爬取图片数据 url = 'https://pic.qiushibaike.com/system/pictures/12460/124602731/medium/LEVD6YQL9VZ06DJ3.jpg' #content返回的是二进制形式的图片数据 # text(字符串) content(二进制)json() (对象) img_dat
2021-08-11 10:18:46 77
转载 Python爬虫:第三章 数据解析 学习大纲(9)
第三章 数据解析聚焦爬虫:爬取页面中指定的页面内容。数据解析分类数据解析原理概述正则解析bs4进行数据解析xpath解析聚焦爬虫:爬取页面中指定的页面内容。编码流程:指定url发起请求获取响应数据数据解析持久化存储数据解析分类正则bs4xpath(***)数据解析原理概述解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储1.进行指定标签的定位2.标签或者标签对应的属性中存储的数据值进行提取(解析)正则解析<div class="thumb"&g
2021-08-07 10:02:34 107
原创 Python爬虫:第二章 requests模块基础 example6 爬取国家药品监督管理总局数据(8)
example6: 爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据#----- 实战代码6:-----# 综合练习# 需求:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据http://125.35.6.84:81/xk/import requestsimport jsonfrom fake_useragent import UserAgentua = UserAgent(use_cache_server=False,verify_ssl=False
2021-08-06 17:16:43 1352
原创 Python爬虫:第二章 requests模块基础 example5 爬取肯德基餐厅查询(7)
第二章 requests模块基础example5_爬取肯德基餐厅查询爬取肯德基餐厅查询#----- 实战代码5:-----# 基于requests模块ajax的post请求# 需求:爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据import requestsif __name__ == "__main__": #指定ajax-post请求的url(通过抓包进行获取) url = 'http://www.kfc
2021-08-06 17:13:34 301
原创 Python爬虫:第二章 requests模块基础 example4 爬取豆瓣电影分类排行榜(6)
example4: 爬取豆瓣电影分类排行榜#----- 实战代码4:-----# 基于requests模块ajax的get请求# 需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据import requestsif __name__ == "__main__": #指定ajax-get请求的url(通过抓包进行获取) url = 'https://movie.douban.com/j/chart/top_list' #定制请求
2021-08-06 17:07:50 203
原创 Python爬虫:第二章 requests模块基础 example3 破解百度翻译(5)
example3: 破解百度翻译#----- 实战代码3:-----# 基于requests模块的post请求# 需求:破解百度翻译import requestsimport jsonword = input('enter a English word:')#自定义请求头信息:UA伪装,将包含了User-Agent的字典作用到请求方法的headers参数中即可headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X
2021-08-06 17:06:40 135
原创 Python爬虫:第二章 requests模块基础 example2 爬取搜狗指定词条对应的搜索结果页面(4)
example2: 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)补充:反爬机制User-Agent:请求载体的身份标识,使用浏览器发起的请求,请求载体的身份标识为浏览器,使用爬虫程序发起的请求,请求载体为爬虫程序。UA检测:相关的门户网站通过检测请求该网站的载体身份来辨别该请求是否为爬虫程序,如果是,则网站数据请求失败。因为正常用户对网站发起的请求的载体一定是基于某一款浏览器,如果网站检测到某一请求载体身份标识不是基于浏览器的,则让其请求失败。因此,UA检测是我们整个课程中遇到的第二种
2021-08-06 17:03:50 512
原创 Python爬虫:第二章 requests模块基础 example1 爬取搜狗首页的页面数据(3)
example1: 爬取搜狗首页的页面数据#----- 实战代码1:-----# - 需求: 爬取搜狗首页的页面数据#导包import requests#step_1:指定urlurl = 'https://www.sogou.com/'#step_2:发起请求:使用get方法发起get请求,该方法会返回一个响应对象。参数url表示请求对应的urlresponse = requests.get(url=url)#step_3:获取响应数据:通过调用响应对象的text属性,返回响应对象中存储
2021-08-06 17:02:04 171 1
转载 Python爬虫:第二章 requests模块基础 学习大纲(2)
requests模块初步学习引入what is requests环境安装使用流程/编码流程Examplesexample1: 爬取搜狗首页的页面数据example2: 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)example3: 破解百度翻译example4: 爬取豆瓣电影分类排行榜example5: 爬取肯德基餐厅查询中指定地点的餐厅数据example6: 爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据引入在python实现的网络爬虫中,用于网络请求发送的模块有两种,
2021-08-01 17:46:50 246 1
原创 Python爬虫:第一章 爬虫基础简介(1)(零基础自学)
爬虫基础简介What is Web Crawler?爬虫合法性探究爬虫究竟是合法还是违法的?爬虫所带来风险主要体现在以下2个方面:那么作为爬虫开发者,如何在使用爬虫时避免进局子的厄运呢?哪些语言可以实现爬虫爬虫的分类反爬机制反反爬策略robots协议http&https协议what is http协议 ?HTTP工作原理常见的请求头信息常见的响应头信息https协议https加密算法写在前面:学习Python爬虫一直都in the ToDoList,前面因为种种原因搁置,也有好一段时间没有更新博客
2021-07-31 20:47:02 2652 14
原创 stata:应用stata学习计量经济学原理 practice 6 边际效用 Marginal effect
应用stata学习计量经济学原理 Practice 6 边际效用边际效用参考资料课堂代码Practice 6Practice 6 边际效用边际效用参考资料Stata:边际效应分析\交乘项的系数含义和图示如何用 Stata 做调节中介效应检验?笔记︱横截面回归模型中调节效应+中介效应(横截面回归模型两大方向)Stata: 手动计算和图示边际效应rmargins.pdf课堂代码log using lecture6, replaceuse WAGE1,cleargen lnwage=lo
2021-04-10 21:25:25 1814
原创 stata:第十章 随机解释变量与矩估计
应用stata学习计量经济学原理 第十章 随机解释变量与矩估计本章代码第十章 随机解释变量与矩估计本章代码* setupversion 11.1capture log closeset more off************* POE4 Chapter 10.2.4: A Wage Equation* open loglog using chap10_wage, replace text* open data and examineuse mroz, cleardescribe
2021-04-07 14:24:22 727
原创 stata:第九章 时间序列数据回归:平稳变量
应用stata学习计量经济学原理 第九章 时间序列数据回归:平稳变量本章代码第九章 时间序列数据回归:平稳变量本章代码* setupversion 11.1capture log closeset more off* datesclearset obs 100generate date = tq(1961q1) + _n-1list date in 1/5format %tq datelist date in 1/5tsset datesave new.dta, replac
2021-04-07 14:23:52 3541
原创 stata:应用stata学习计量经济学原理 practice 5 多元线性回归推断
应用stata学习计量经济学原理 Practice 5 多元线性回归推断Practice 5 多元线性回归推断clear all cd "F:\stata与计量经济学\week 5 计量实验"dir* Q1use food.dta, replace* (1)reg food_exp income* (2)scalar tc90 = invttail(38,.05)scalar ub2 = _b[income] + tc90*_se[income]scalar lb2 =
2021-04-01 15:06:40 603
原创 stata:第八章 异方差
应用stata学习计量经济学原理 第八章 异方差本章代码第八章 异方差本章代码* setupversion 11.1capture log closeset more off* open loglog using chap08, replace text* --------------------------------------------* food expenditure example* OLS, OLS with White's std errors, GLS* --
2021-03-31 14:21:28 1176
原创 stata:第七章 使用指示变量
应用stata学习计量经济学原理 第七章 使用指示变量本章代码第七章 使用指示变量本章代码* setupversion 11.1capture log closeset more off* Chapter 7.1 Indicator Variables in Real Estate Example* open loglog using chap07_utown, replace text* open datause utown, clear* summarize and ex
2021-03-31 14:15:05 1062
原创 stata:第六章 多元回归模型:更多推断
应用stata学习计量经济学原理 第六章 多元回归模型:更多推断本章代码第六章 多元回归模型:更多推断本章代码* setupversion 11.1capture log closeset more off* open loglog using chap06, replace textuse andy, clear* -------------------------------------------* The following block estimates Andy's
2021-03-31 14:13:27 721
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人