自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

codingforhaifeng的博客

Do what makes you great

  • 博客(36)
  • 收藏
  • 关注

原创 UC头条(大鱼)文章评论内容抓取

下面以某一篇文章为例,分析UC头条(大鱼)文章评论内容抓取:首先我们点击进入上面的这一篇文章,然后拉到评论内容区,通过抓包分析发现其评论接口为:https://m.uczzd.cn/iflow/api/v2/cmt/article/13191933289453545149/comments/byhot?uc_param_str=dnnivebichfrmintnwcpgieiwidsu...

2019-03-28 17:34:57 2302 1

原创 百度新闻评论内容抓取

通过抓包分析发现,百家号手机app端文章评论内容接口为:https://ext.baidu.com/api/comment/v1/comment/getlist?appid=101&sid=1008524_2-1010050_1-1007549_23033-1007550_23035&cuid=01B5EAF73E8A83BB842BE04E4FB6C656|23200201047...

2019-03-26 11:53:27 1943 4

原创 今日头条文章评论内容爬取

因为业务要求,需要爬取今日头条文章相关评论内容。经过分析,今日头条评论接口有很多个(主要包括PC端和app端)。经过分析发现app端较pc端更好爬取,主要是从大量爬取被封IP的概率考虑。下面主要以http://is-hl.snssdk.com/article/v4/tab_comments/这个链接进行分析,其他几个区别不大,可以迁移。一级评论内容URL:http://is-hl.sn...

2019-03-25 18:29:40 8765 5

原创 Python爬虫定时任务

方法一: time模块中的sleep()方法Python time sleep() 函数推迟调用线程的运行,可通过参数secs指秒数,表示进程挂起的时间。语法:time.sleep(t)实例:结果:方法二:datetime模块中的timedelta()方法实例:minutes可以换成hours\days结果:方法三:apscheduler模块中的Ba...

2019-01-07 16:33:16 1688

原创 Python基本语法之:字符串和字典介绍

字符串(Strings)Python语言真正出色的地方之一是字符串的操作。本节将介绍Python的一些内置字符串方法和格式化操作。1、字符串语法使用单引号或双引号定义Python中的字符串。它们在功能上是等价的。如果字符串里面有字符串,若字符串里面的字符串为单引号,则外面的字符串使用双引号,反之,则使用单引号。如何解决单引号里面有单引号的问题呢?通过反斜杠‘\’...

2018-12-01 14:26:44 1179

原创 numpy.random.rand()、numpy.random.randn()及numpy.random.randint()的区别

1、numpy.random.rand()    rand函数根据给定维度生成[0,1)之间的数据,包含0,不包含1   返回值为指定维度的array2、numpy.random.randn()    randn函数返回一个或一组样本,具有标准正态分布。   标准正态分布即均值为0,标准差为1的正态分布,又名高斯分布   返回指定维度的array 3...

2018-11-13 14:11:38 723

原创 Matplotlib数据可视化画图

1. 基础绘图2. 图表的基本元素图名、x轴标签、y轴标签、图例、x轴边界、y轴边界、x刻度、y刻度、x刻度标签、y刻度标签3. 图表样式linestyle、color、marker、style (linestyle、marker、color)、alpha、colormap、gridcolor参考:https://matplotlib.org/gallery/c...

2018-11-12 23:56:48 722

原创 Numpy基础:数组和矢量计算

参考链接https://www.jianshu.com/p/a380222a3292

2018-11-08 23:37:06 170

原创 Python数据分析之Pandas

Python中的pandas模块进行数据分析:1、数据结构简介:DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用pandas进行缺失值的处理7、利用pandas实现Excel的数据透视表功能8、多层索引的使用1. 数据结构简介       在p...

2018-11-05 21:06:33 569

原创 numpy中matrix*array、matrix*matrix和arrary*array的区别

1、matrix*array表示的是矩阵乘2、matrix*matrix表示的是矩阵乘3、arrary*array表示的是对应的元素相乘

2018-10-11 09:59:31 206

原创 机器学习——决策树

决策树——https://blog.csdn.net/jiaoyangwm/article/details/79525237

2018-09-27 20:55:00 133

原创 Python isalpha()方法 以及 itertools.product()方法

 isalpha()方法:Python isalpha() 方法检测字符串是否只由字母组成。isalpha()方法语法:str.isalpha()itertools.product()方法:https://www.cnblogs.com/anpengapple/p/5051013.html...

2018-09-25 16:14:28 265

原创 python切片,反转字符串

”左开右毕,从右向左读“或者可以这样:先切片再反转 

2018-09-04 15:29:00 1018

转载 python map()函数和lambda表达式

python map(fun,[arg]+)函数最少有两个参数,第一参数为一个函数名,第二个参数是对应的这个函数的参数(一般为一个或多个list)。>>>def fun(x):... return x+1...>>>list(map(fun,[1,2,3]))>>>[2,3,4] 多参数例子:>>&...

2018-09-03 18:16:47 349

转载 Python 集合set

可变集合set集合set是Python中一种基本数据类型,它分为可变集合(set)和不可变集合(frozenset)两种。类似于其他语言,集合是一个无序不重复元素集,包括创建集合set、向集合中添加元素、删除集合中的元素、求集合的交集、并集、差集等操作。下面就让我们一一来学习集合的这些知识吧。1、set创建集合set集合类需要的参数必须是迭代器类型的,如:序列、字典等,然后转换成无序不...

2018-08-29 19:50:26 189

转载 python enumerate用法总结

转自https://blog.csdn.net/churximi/article/details/51648388enumerate()说明enumerate()是python的内置函数 enumerate在字典上是枚举、列举的意思 对于一个可迭代的(iterable)/可遍历的对象(如列表、字符串),enumerate将其组成一个索引序列,利用它可以同时获得索引和值 enumera...

2018-08-29 11:16:06 177

转载 python之collections之counter

 转自https://www.cnblogs.com/baotouzhangce/p/6179911.html一、定义Counter(计数器)是对字典的补充,用于追踪值的出现次数。Counter是一个继承了字典的类(Counter(dict))二、相关方法继承了字典的类,有关字典的相关方法也一并继承过来。比如items()方法 def most...

2018-08-28 16:04:18 840

原创 初识机器学习——吴恩达《Machine Learning》学习笔记(二)

矩阵(matrices)和向量(vectors)矩阵(matrix)    定义:由数字组成的矩形阵列(Rectangular array of numbers)。矩阵其实是二维数组的另一种说法。    矩阵的维数(Dimension of matrix):矩阵的行数X矩阵的列数    矩阵的项(entries of matrix):如果A是个矩阵,Aij表示的是第i行第j列所对应的元素向量(ve...

2018-07-05 12:01:12 362

原创 初识机器学习——吴恩达《Machine Learning》学习笔记(一)

Machine Learning的定义       AI发展出来的一个领域,计算机开发的一项新功能        定义一:        在没有明确设置的情况下,使计算机具有学习能力的研究领域。                          ——Samuel(1959)        定义二:        一个适当的学习问题定义如下:计算机程序从经验E中学习解决某一任务T进行某一性能度量P,...

2018-07-01 23:53:51 3394

转载 [Network] 计算机网络基础知识总结

阅读目录1. 网络层次划分2. OSI七层网络模型3. IP地址4. 子网掩码及网络划分5. ARP/RARP协议6. 路由选择协议7. TCP/IP协议8. UDP协议 9. DNS协议10. NAT协议11. DHCP协议12. HTTP协议13. 一个举例  计算机网络学习的核心内容就是网络协议的学习。网络协议是为计算机网络中进行数据交换而建立的规则、标准或者说是约定的集合。因为不同用户的数...

2018-06-28 10:49:41 336

原创 python如何与MySQL数据库进行交互

python与MySQL数据库进行交互时,python2与python3的方式是不同的,下面分别对python2以及python3连接mysql数据库进行分析。1、python2与MySQL交互python2与mysql进行交互,首先需要安装MySQLdb这个工具包,也就是需要安装MySQL-python安装MySQL-python:pip install MySQL-python官网链接:点击打...

2018-06-21 18:15:05 2601

原创 Windows下MySQL-5.7版本下载与安装教程

学数据库的人都知道,MySQL数据库是比较基本的掌握要求,不仅开源而且社区版本是免费使用的。由于工作上或者经常更换系统的原因,有时候会需要安装MySQL数据库。为了不至于每次安装都要查阅资料,现把安装过程以及出现的问题总结出来:1.官网下载最新版本MySQL,这里下载的是解压版的。MySQL官网链接依次选择DOWNLOADS——Community——MySQL Community Server2....

2018-06-13 15:34:31 31580 5

原创 python3爬虫常用的方式分析

1.requests模块requests模块中的get()方法是比较常用的方式之一。首先,需要安装requests模块:pip install requests其次,请看下图所示import requestsdef test(): url = 'https://www.toutiao.com/' headers = { 'User-Agent': 'Mozilla/...

2018-06-12 15:24:09 402

原创 python中HTML文档转义与反转义方法介绍

在网页抓取的过程中,往往会遇到一些转义字符,特别是文章内容里面。这种情况很让人反感,那么,应该如何处理这些转移字符,也就是反转义回去呢?unescape()方法python3中使用html包里面的unescape()方法可以解决!源文档反转义回去后当然,与unescape()方法相对应的方法是escape()方法这个方法同理,这里就不在赘述了!...

2018-06-07 21:02:22 6566 1

原创 Git-2.17版本Windows环境系统下安装教程

一、下载地址附上链接Git下载二、Windows环境安装Git1,点next2,选择自己想要的安装路径,一般选默认,然后点击next3,勾选第一个,创建桌面快捷方式。然后点击next4,点击next5,使用vim作为git默认编辑器,然后点击next6,选在Windows命令符下可以使用git,然后点击next7,点击next8,HTTPS传输,点击next9,默认,点击next10,点击next...

2018-06-06 20:52:23 5960 1

原创 python爬虫之URLError、HTTPError以及requests中的SSLError

python爬虫时,我们在使用urlopen()或者opener.open()发出请求时,如果这个请求无法得到处理,那么,就会产生错误。常见的错误有URLError、HTTPError以及requests中的SSLError,下面我们来一一结束。URLError    产生原因:        1,没有网络连接        2,服务器连接失败        3,找不到指定的服务器    我们可以...

2018-05-30 12:33:10 2309

原创 python爬虫之如何随机更换User-Agent

python爬虫爬取网站内容时,如果什么也没带,即不带报头headers,往往会被网站管理维护人员认定为机器爬虫。因为,此时python默认的user-agent如Python-urllib/2.1一样。因此,网站管理人员会根据请求的user-agent判定你是不是机器爬虫。所以,此时往往就需要伪装user-agent,模拟成真实的浏览器去取出内容。下面是一些比较常用的浏览器的user-agent...

2018-05-30 11:10:00 13385 1

原创 python元素如何去重,去重后如何保持原来元素的顺序不变

python列表元素去重后如何保持原来的顺序不变    原列表:        list1 = [1,2,1,4,9,3,5,2,6,7,3,1,6,8,4,0]    去重,使用集合set来去重:        list2 = list(set(list1)    set去重得到的list2默认按升序进行排序:        list2 = [0, 1, 2, 3, 4, 5, 6, 7, 8,...

2018-05-18 14:41:27 8225

原创 Linux常用命令总结(一)

1,nohup命令    ——Linux命令,表示不挂断地运行命令,常用于当你想要运行一个程序,但是你觉得当你退出账户时,该进程还不会结束,那么此时使用nohup命令就合适不过了。    ——用法如下:nohup python3 文件路径 >> 日志log存放位置 2>&1 &    如:nohup python3 /usr/local/spider/Spider...

2018-05-17 17:03:03 135

原创 Linux下安装Python3以及setuptools、pip经验分享与总结

Linux下系统默认一般自带Python,只不过带的是Python2,至于是Python2点几,就要看linux系统的版本了,一般是Python2.6或者Python2.7。那么,如果想要安装Python3应该怎么办呢? 很简单,其实Linux下是同时支持Python2以及Python3的。因此,只需要根据自己的情况来安装相应版本的Python3就可以了。记住一点,千万不要卸载系统自带的Pytho...

2018-05-17 14:32:35 7150

原创 Python工程师面试汇总

A公司(爬虫工程师)1.国际惯例,请您做一下自我介绍?2.说一下你为什么从上一家公司中离职?3.HTTP你了解吗,有几次握手?4.说说你在爬取网站的过程中,哪家或者哪几家公司是你觉得最难爬的,为什么?5.验证码识别你了解吗,你遇到过需要验证码识别的网站吗,你是怎么处理的?6.Tesseract的工作原理是什么,你是怎么训练你的Tesseract?7.封IP后你是如何处理的,你是如何获取代理IP的8...

2018-05-16 11:19:39 2131

原创 正则表达式详解

        正则表达式(Regular Expression),又称正规表达式、规则表达式等,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,也通常用来检索、替换那些匹配某个模式的文本。下面从以下方面开始讲述正则表达式在python中的应用。re模块1.在python中使用,首先需要导入一个包,即re模块2.re模块示例3.一般的使用步骤(1)使用c...

2018-04-15 20:49:35 234

原创 HTML常用知识总结

       HTML(Hyper Text Mark-up Language)意思是超文本标记语言,超文本指的是超链接,标记指的是标签,是一种用来制作网页的语言,这种语言由一个个的标签组成,用这种语言制作的文件保存的是一个文本文件,文件的扩展名为html或者htm,一个html文件就是一个网页。1.HTML的文档类型——xhtml 1.0和html5xhtml1.0 用 sublime text...

2018-04-10 16:30:13 195

原创 爬虫之抓包工具Fiddler抓取HTTPS设置

Fiddler是网络爬虫的重要辅助工具,更好地利用它可以使得我们的爬虫工作事半功倍。首先,我们得下载Fiddler,直接去官网就可以下载,免费的,这里就不再累赘了。我现在要说的是如何利用Fiddler抓取HTTPS的设置:1.启动Fiddler>打开菜单栏中的 Tools > Options,打开“Options”对话框2.打开‘Option'对话框>选中HTTPS>选中C...

2018-04-08 18:06:30 1388

原创 深入浅出地理解HTTP常见响应状态码

       HTTP响应状态码是用于表示网页服务器HTTP响应状态的3位数字代码,其中,第一个数字定义了响应的类别,且有五种可能取值。下面就这5五种可能出现的比较常见的取值进行分析。100-199:表示服务器已经成功接收部分请求,现在要求客户端继续提交其余请求才能完成整个处理过程。(100表示continue,101表示switching protocols,102表示processing)20...

2018-04-08 13:32:28 199

原创 Python2与Python3有哪些不同之处

        众所周知,Python3是Python2的升级改进版,既包含了Python2的绝大部分内容,同时又做出了一些不一样的改变。据说,Python2将于2020年左右不再免费更新维护,作为Python2的坚定支持者,是不是有一种被抛弃的感觉呢。所以,此时最好的选择就是在努力维护python2在心中的核心地位的同时,好好地扩展python3才是上上之策。不过呢,笔者在用过python3之后...

2018-04-07 19:34:21 1626 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除