自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 python url自动补全

import urlliba = "http://www.ccdi.gov.cn/yaowen/index_{}.html"b = "/202010/t20201029_228894.html"print(urllib.parse.urljoin(a,b))

2020-10-30 08:54:55 1347

原创 python3 正则去除html标签

# text为包含html标签内容content = re.sub("<[^>]*?>", "", text)

2020-10-13 14:54:22 492

原创 xpath保留内容及原始标签

xpath保留内容及原始标签# 先获去相应的xpath节点table = HTML.xpath("/html/body/div[2]/div[1]/div[7]")[0]# 解析并保留原始标签及内容content = etree.tostring(table, encoding='utf-8').decode()

2020-10-13 10:25:41 562

原创 记一次爬虫解决多种编码格式的响应

应用场景为,当请求多个网站但网站的编码格式都不一样时,我们可以显根据响应获取到对应网站的编码,然后根据获取到的编码去解析article_html = requests.get(url=i,headers=self.headers2)article_html.encoding = article_html.apparent_encodinghtml = article_html.textxpath_list = HTML.xpath(html)...

2020-08-10 16:10:04 209

原创 Linux杀死同名的所有进程

例:例如杀死名为a.py的所有进程ps -efww|grep a.py |grep -v grep|cut -c 9-15|xargs kill -9

2020-08-07 08:12:54 453

原创 提取html某节点下包含标签的内容(HTMLParser库)

import requestsfrom lxml import etreefrom lxml import htmlfrom html.parser import HTMLParserresponse = requests.request("GET", url, headers=headers, data = payload, verify=False)# print(response.text)HTML = etree.HTML(response.content.decode())a=.

2020-07-15 10:57:34 486

原创 这里记录一次关于pixel刷机 7.1.2系统 + Frida搭建

这里记录一次关于pixel刷机 7.1.2系统 + Frida搭建一、刷机1.把手机关机后,按下电源键和音量-键,进入fasboot模式,如下图所示2.将sailfish-nhg47k-factory-59f23c7a71-7.1.2解压,并将platform-tools文件解压到sailfish-nhg47k-factory-59f23c7a71-7.1.2解压后的文件中3.在cmd中运行flash-all.sh,如果运行不成功,可以直接在文件中双击flash-...

2020-06-15 18:24:49 1464

原创 记一次cchardet的使用(查看返回内容编码)

import cchardetimport requestsresp = requests.get('https://www.baidu.com/')# 获取返回内容编码coding_ = cchardet.detect(resp.content)print(coding_)print(" ")# 根据获取的编码进行内容解码print(resp.content.decode(coding_['encoding']))...

2020-06-09 11:04:11 643

原创 记一次centos7批量杀死进程

ps -ef | grep xxx应用| awk '{ print $2 }' | xargs kill -9xxx为相应的应用名即运行的文件名字

2020-01-15 08:44:43 1289

原创 记一次Python中快速转化headers的库-copyheader

安装pip install copyheaders具体使用方法import requestsfrom copyheaders import headers_raw_to_dictheaders = headers_raw_to_dict(b'''accept: text/html,application/xhtml+xml,application/xml;q=0.9,ima...

2019-12-24 17:58:28 1378

原创 记一次centos7的crontab定时任务

crontab常用命令 查看当前的定时任务有哪些 crontab -l 进入crontab的编辑页面 crontab -l 查看日志 tailf /var/log/cron编辑定时任务注:在进行定时任务之前,一定要先给要执行的文件添加可执行权限,代码如下chmod +x /data/a.py # 给dada目录下的a文件添加可执...

2019-12-24 17:46:50 124

原创 记一次python中使用mitmdump报错找不到指定的包

方案一:使用pip安装所需要的包,不要再官网上下载方案二:pip(3) install mitmproxy 然后将python目录下的script目录加进系统变量进行调用。 在文件中import sys。在sys模块下面加一句代码 sys.path.apend('python目录的site-packages目录') 以上这两种方法可以解决无法载入包的问题 ...

2019-11-27 09:39:00 1399

原创 记一次Python时间戳生成

import time# 10位时间戳time_now_10 = int(time.time())# 13位时间戳time_now_13 = int(time.time()*1000)# 10位时间戳转化为本地时间time_local = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time_now_10))# 13...

2019-11-21 17:38:26 394

原创 记一次Python中字符串转换html

# 简述:因为使用正则提取内容时,内容中会有很多特殊的编码字符(如上图),正则容易误伤html_data = execjs.eval(f"{{{asd}}}")['content'] # 把字符串转换为js格式,并提取字符串中的content内容,f为python3中内置字符串格式化方法f-stringprint(etree.HTML(html_data).xpath('str...

2019-10-30 15:30:41 7209 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除