自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

GLOBE TREKKER

Python | 数据挖掘 | 数据分析 | 高并发数据采集

  • 博客(154)
  • 收藏
  • 关注

原创 百度网盘下载提速小技巧

环境 : Windows 操作系统很多人总会需要用到百度网盘 , 虽然挺好 , 但是有一个很大的缺点 , 就是如果你不开会员 , 你的下载速度就会超级慢 , 速度可以慢到几K每秒 , 几十K每秒 , 如果下载的内容不是很大还好 , 加入下载的东西有几个G , 几十个G呢 ? 那有什么提速方法呢 ? 毫无疑问 , 当然是有的 , 今天博主就来分享一下博主下载百度网盘内容时候的提速方法 .1....

2021-03-13 17:38:55 6070 1

原创 Linux二级命令自动补全

linux二级命令自动补全:在Linux中当输入的命令在二级命令的时候,部分用户会出现二级命令通过table无法自动补全的情况,这个功能成为 bash completion这个时候需要安装软件 bash-completionsudo yum -y install bash-completion安装完成后 “重新打开终端” 或 “重启操作系统” 此功能即可生效...

2020-08-08 12:18:12 985 1

原创 浏览器模拟之selenium的检测与突破

selenium 是一个很友好的网站调试工具,但是很多人都用来做爬虫,其实我也是用来做爬虫,毕竟好东西要共享,哈哈在做静态网页的请求的时候,普通的http/https可以很轻松的搞定,但是面对动态网页,很多内容都是通过后面的js加载出来的,如果还要用协议解决,希望你遇到的问题可以解决。在爬虫这一块,很多反爬虫对方对selenium并不是太友好,他们对于selenium的检测机制造的很是很牛...

2020-07-14 17:43:59 1160 1

原创 浏览器模拟之selenium半自动化处理

我们有时候访问某站的时候一出来就是验证码,但是爬虫工作者不喜欢呢,有些时候,我们可以稍微欺骗一下哪些网站,先让他们知道我们前一步骤是认为访问的,他们相信了以后我们就赶紧换人,让机器自己上selenium有一个远程调试的功能,这个地方就很有意思了,给你指定的IP和端口号,自己连去吧所以我们只需要“手动”打开浏览器,这里以chrome为例1. 将 chrome.exe 的执行文件路径添加到...

2020-07-14 17:43:49 575

原创 浏览器模拟之python+selenium+mitmproxy

做爬虫最大的困扰就是对方的反爬措施,最好不要强攻,能绕过就绕过,毕竟上网需要科学selenium 指纹被做了记号如何破?这个时候说明对方已经检测了你的行为特征,这是一个比较严肃的问题,尤其是在破解滑动验证码的时候大厂的技术团队还是给了我们一个更难解决的问题,就是通过js 给 webdriver 请求响应错误信息,所以我们要做的是把这些影响科学上网的 js 代码给废掉这里的方法是通过...

2020-07-14 17:43:39 2749 2

原创 cmatrix秀一波骚操作

cmatrix官网 https://www.asty.org/cmatrix/cmatrix 展示效果linux下安装 cmatrix 流程wget https://www.asty.org/cmatrix2/dist/cmatrix-1.2a.tar.gztar -zxvf cmatrix-1.2a.tar.gzcd cmatrix-1.2ayum install ncurses-devel./configure && make && make inst

2020-07-09 17:33:13 436

原创 pyppeteer安装chromium太慢

在安装chromium的时候,因为是谷歌源所以我们下载不了或者下载很慢,并且网上大多数的资料都是复制别人的,并没有给出具体的解决办法,很坑,这里给出我搞了一天的解决办法,有点复杂我们选择系统默认的版本,这样最保险用清华源安装pyppeteerpip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pyppeteer然后我们在新建一个py文件写入一下代码from pyppeteer import chromium_downloader.

2020-06-27 17:12:16 1971 2

原创 django.db.utils.IntegrityError: (1048, Column last_login cannot be null)

django创建超级用户 python manage.py createsuperuser,出现出现报错error contentdjango.db.utils.IntegrityError: (1048, "Column 'last_login' cannot be null")大概意思就是因为是没有登陆过,所以就没有用户的存在通过网上查找,发现重新对auth进行一次迁移python manage.py migrate auth其实报错主要是因为我之前对模型迁移的时候是对指定的模型迁移

2020-06-26 09:02:06 1860

原创 selenium登陆某宝的滑动怎么过

selenium登陆淘宝的滑动怎么过,确实淘宝在滑动这一块限制了很多条件没太多废话,上效果,在分析过程,上传code由于现在大型网站对selenium工具进行检测,若检测到selenium,则判定为机器人,访问被拒绝。所以第一步是要防止被检测出为机器人,如何防止被检测到呢?当使用selenium进行自动化操作时,在chrome浏览器中的consloe中输入windows.navigator.webdriver会发现结果为Ture,而正常使用浏览器的时候该值为False。所以我们将windows.nav

2020-06-25 10:05:54 944

转载 CentOS安装OpenResty(Nginx+Lua)开发环境

一.简介OpenResty® 是一个基于 Nginx 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。OpenResty® 通过汇聚各种设计精良的 Nginx 模块(主要由 OpenResty 团队自主开发),从而将 Nginx 有效地变成一个强大的通用 Web 应用平台。这样,Web 开发人员和系统工程师可以使用 Lua 脚本语言调动 Nginx 支持的各种

2020-06-13 18:59:54 606 1

原创 mongodb导出数据到excel

首先确保mongo的bin目录已经在环境变量中或进入命令行进入mongo的bin目录下mongoexport -d db_name -c collection_name -f id,name,sex --type=csv -o $path/save_name.csv# -d : 数据库名# -c : 表名# -f : 列名# --type : 导出的文件的形式# -o : 导出路径...

2020-06-05 11:15:06 1196

原创 scrapy框架之log日志

在scrapy中设置log:1、在settings中设置log级别,在settings.py中添加一行:Scrapy提供5层logging级别:CRITICAL - 严重错误(critical) ERROR - 一般错误(regular errors) WARNING - 警告信息(warning messages) INFO - 一般信息(informational messa...

2020-05-05 22:59:32 664

转载 Centos firewalld开放端口

启动一个服务:systemctl start firewalld.service关闭一个服务:systemctl stop firewalld.service重启一个服务:systemctl restart firewalld.service显示一个服务的状态:systemctl status firewalld.service在开机时启用一个服务:s...

2020-03-28 23:04:51 300

转载 iptables实现nat方式的流量转发

NAT可以方便的完成这种流量穿通功能,即把外网数据通过NAT(中转设备)来穿透进内网,内网数据通过NAT(中转设备)穿透出外网。那linux下iptables如何实现nat转发?这里将以Debian7主机下的测试为例。1、开启IP_FORWARD 1 2 3 vi /etc/sysctl.conf #在文件末添加以下一行(如已有则不必...

2020-03-25 19:22:23 3366

转载 linux卸载Python3

卸载Python3:1、卸载python3rpm -qa|grep python3|xargs rpm -ev --allmatches --nodeps 卸载pyhton32、whereis python3 |xargs rm -frv 删除所有残余文件成功卸载!3、whereis python 查看现有安装的python...

2020-03-20 20:15:42 584

转载 Centos7安装配置Apache(httpd)+php+mysql+phpMyAdmin

一、安装mysql执行命令:wgethttp://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpm执行 yum -y install mysql mysql-server mysql-devel,安装成功。再...

2020-03-15 16:24:33 568

原创 CURL设置超时时间

使用CURL时,有两个超时时间:一个是连接超时时间,另一个是数据传输的最大允许时间。连接超时时间用--connect-timeout参数来指定,数据传输的最大允许时间用-m参数来指定。curl --connect-timeout 10 -m 20 "http://XXXXXXX"连接超时的话,出错提示形如:curl: (28) connect() timed out!数据传输...

2020-03-13 20:54:59 15891

转载 curl 参数配置详情

第一类:对于下面的这些option的可选参数,value应该被设置一个bool类型的值:CURLOPT_AUTOREFERER当根据Location:重定向时,自动设置header中的Referer:信息。CURLOPT_BINARYTRANSFER在启用CURLOPT_RETURNTRANSFER的时候,返回原生的(Raw)输出。CURLOPT_COOKIESESSION启用时curl会仅...

2020-03-13 20:44:50 813

原创 centos7安装nginx后无conf.d目录或conf.d目录下无default.conf文件

问题nginx安装成功之后可以正常使用,但是/etc/nginx下没有conf.d文件夹,或/etc/nginx/conf.d下没有default.conf文件原因该操作系统下的epel源是默认下载就是Fedora操作系统的解决方法更改nginx的epel镜像源地址,并卸载(不做赘述)清除之前安装的nginx重新安装工作sudo yum install yum-uti...

2020-02-28 00:14:45 7755 3

原创 win10状态栏的搜索框无法搜索本地应用或无反应

今天突然在利用状态栏进行本地搜索的时候突然没毛任何反应了,然后在网上找到了解决办法1、首先,打开管理员命令窗口,win+x,可以看到弹出一个窗口,打开windows Powershell(管理员);2,再输入这行代码Get-AppXPackage -Name Microsoft.Windows.Cortana | Foreach {Add-AppxPackage -DisableDe...

2020-02-06 14:07:08 409

原创 django 2.x创建sql表的外键

运行环境 : django 2.1from django.db import models# Create your models here.class Grade(models.Model): g_name = models.CharField(max_length=32)class Student(models.Model): s_name = model...

2020-01-12 16:01:32 212

原创 如何在centos上面安装python3

CentOS 7 默认自带了 Python 2.7 版本,但是很多时候,我们需要用 Python 3.x 来做开发,本片介绍用 CentOS 7 来安装 Python 3.x 。这里只介绍一种。本文以为 Python 3.7.0 作为安装啊示例下面开始进行安装步骤解读:1. 首先需要下载压缩包 (其他获取方式如 FTP 之类的也可以,Anyway,目的就是获取这个 Linux 版的 P...

2019-12-22 16:30:57 194

原创 Pycharm读取的文件数据集过大,浪费时间怎么办

用 python 做开发的时候,大部分人都喜欢用Pycharm ,而深度学习在训练模型的时候往往需要的数据集往往很大,从而导致Pycharm 在读取的时候会浪费很多时间,时间上他读取的这些数据集在代码中也不会有所体现,那么问题来了,这么多的数据 Pycharm 逐个读取很浪费时间的,下面是总结出的两种解决办法。解决办法一:将数据集所在文件夹设置为excluded。右键点击数据集所在文件夹...

2019-12-19 20:17:57 2777

原创 手机app数据的爬取之mitmproxy安装途径

github地址 :https://github.com/mitmproxy/mitmproxy/releases/mitmproxy下载地址 :https://mitmproxy.org/downloads/参考 :https://www.cnblogs.com/yunlongaimeng/p/9617708.html...

2019-11-04 18:30:13 258

原创 OpenCV-Python 读取视频方法

运行环境 : Python 3.6.0读取视频 :import cv2 as cvvideo = cv.VideoCapture('./test.mp4') # 读取视频文件fps = video.get(cv.CAP_PROP_FPS) # 获取视频每秒的帧数while video.isOpened(): # 判断视频是否一直打开 success, fra...

2019-11-04 17:03:26 677

原创 MongoDB 4.2.1的下载安装配置

下载MongoDB :下载之前可以参考一下版本选择:MongoDB的版本命名规范如:x.y.z;y为奇数时表示当前版本为开发版,如:2.3.0、2.1.1;y为偶数时表示当前版本为稳定版,如:2.0.1、2.2.0;我在这里用的是4.2.1官网下载mongoDB的最新稳定版本https://www.mongodb.com/download-center/communit...

2019-11-02 14:25:36 5390

转载 pyppeteer(python版puppeteer)基本使用

一、前言以前使用selenium的无头浏览器,自从phantomjs2016后慢慢不更新了之后,selenium也开始找下家,这时候谷歌的chrome率先搞出来无头浏览器并开放了各种api,随后firefox也开始做。现在selenium的测试也都支持这两个浏览器的无头模式了,只需要在引入的时候配置一下就可以了。之所以要采用谷歌chrome官方无头框架puppeteer的python版本py...

2019-11-01 15:12:10 5197

原创 vim中文乱码问题解决方案

.vimrc 是vim的一个配置文件,一般将其放置于家目录下,vim只要已启动,就会自动寻找这个文件进行启动配置,不管是什么操作系统,都是将其放在家目录下。在.vimrc文件中添加如下内容,对用vim编辑器打开的文件编码进行一次重定向set fileencodings=utf-8,ucs-bom,gb18030,gbk,gb2312,cp936set termencoding=utf-...

2019-10-31 22:41:27 1094

原创 关于python2的reload(sys)

# 注意,Python2 . x默认编码环境是ASCII,当和取回的数据编码格式不一致时,可能会造成乱码:# 我们可以指定保存内容的编码格式,一般情况下, 我们可以在代码最上方添加:import sysreload(sys)sys.setdefaultencoding("utf-8")# 这三行代码是Python2 . x里解决中文编码的万能钥匙,# 经过这么多年的吐槽后...

2019-10-30 21:26:03 722

原创 Scrapy爬虫数据架构图

Scrapy是基于用Python写的一个流行的事件驱动网络框架Twisted编写的。因此,它使用非阻塞(即异步)代码实现并发。旧版Scrapy架构图 :新版Scrapy架构图 :Scrapy中的数据流由执行引擎控制,如下所示:Engine获得从爬行器中爬行的初始请求。 Engine在调度程序中调度请求,并请求下一次抓取请求。 调度程序将下一个请求返回到引擎。 引擎将请...

2019-10-29 23:10:43 1329

转载 Python环境和Django版本对应

Python环境与Django版本存在对应关系,我在Python3.7中创建Django1.11的时候就因为版本不对应产生了语法错误。挺让人无奈的也是,所以决定了解一下Python环境与Django版本之间的关系。Python环境与Django版本对应表:Django version Python versions 1.8 2.7, 3.2 (until the end o...

2019-10-28 21:58:57 790 1

转载 grafana报警配置并发送邮件

grafana介绍Grafana是一个可视化面板(Dashboard),有着非常漂亮的图表和布局展示,功能齐全的度量仪表盘和图形编辑器,支持Graphite、zabbix、InfluxDB、Prometheus和OpenTSDB作为数据源。Grafana主要特性:灵活丰富的图形化选项;可以混合多种风格;支持白天和夜间模式;多个数据源。修改grafana的配置文件grafana的配...

2019-10-28 17:05:08 1475

原创 影视 "少年的你" 最大bug之手机出戏

今天打开影视网站 , 看了一下 <<少年的你>> 这部电影 , 5分钟不到 , 仅仅5分钟 , 天大的bug出现了 , , ,---- 2011年都开始用智能手机了 , 而且还是全面屏齐刘海的 , 连2011年刚上线的微信都用上了 , 而且还带上了撤回功能 , , ,正常情况2011年还没有4G , 这智能手机都上来了 , 而且微信还用的这么大胆 , 我已无力...

2019-10-28 13:25:21 403 1

原创 影视 "少年的你" 最大bug之手机出戏

今天打开影视网站 , 看了一下 <<少年的你>> 这部电影 , 5分钟不到 , 仅仅5分钟 , 天大的bug出现了 , , ,---- 2011年都开始用智能手机了 , 而且还是全面屏的 , 连2011年刚上线的微信都用上了 , 而且还带上了撤回功能 , , ,正常情况2011年还没有4G , 这智能手机都上来了 , 而且微信还用的这么大胆 , 我已无力吐槽 ...

2019-10-28 13:21:51 291

转载 Ubuntu下安装&卸载apache2服务

1.安装apache2安装命令:sudo apt-get install apache2启动/停止/重启apache2: service apache2 start/stop/restart2. 卸载apache2之前卸载重新安装后找不到apache2.conf配置文件,测试使用一下方式卸载后可用。(1) $ sudo apt-get --purge remove a...

2019-10-28 12:29:40 192

原创 win10 ubuntu子系统的卸载和重装

win10 ubuntu子系统在使用,各种折腾以后应该何去何从呢 ,依靠lxrun命令 , 在命令行敲入lxrun命令以后,这是窗口显示 (win + r -> cmd -> lxrun) :C:\Users\Administrator>lxrun对 LX 子系统执行管理操作用法: /install - 安装子系统 可选参数: ...

2019-10-27 21:28:35 9655 1

转载 Win10安装Ubuntu子系统及图形化界面详细教程

在准备进行安装之前,推荐C盘上至少有5G的空余空间。1win10设置打开两个设置:1.开发人员模式:2.启用子系统功能2 安装打开Microsoft Store,搜索Ubuntu,出现如下界面:选择我红框框出来的两个版本,不要选第一个,那个有坑。安装速度还是挺快的。安装完了之后会在开始菜单出现linux的bash:打开之后还需要继续安装一小会...

2019-10-27 17:50:41 731 1

原创 ubuntu16.04 vim配置方案

1. 新建/打开vim配置文件.vimrc在终端里输入 : vi ~/.vimrc(vimrc是vim的配置文件 , 每次打开vim时会自动加载这个文件里的配置 , .vimrc是隐藏的vim配置文件)2. .vim的配置文件的代码如下:直接复制到 .vimrc中保存即可也可根据自己的需要予以更改set ai " 自动缩进,新行与前面的行保持—致的自动空格set aw " ...

2019-10-24 10:19:17 537

原创 ubuntu切换至root用户

打开ubuntu , 输入命令 : su root , 回车提示输入密码 , 怎么输入都不对 , 那是因为刚装过的ubuntu操作系统没有为root用户设置密码 , 需要为root用户设置密码之后才可进入 .1. 给root用户设置密码 :sudo passwd root输入本次登陆账号的密码 , 确认后输入root密码 .2. 重新输入命令 :su root然...

2019-10-24 09:16:40 352

原创 ubuntu 可执行文件 ls 可以看到,执行时却提示不存在

首先,Ubuntu系统是 64 位的,而你的可执行程序是 32 位的,需要支持32位的运行库ia32-libs .使用下面的命令 :sudo apt-get install ia32-libs然后在执行可执行程序之前执行一次一下操作 :chmod +x 要执行的文件名...

2019-10-23 17:29:52 1028

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除