自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 资源 (2)
  • 收藏
  • 关注

原创 酷炫命令行背景图操作步骤

不知道大家有没有见过酷炫的命令行背景图片,很炫酷。例如:是不是很酷,还能装个x,下面就带大家来操作一下:首先打开,PyCharm,双击‘shift’,出现界面:,输入:set background image之后输入背景图片路径:设置过后,点击确认即可接下来就看你们的了,小伙伴们...

2018-03-25 13:59:22 7900 5

原创 HTTP 202状态码的处理方式

最近在爬某网站,谷歌浏览器打开是ok的,可以显示网页内容。程序有时候也可以抓到相应的内容,可有时候就不行。我抓取的是json格式的数据,在解析的时候有时就成功,有时报错。经过一番盘查,发现解析报错的时候,response返回状态码是202,咦。。。这个从来没见过于是,又是一番谷歌,找到相关解释:1.202 Accepted 表示服务器端已经收到请求消息,但是尚未进行处理。但是对于请求的...

2019-07-17 16:21:28 12037

原创 1241, 'Operand should contain 1 column(s)'

最近在用mysql作为数据库存储,可会遇到,1241, 'Operand should contain 1 column(s)',这样的报错。这样一般就是字段个数不匹配。我检查了几遍字段,都是对应的,没有缺少或者多余。经过一系列的检查,尝试,发现,['机车(1201)', '陆、空、水或铁路用机动运载工具(1201)'],这样的列表不能直接存储,需要转换一下,转换成,[机车(1201), ...

2019-01-28 18:09:22 3261 1

原创 获取frame 标签里#documents里面的内容

最近几天在爬一个网站,里面有frame标签。今天有想获取frame标签下面#documents里面的内容,查了一晚上的资料,幸好找到,明天可以交差了。。。一个有frame标签的网站,http://www.lmtw.com/search.php?show=title%2Ckeyboard%2Cwriter&searchget=1&keyboard=%E7%94%B5%E8%A...

2018-12-25 20:36:02 2735 1

原创 存在frame标签,获取docments里面内容的正确解法

这两天在爬取一个网站,打开开发者工具一看,之前没有见过frame标签,而且关键的数据都在#docments里面,这就很头疼。。。查了资料,问了大佬,终于找到了解决方案,大喜我的解决方案先找到有frame 的标签,一点要是最外层的frame,frameset,这个标签不用理。先定位到最外层 frame,例如用xpathfr=(driver.find_element_by_xpath(...

2018-12-21 19:27:28 753

原创 Ubuntu 18.04版本中安装Mysql后,Mysql每次访问需要加sudo的问题

在Ubuntu18.04上安装MySQL后,发现在普通用户shell下无法使用root用户名登录MySQL,mysql -uroot -pmysql,提示权限问题,命令必须改为,sudo mysql -uroot -pmysql,这样就比较麻烦,特别是用程序链接数据库,就没法链接成功。后来看了一下mysql的数据库发现MySQL的root用户的plugin被修改了,只有换成mysq...

2018-10-23 17:45:50 1689 1

原创 Python2代码转换Python3代码工具介绍

最近在做一项目,api接口都是用python2 写的,用起来真是不方便,想一下有没有工具,python2直接转python3的工具。经过百度,还真有。。。拿过来就是自己的首先找到python2转python3 的工具代码的位置,由于 2to3.py 是一个脚本文件,所以我们需要到CMD窗口去执行一下,打开CMD窗口,然后cd进2to3.py所在的文件夹scripts之后就是找到...

2018-10-08 18:33:31 1066

原创 信用中国公司信用数据爬取

最近在爬取信用中国的时候,有个参数,encryStr,始终找不到,最后发现,只要拿到请求的网页,再从网页中取出来,encryStr,最后再拼到需要的地方就可以了这是,搜索页url,https://www.creditchina.gov.cn/xinyongxinxi/index.html?index=0&keyword=%E5%B0%8F%E7%B1%B3%E7%A7%91%E6%8A...

2018-09-30 17:57:47 5533 2

原创 股东控股关系图谱简化版

最近在爬一些企业类的数据,在要取股东控股关系图谱时,问题来了标签不一致,还要挨个把数据取出来。才像个控股的样子,像这样的直接来个简化版的把这一部分的源码取出来,再用xpath,匹配取数据终于有点控股关系的样子了,其他的再慢慢完善 ...

2018-09-26 17:58:06 2258

原创 PyQuery的基本使用

PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。from pyquery import PyQuery as pqhtml = '''    <div...

2018-09-13 10:38:43 331

原创 from PIL import Image,报错,解决办法

在安装pillow的时候,安装成功,但是在导包的时候出错,各种百度,各种方法都试过了,就是不行,依然报错。后来追踪PIL文件路径,竟然是我创建的PIL.py,文件,哦哦哦,原来系统自动导的是我本地创建的文件,把PIL.py文件名一改,完美解决...

2018-09-11 12:23:47 14915 3

原创 关于安装tesserocr报错,Failed building wheel for tesserocr

用pip3 install tesserocr pillow命令安装,tesserocr,安装过程会报错,Failed building wheel for tesserocr我成功解决的办法,是先安装必需的包,sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev再用命令,sudo pip3 install...

2018-08-25 18:49:26 2536

原创 user-agent各个参数详解

最近在研究ua信息,现在总结一下ua信息各个参数代表的意思以及哪些参数可以修改,哪些可以删除现在,随便拿出一个ua,Mozilla/5.0 (Linux; U; Android 7.0;m2 note Build/LMY47D) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/5.0.2 MQQBrowser/6.7 Mobile/15A...

2018-08-16 18:57:19 7466

原创 Mac环境下打开WebStorm中settings

在用webstorm 开发nodejs时,由于版本不一样,window和Mac打开settings时会有很多不方便,现在就用一招就调出settings窗口:打开到WebStorm界面后使用快捷键 Command+‘,’,直接调出settings窗口  ...

2018-07-28 21:32:23 7215

原创 求助,nodejs 在安装threads_a_gogo时报错

目前用webstrom开发工具,在运行时,报错:安装命令:sudo npm install -g threads_a_gogo,运行出错截图:下图是,run运行出错截图请教各位大神,这个问题如何解决,很急。。。...

2018-07-27 12:01:20 1197

原创 nodejs throw er; // Unhandled 'error' event

在运行nodejs 时,有时候会报错,throw er; // Unhandled 'error' event,说明可能是之前运行的程序占用了现在运行的端口,更改端口即可 

2018-07-27 09:46:52 1122

原创 数据结构和非数据结构详解

在提到数据结构和非数据结构时,好多人都有这样的意识,概念可能说不上来,接下来就来说说结构化数据和非结构化数据的概念以及不同:结构化数据、非结构化数据是对存储形式的一种数据类型分析,有助于企业细分行业案例,帮助存储合作伙伴更好地解决应用实施方案。结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相...

2018-07-14 09:39:12 2056

原创 用execjs破解百度翻译sign

打开开发者工具:查翻译发送的请求信息,得到其 FormData 看到有个sign,接下来就破解一下,signsign 这个参数,应该如何设置?我们在 js 代码中,发现在某个 index_xxx 开头的 js 代码中发现一段可疑代码。将这段代码在格式化工具中重新排版一下,可以找到sign,是由待翻译的信息再用m函数运行之后得到的,m函数js代码如下:function a(r) {        i...

2018-07-11 16:45:51 3437 2

原创 爬取51job职位信息

今天在爬职位信息的时候,先用的requests模块,后来发现,获取的数据全部是乱码。果断换成selenium+Chrome,成功获取数据,保存MongoDB在前期校验获取成果时,建议用selenium+Chrome,后期测试通过,换成无界面的PhantomJS代码如下:import timefrom selenium import webdriverfrom selenium.webdriver....

2018-07-07 20:00:54 1392

原创 pymongo.errors.DuplicateKeyError: E11000 duplicate key error collection: anjuke.ershoufang index

这个bug忙了我一下午加一个晚上,终于把它ko掉了先附上一段爬取安居客二手房信息的代码import reimport timeimport pymongoimport requestsfrom bson import ObjectIdfrom lxml import etreefrom pprint import pprintheaders = {    "User-Agent": "Mozill...

2018-07-06 23:13:58 4865 1

原创 MongoDB与Redis的区别分析

MongoDB 和 Redis 的区别:简介MongoDB 更类似 MySQL,支持字段索引、游标操作,其优势在于查询功能比较强大,擅长查询 JSON 数据,能存储海量数据,但是不支持事务。MySQL 在大数据量时效率显著下降,MongoDB 更多时候作为关系数据库的一种替代。Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。它支持多种类型的数据...

2018-07-04 09:46:31 6812

原创 用Python实现微信撤回消息还原

在使用微信过程中,有时候我们会撤回一些发错或者不该发的一些信息,今天我就用一段代码实现将撤回的消息还原。。。从此再也不怕别人撤回消息,自己不能看的尴尬了import osimport reimport shutilimport timeimport itchatfrom itchat.content import *# 说明:可以撤回的有文本文字、语音、视频、图片、位置、名片、分享、附件# {ms...

2018-07-03 23:18:27 5123 2

原创 安装pyv8 过程出现的问题 src/Exception.h:6:10: fatal error: v8.h: 没有那个文件或目录

src/Exception.h:6:10: fatal error: v8.h: 没有那个文件或目录 error: command 'x86_64-linux-gnu-gcc' fai今天在安装pyv8的时候出现各种坑,最后还是让我解决掉了,下面梳理一下bug,为大家呈上教程首先在安装pyv8之前,要先安装依赖:安装依赖 首先安装依赖:Boost, 这一步网上的大部分教程都差不多,也是必须的; s...

2018-07-03 17:26:19 2634 1

原创 数据库优化方案之查询语句

数据库优化方案,主要的还是要优化查询语句,主要思路就是避免全表查询!!1.对查询进行优化,要尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null最好不要给数据库留NULL,尽可能的使用 ...

2018-07-02 11:05:50 185

原创 聚焦爬虫与通用爬虫详解

根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用爬虫:搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。目标:就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。抓取流程:首先选取一部分URL,把这些URL放到待爬取队列。从队列取出URL,然后解析DNS得到主机IP,然后保存...

2018-07-01 21:31:45 6601

原创 Windows 和 Linux系统查看进程号

在Windows系统下想查看进程号,要如何操作呢首先,打开用cmd打开终端命令行,输入命令:tasklist,就会把当前所有进程及其编号都会显示出来:要想杀进程,可以通过命令:taskkill  pid ,杀死进程Linux系统如何查看系统进程号呢: linux 查进程、杀进程、起进程查进程    ps命令查找与进程相关的PID号:    ps a 显示现行终端机下的所有程序,包括其他用户的程序。...

2018-06-23 20:05:26 2613

原创 python 中的垃圾回收之标记清除

Python引入了其他的垃圾收集机制来弥补引用计数的缺陷:"标记-清除","分代回收"两种收集技术.标记-清除"标记-清除"是为了解决循环引用的问题.可以包含其他对象引用的容器对象(比如:list,set,dict,class,instance)都可能产生循环引用.我们必须承认一个事实,如果两个对象的引用计数都为1,但是仅仅存在他们之间的循环引用,那么这两个对象都是需要被回收的,也就是说,它们的引...

2018-06-23 16:35:08 2764 1

原创 Ubuntu切换登录用户和root用户

在使用Ubuntu时候,有时候会需要在登录用户和root用户之间进行切换,有什么命令可以简单快速的切换呢先来看一个命令:再来看一个:su,这个命令就是切换当前登录用户和root用户之间进行切换的命令。有没有什么操作可以直接就su,不要加sudo su 呢,下面就进行一波小操作,让sudo su 简化成su首先,,按照提示输入密码,这样操作下来,再试一下命令:顺利切换成,root登录用户。。。要退出...

2018-06-19 15:00:16 24458

原创 tesseract基本用法之识别图片文字

Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统,除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。安装TesseractWindows 系统下载可执行安装文件:https...

2018-06-14 22:18:17 3303

原创 使用selenium爬取某宝商品信息

使用selenium +PhantomJS()/Chrome爬取 淘宝页面首先创建一个config.py的文件。在里面做些适当配置:# 缓存模式SERVICE_ARGS = ['--disk-cache=true']# 搜索名称KEYWORD = '情人节礼物'在主文件中编写代码:# coding:utf-8import refrom pprint import pprintfrom seleni...

2018-06-10 14:35:56 478

原创 使用scrapy进行模拟登陆三种方式

scrapy有三种方法模拟登陆方式:- 直接携带cookies- 找url地址,发送post请求存储cookie- 找到对应的form表单,自动解析input标签,自动解析post请求的url地址,自动带上数据,自动发送请求1、携带cookies登陆githubimport scrapyimport reclass Login1Spider(scrapy.Spider): nam...

2018-06-06 00:02:23 5978

原创 异步和非阻塞的区别

我们说Twisted是一个异步的网络框架,经常我们也听到一个词语叫做非阻塞,那么他们有什么区别呢?异步:调用在发出之后,这个调用就直接返回,不管有无结果;异步是过程。 非阻塞:关注的是程序在等待调用结果(消息,返回值)时的状态,指在不能立刻得到结果之前,该调用不会阻塞当前线程。同步和异步的区别:同步:一个服务的完成需要依赖其他服务时,只有等待被依赖的服务完成后,才算完成,这是一种可靠的服务序列。要...

2018-06-03 21:38:16 2518 1

原创 scrapy的request的meta参数是什么意思?

meta是一个字典,主要是用解析函数之间传递值,常见的情况是:在parse中给item某些字段提取了值,但是另外一些值需要在parse2中提取,这时候需要将parse中的item传到parse2方法中处理,显然无法直接给parse2设置而外参数。 Request对象接受一个meta参数,一个字典对象,同时Response对象有一个meta属性可以取到相应request传过来的meta。实例函数如下...

2018-06-03 19:06:02 8064

翻译 Python 开发者 2017 应该关注的 7 个类库

Django 依然是 Python 开发者值得信赖的库。然而,在 2016 年几个还不太知名的库引起了 Python 开发者的关注。在这篇博文中,我向大家揭示 7 个 Python 类库,其中不包括像 Django,Flask 等已广为熟知的库,这些类库在 2017 年可能值得 Python 开发者参考。1、Arrow移动应用程序无处不在,而且全球人类都参与其中 - 无论是游戏,社交媒体,健康监控...

2018-06-02 23:52:39 185

原创 MongoDB 聚合函数管道之group中各个参数的意思

聚合(aggregate)主要用于计算数据,类似sql中的sum()、avg()语法db.集合名称.aggregate([ {管道 : {表达式}} ])管道管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的输入ps aux | grep mongod在mongodb中,管道具有同样的作用,文档处理完毕后,通过管道进行下一次处理常用管道$group:将集合中的文档分组,可用...

2018-05-30 19:46:32 2198

原创 MongoDB 投影的注意事项

mongodb 投影意思是只选择必要的数据而不是选择一个文件的数据的整个。例如一个文档有5个字段,只需要显示其中3个find() 方法在MongoDB中,当执行find()方法,那么它会显示一个文档所有字段。要限制这一点,需要设置的字段列表值1或0。1用来显示字段而0是用来隐藏字段。语法:find()方法具有投影基本语法如下db.集合名称.find({},{字段名称:1,...})假设有如下集合:...

2018-05-30 17:27:00 572

原创 Python中-Json模块dumps、loads、dump、load函数详细介绍

1、json.dumps()         json.dumps()用于将dict类型的数据转成str,因为如果直接将dict类型的数据写入json文件中会发生报错,因此在将数据写入时需要用到该函数。[python] view plain copyimport json     name_emb = {'a':'1111','b':'2222','c':'3333','d':'4444'}   ...

2018-05-28 20:23:16 1057

翻译 一个合格的程序员,需要哪些必备技能?

对于一个Java开发来说,编程技能毋庸置疑是很重要的。但是,除了基本的编程开发能力,其他方面的能力也是体现一个程序员的能力的很重要因素。比如,问题排查能力、线上运维能力、项目管理能力、协调沟通能力等。本文,主要来简单介绍一下,作为一个合格的Java开发,除了自身技术成长之外,还有哪些方面可以提升。​类开发技能第一类,并不是纯coding技能,但是也和开发相关,我称之为类开发技能。Linux系统很多...

2018-05-24 22:15:17 162

原创 数据库在有外键约束的情况下,怎么删除数据库中的数据

相信大家可能会遇到这样一个问题,数据库设置了外键,可还想删除数据库中的某些数据,怎么操作?现在就教大家一个轻松的办法,不用删除外键就可以删除数据库中的一些数据,关键id还能从1开始,不用默认递增首先,在数据库中查看外键是否有效(没有设置之前都是有效),命令:select@@foreign_key_checks;,其中,值为1,外键有效,此时,要想删除数据库中的数据是删不掉的将外键的值设置为0,此时...

2018-05-20 21:44:52 27140 2

翻译 新兴技术岗位薪资涨幅惊人,Python需求增速达174%!

看到Boss直聘发布《2017互联网人才趋势白皮书》,只想说新的一年,希望大家火得像Python一样,根本停不下来。接下来,我们一起解读《2017互联网人才趋势白皮书》!2017年是互联网行业全面转向技术驱动的一年,技术类人才招聘需求已经占到整体人才需求的25%。在人工智能热潮的驱动之下,AI相关岗位人才需求飙升,然而缺口依然超过百万。2017年还是热门职位更迭的一年。与人工智能、数据科学等前沿技...

2018-05-18 15:47:41 229

邮件发送,数据库迁移,蓝图

在开发过程中,很多应用程序都需要通过邮件提醒用户,Flask的扩展包Flask-Mail通过包装了Python内置的smtplib包,可以用在Flask程序中发送邮件。

2018-05-11

Python网络数据采集

针对网络采集出现各种问题的解决,针对网络采集任务提供全面的指导

2018-05-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除