自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Maple的博客

聚沙成塔,集腋成裘。

  • 博客(105)
  • 资源 (1)
  • 收藏
  • 关注

原创 【Kubernetes】Error: Unable to connect to the server: dial tcp XXX: connect: no route

1. 问题:在Kubernetes使用过程中有时出现如下问题,在StackOverfolow上没有找到好的办法,目前能找到的最好办法就是Kubernetes reset。Unable to connect to the server: dial tcp XXX: connect: no routecni not initialized2.解决措施:sudo kubeadm...

2020-01-09 16:38:29 38029

原创 selenium | firefox代理设置

1.背景因为公司需要爬去大量的信息,公司ip很快就被对方平台封了,因此果断选择selenium模拟登录,并设置代理。但我目前在网上找的解决方案都不行,貌似是selenium版本的问题。后来我通过阅读selenium官方文档,整理总结了selenium For Firefox的代理设置。2.代码def get_browser(): proxies = get_proxy() #...

2019-02-28 16:10:28 6223 1

原创 爬虫进阶——解决封IP问题| 部署ADSL服务器获取动态IP

1.问题背景我们公司需要到某环保平台爬取环保信息,但平台那边先从封cookie开始,后来又封IP,目前又开始封账号。。本章就讲讲封IP问题的一个解决策略——部署ADSL服务器吧。ADSL服务器是什么,我在这里就不详说了,可以百度下,总结来说,就是可以通过不断的拨号断开宽带连接,从而获取新的IP。我们老板是一个善良的人,嗯嗯,要求很明确,一是爬虫脚本能运行稳定,二是成本低(泻药。。。),...

2019-02-27 23:40:29 1990 1

原创 Opencv 将GIF格式图片转为JPG、JPEG等格式图片

1.背景最近在处理验证码破解问题,发现自己使用的百度文字识别不支持有些格式的图片,比如GIF。2.解决措施使用OpenCV的VideoCapture方法,得到图片的一帧,然后保存该帧图片。3.代码import numpy as npimport cv2 as cvgif = cv.VideoCapture('image.gif')ret, frame = gif.r...

2019-01-17 16:42:34 4637 2

原创 《让你幸福起来的赞美日记》读书笔记

《让你幸福起来的赞美日记》1.理论基础为什么赞美自己会让自己感到幸福?[1].赞美语让大脑愉悦;[2]."自我赞美"比他人表扬效果更佳;[3].无意识地使用负面语言让大脑徒增压力;[4].改变话语从而改变思考模式和整体形象; 2.如何做?【1】准备本子和笔,自由选择写日记的时间,在首页上写下“我想成为怎样的人”,并遵循赞美日记写作规范(必须使用赞美语;无法衷心赞美也没...

2019-01-11 17:42:17 478

原创 《沉思录》读书精摘——对伦理学的古典思考

1.前言《沉思录》我断断续续读了两个月,在品读的过程中,此书对我个人的价值取向有着潜移默化的深刻影响力,一句句规劝的言语也常常使我懊悔起自己已犯下的许多错误,尤其是在与他人打交道方面。最近在知乎热榜上我也看到有对个人品质思考的话题,而这本书,从世界观和方法论两方面给了我们对此话题的启迪。另外,这本书的与众不同体现在,作者玛克斯奥勒留是一位古罗马皇帝兼斯托亚派哲学家,其身份带给他认识问题的不同...

2019-01-06 13:19:45 2041

原创 反爬虫总结 | 必须掌握的6种反爬虫策略

许多网站实现了某些措施来防止爬虫来爬取它们,这些措施带有不同程度的复杂性。绕过这些措施有时是困难并富有挑战性的,有时甚至需要特定的措施。 当常常需要和这种反爬虫网站打交道时,以下6条策略应牢记在心中:1.动态设置你的user agent,比如python就提供了random库函数。以下是一些著名浏览器的user agent的总结:def get_user_agent(): ...

2018-12-28 12:34:48 5324 3

原创 Python爬虫实习笔记 | Week10 Daliy工作流水

2018/12/171.所思所想今天感冒加重,整天没心情。最伤心的是,自己的技术流还很不稳固,需要更加努力!今天主要就是在看Python Scrapy爬虫框架,感觉还是挺棒的,自己需要慢慢琢磨,学好学深。从明天开始,自己需要开始学习《MySQL技术内幕》,努力使自己成为大牛~2.工作yield今天运行cnblogSpider时,papers.json的内容一直为空,心情很是郁闷。1...

2018-12-26 09:13:32 492

原创 Ubuntu16.04 安装搜狗输入法后 键盘符号不对应的问题

1.问题背景我最近更换了ubuntu16.04的系统,安装了个人比较喜欢的搜狗输入法后,发现键盘符号和打印出来的符号不相对应,这让我很苦恼。2.问题思路安装搜狗输入法一般需要先安装fcitx,因此可按win键,在搜索框里找到 Fcitx Configuration,如下图所示:然后点击Fcitx Configuration,弹出Input Method Configuratio...

2018-12-17 11:22:44 1271 2

原创 Scrapy Problem: "cannot import name 'opentype"

我在安装并运行scrapy,发现有这样的问题:UserWarning:You do not have a working installation of the service_identity module: 'cannot import name 'opentype''. Please install it from <https://pypi.python.org/pypi...

2018-12-17 10:05:54 988

原创 Python爬虫实习笔记 | Week9 Daliy工作流水

2018/12/101.所思所想今天压力还蛮大,因为自己开始接触更多的维度,需要实现更加有难度的功能,但自己应迎难而上,有百折不挠的勇气。2.工作【1】.维度的更新;【2】.Python的爬虫模块Scrapy;【3】.核心编程之多线程编程总结;【4】.自然语言处理;【5】.XPathScrapy:crawlrunspiderstartprojectXPathsc...

2018-12-17 09:14:19 660

原创 Python爬虫实习笔记 | Week8 Daliy工作流水

2018/12/31.所思所想今天时间过得好快,自己还有很多事情没有做好,从今天起,每天解决一个公司项目中遇到的难题,这样,才能将自己所学运用于实践。2.工作暂时将《核心编程》的数据库编程部分看完,这样,之后更改时间更新的代码会游刃有余。之前的《核心编程》多线程编程以及网络编程还需要细细总结。2018/12/41.所思所想今天主要可以做自己的事情,这真的是一件很爽的事情,主要解决...

2018-12-17 09:13:20 356

原创 《Python核心编程》之数据库编程快速入门与项目实战

数据库存储是一种持久化存储,因此先从持久化存储说起吧。1.持久化存储(1).在任何应用中,都需要持久化存储。一般有3种基础的存储机制:文件、数据库系统和一些混合类型。这种混合类型包括现有现有系统上的API、ORM、文件管理器、电子表格、配置文件等。(2).文件或简单的持久化存储可以满足一些小应用的需求,而大型数据库或高数据容量的应用则需要更加成熟的数据库系统。2.数据库基本操作和SQ...

2018-12-10 15:28:45 371

原创 Python爬虫实习笔记 | Week7 Daliy工作流水

2018/11/261.所思所想今天决心把一周的任务全部完成,这样,我就能安心做好自己的事情,之前制定好的计划——11,12月学完Python和MySQL,不能有任何妥协,在12月中旬前把Python核心编程前8Chapters及流畅的Python看完,如果需要花晚上时间也在所不惜。12月中旬到下旬,看完MySQL前8chapters。路漫漫,自己需要提升的地方还有很多。2.工作【1】今天...

2018-12-05 10:37:40 699

原创 《Python核心编程》之网络编程快速入门

1.套接字(socket)含义套接字在网络编程中是通信的端口,好比电话的插孔,没有它,网络中便无法实现通信。 2.套接字家族(socket_family)套接字有多个家族,比如AF_LOCAL(基于文件), AF_INET(面向网络), AF_TIPC(支持透明的进程间通信协议), AF_NETLINK(允许使用标准的BSD套接字接口进行用户级别和内核级别代码之间的IPC)。 ...

2018-12-05 10:34:26 238

原创 Python爬虫项目实战3 | 图片文字识别(以验证码识别为例)

1.项目背景我在实习过程中,当我抓取环保平台相关数据时,常常发现有图片的情况,比如以下这种图片,所以抓取这种图片中的信息是我进行图片文字识别的动力:2.项目思路因为在某一网站中有大量这种想要抓取的图片,所以我的思路是,1.先抓取这些图片的名称和URL;2.然后再根据这些URL得到图片信息;3.然后识别信息。3.验证码图片识别示例【1】首先,我们可以找一个有很多验...

2018-11-24 12:47:11 2242

原创 Python爬虫实习笔记 | Week6 Daliy工作流水

2018/11/191.所思所想上午主要就是做自己的事情,是的,如果没有一天天的积淀,而完全依靠项目中的不足而及时弥补,很难发现自己的痛点,并自觉的去完善。下午可以说很成功,虽然没有做具体任务,但却解决了“困境”中的一环:不需要手动寻找我们需要爬取的数据,主要是url,而是根据html文档自有的特性,及所爬去模块的特征去寻找,可以说相当棒了。2.工作:【1】184 长沙市环保局 没找到...

2018-11-24 12:04:45 901

原创 Python爬虫实习笔记 | Week5 Daliy工作内容概要与反思

2018/11/121.所思所想:今天上午搞分布式爬虫项目,发现自己还是无法跑通,希望自己熟练之后能够顺利解决。下午就是把自己的想法付诸实践,就是将后台脚本进行封装,从而有利于复用,自己有一本《重构》的书,很有可能对自己这方面的想法有帮助,等《国富论》看完后,就看这本书。晚上自己的时间利用的不好,原因在于没有制定比较明确的学习目标。我觉得合理的时间是5:30下班,6:00吃完饭,6:50到...

2018-11-20 09:11:54 791

原创 Python爬虫实战项目2 | 动态网站的抓取(爬取电影网站的信息)

1.什么是动态网站?动态网站和静态网站的区别在于,网页中常常包含JS,CSS等动态效果的内容或者文件,这些内容也是网页的有机整体。但对于浏览器来说,它是如何处理这些额外的文件的呢?首先浏览器先下载html文件,然后根据需要,下载JS等额外文件,它会自动去下载它们,如果我们要爬取这些网页中的动态信息,则需要我们亲手去构造请求数据。2.如何找到这些动态效果的额外文件?实例:我们打开一个...

2018-11-15 16:09:03 2291

原创 Python爬虫实习笔记 | Week4 项目数据爬取与反思

2018/11/051.所思所想:今天我把Python爬虫实战这本书Chapter6看完,很有感触的一点是,书本中对爬虫实现的模块化设计很给我灵感,让我对项目中比较无语的函数拼接有了解决之道,内省还是比较兴奋。此外,在吃饭问题上需要认真思考下,是否应注意合理的膳食,是否应对要吃的进行好好考究。下午主要是做项目的东西,信用评价这一块很少用到技术性的手段,只写了个格式化脚本,另外了解并运用Navi...

2018-11-14 08:45:21 847

原创 Python 爬虫技巧1 | 将爬取网页中的相对路径转换为绝对路径

1.背景:在爬取网页中的过程中,我对目前爬虫项目后端脚本中拼接得到绝对路径的方法很不满意,今天很无意了解到在python3 的 urllib.parse模块对这个问题有着非常完善的解决策略,真的是上天有眼,感动!2.urllib.parse模块This module defines a standard interface to break Uniform Resource Locat...

2018-11-07 11:10:56 7620 2

原创 BeautifulSoup主要介绍与基础爬虫项目实践

强大的BeautifulSoup1.简要介绍BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。2.Beautiful Soup的安装方法1: pip install bs4方法2:在Pycharm中,可以在File -> Settings -> Project Inte...

2018-11-06 09:58:09 5338

原创 Python爬虫实战项目1 | 基础爬虫的实现(爬取100条百度百科词条)

【基础爬虫篇】本篇讲解一个比较简单的Python爬虫。这个爬虫虽然简单,但五脏俱全,大爬虫有的模块这个基础爬虫都有,只不过大爬虫做的更全面、多样。1.实现的功能:这个爬虫实现的功能为爬取百度百科中的词条信息。爬取的结果见6。2.背景知识:(1).Python语法;(2).BeautifulSoup;(3).HTML知识;                       Python...

2018-11-06 09:48:37 999

原创 Python正则之再学习与实践

昨天做网页爬取的时候,感觉自己对正则不熟悉的很,故今天再花上午时间认真整理下,不可懈怠。1.常见正则表达式符号[1].literal    匹配文本字符串的字面值literal    [2].re1|re2    匹配正则表达式re1或者re2        foo | bar[3]..        匹配任何字符(除\n)        b.b[4].^        匹配字符串的起...

2018-11-05 08:37:36 170

原创 Python爬虫实习笔记 | Week3 数据爬取和正则再学习

2018/10/291.所思所想:虽然自己的考试在即,但工作上不能有半点马虎,要认真努力,不辜负期望。中午和他们去吃饭,算是吃饭创新吧。下午爬了鸡西的网站,还有一些字段没爬出来,正则用的不熟悉,此时终于露出端倪,心情不是很好。。明天上午把正则好好看看。2.工作:[1].哈尔滨:html post请求;[2].大庆:aspx 先get后post请求;[3].鸡西: aspx 先get后p...

2018-11-05 08:35:37 388

原创 Python爬虫实习笔记 | Week2 Python正则和BeautifulSoup学习与试炼

2018/10/22 231.所思所想:今天状态一直不佳,一是因为自己晚上晚睡,睡眠不足,比较困倦;二是自己爬虫基础还不牢靠,还需要努力学习,比较惭愧;三是之前的项目,组长赵某乃不值得信赖之人物,使得自己多生烦忧,《MySQL》也上交了。。还好下午把学长写的爬虫跑通了,今天下午把代码理解一遍,然后自己跑一个城市。2.工作:(1).《Python爬虫项目实战》中的123Chapter,感觉自...

2018-10-29 08:55:15 356

转载 ubuntu mysql | 彻底卸载mysql并且重新安装[亲自实践,绝对有效]

转自:http://www.jianshu.com/p/c76b31df5d09首先删除mysql:sudo apt-get remove mysql-*然后清理残留的数据dpkg -l |grep ^rc|awk '{print $2}' |sudo xargs dpkg -P它会跳出一个对话框,你选择yes就好了然后安装mysqlsudo apt-get inst...

2018-10-25 12:24:58 226

原创 Python | 正则表达式的常见用法

正则表达式的常见用法分为两块内容,第一部分是一般具有正则的高级语言都支持的功能,第二部分讲解Python所独特具备的正则特性。 Part 1正则表达式是由普通字符(例如字符a到z)以及特殊字符(称为“元字符”)组成的文字模式。模式用于在搜索文本时要匹配一个或多个字符串。(1).常见的元字符如下:.    匹配除换行符以外的任意字符\b    匹配单词的开始和结束\d    匹...

2018-10-24 09:11:02 473

原创 Python爬虫实习笔记 | Week1 软件安装及基础知识学习

2018/10/151.所思所想:今天刘凤成学长跟我介绍了公司情况,以及我们小组的主要任务,即网络数据的爬取,决定学好学深,不辜负半年时光。下午的主要任务就是配置环境,所谓“工欲善其事,必先利其器”,但还是不能花太多时间,后面的具体工作才是根本。2.工作:(1)ubuntu系统的安装,因为之前安装过,网上教程很多,故略。(2)PyCharm的安装,既可以在官网下载安装(免费社区版),也可...

2018-10-23 09:40:58 423

转载 Python3 | 字符串格式化 format 和 % 的使用

Python3 字符串格式化字符串的格式化方法分为两种,分别为占位符(%)和format方式。占位符方式在Python2.x中用的比较广泛,随着Python3.x的使用越来越广,format方式使用的更加广泛。一 占位符(%) %d实例(Python3.0+): 1 2 3 age = 29 print("my age i...

2018-10-19 16:47:36 680

原创 Ubuntu | 为Navicat制作快捷方式

在安装软件Navicat For MySQL后,竟发现将其固定到启动栏不能作为快捷方式。后来在网上找博客学习了下,并作了补充,便是这篇博客。1.首先,我们可以为navicat软件下载一个快捷方式的图标,类似下面这种即可,没有图像类型限制:2.我们然后把该快捷方式剪切到软件安装的目录下,即和文件 start_navicat在同一目录下;3.我们在终端cd到软件安装目录下,即和star...

2018-10-19 09:31:08 1474

原创 Navicat 12| 乱码问题解决策略(完全乱码 和 新建查询窗口乱码 和 表格乱码)[带图]

[1].完全乱码问题最近在ubuntu系统上安装了Navicat,刚开始发现都是方框乱码。我在网上找了看了相关博客,大体的解决思路是:在软件安装目录下找到start_navicat文件,如图:然后 nano start_navicat ,会显示文件内容,此时将编码格式改为zh_CN,如图中所示:然后 Ctrl X ,Y, Enter 即可保存。这时重启软件,完全乱码的问题就...

2018-10-17 13:09:32 12658 8

原创 Git | 用Git进行版本控制 · 小白入门

使用Git进行版本控制以下内容主要参考《Python编程——从入门到实践》1.安装Git在linux系统中,执行命令:sudo apt-get install git在windows系统中,须访问http://msysgit.github.io/ ,并下载2.在项目中使用git2.1 创建项目首先创建一个要进行版本控制的项目,创建文件夹,并将其命名为git_practice。在这...

2018-10-16 15:21:03 149

原创 《傅雷家书》读书心得

    读罢此书,心中竟有怆然之感,不禁为傅雷夫妇最后饮恨而去感到伤痛。人生在世不过白驹过隙而已,傅雷却每天疲于工作,为自己的事业倾注大量心血,其所翻译著作对我国做学问的后者也影响深远,其英年早逝实在是中国文化界的巨大损失!    我读的是译林出版社重新编撰的家书集,在书中父亲的信和聪的信对照起来,让我更加深刻地理解了从1954-1966年父子间的心灵交流与朋友间的关怀。傅雷是一位好父亲,他告...

2018-10-13 17:08:36 10627

原创 Dev C++ | 如何设置C++11标准?【带图】

步骤:Tools -> Complier Options -> Settings -> Code Generation -> Language Standard(-std) -> ISO c++11

2018-09-17 15:30:35 11945

原创 PAT(Advanced) 1084 Broken Keyboard(20 分)

On a broken keyboard, some of the keys are worn out. So when you type some sentences, the characters corresponding to those keys will not appear on screen.Now given a string that you are supposed to...

2018-09-04 16:41:59 145

原创 PAT 1082 Read Number in Chinese(25 分)

Given an integer with no more than 9 digits, you are supposed to read it in the traditional Chinese way. Output Fu first if it is negative. For example, -123456789 is read as Fu yi Yi er Qian san Bai ...

2018-09-04 16:15:25 176

原创 PAT(Advanced) 1081 Rational Sum(20 分)

Given N rational numbers in the form numerator/denominator, you are supposed to calculate their sum.Input Specification:Each input file contains one test case. Each case starts with a positive int...

2018-09-03 15:26:15 152

原创 PAT 1097 Deduplication on a Linked List(25 分)

Given a singly linked list L with integer keys, you are supposed to remove the nodes with duplicated absolute values of the keys. That is, for each value K, only the first node of which the value or a...

2018-09-02 17:17:07 132

原创 PAT(Advanced) 1074 Reversing Linked List(25 分)

Given a constant K and a singly linked list L, you are supposed to reverse the links of every K elements on L. For example, given L being 1→2→3→4→5→6, if K=3, then you must output 3→2→1→6→5→4; if K=4,...

2018-09-02 17:06:31 107

MDBiASourceCodeMaple.zip

mongodbinaction is a nice book, so I really want to share its examples in the book.

2020-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除