自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 Windows 10 Office文件图标异常处理(Word | Excel | Powerpoint图标白色、右键新建找不到文件)

1.我们经常会遇到office重新安装完成后,或者换了版本后,前期做好的excel、ppt、word文件可以正常打开,但图标显示为白色或者异常(备注:如果不能正常打开,则是office程序没有关联到,只需要选中需打开文件,右键 更改 里面找到office相当应的程序双击,图标就会恢复正常,如果关联成功后仍是白色图标,则看下文)2.重装安装好office后,在桌面新建里面找不到excel、ppt、...

2019-07-17 16:12:36 7019 5

原创 Django根据数据库表反向生成models

1. 创建Django项目# 创建工程django-admin.py startproject movie# 创建apppython manage.py startapp App# 在settings.py里面添加AppINSTALLED_APPS = ( 'django.contrib.admin', 'django.contrib.auth', 'dja...

2019-02-15 13:14:42 774

原创 django解决跨域请求的问题

django解决跨域请求的问题1.安装django-cors-headerspip3 install django-cors-headers2.配置settings.py文件INSTALLED_APPS = [ 'corsheaders', ] MIDDLEWARE = ( 'corsheaders.middleware.CorsMiddleware', '...

2019-02-12 16:46:28 300

原创 ubuntu 18.04 Nginx源码安装

Nginx源码安装一, 首先需安装nginx依赖库1.安装gcc g++的依赖库apt-get install build-essentialapt-get install libtool2.安装pcre依赖库sudo apt-get updatesudo apt-get install libpcre3 libpcre3-dev3.安装zlib依赖库apt-get inst...

2019-01-22 17:04:17 3269 1

原创 使用Selenium添加访问cookie, 实现淘宝自动登录

淘宝在不登录的情况下, 许多信息没有显示, 而在登录滑块验证时, selenium模拟会被检测出来, 所以我们利用手机扫码登录, 保存cookies并实现之后登录访问.登录并保存cookieimport jsonfrom selenium import webdriverfrom selenium.webdriver.firefox.options import Optionsopti...

2019-01-17 16:37:12 6638 8

原创 python 更换pip安装源

pip源, 默认从国外源安装, 安装速度比较慢. 现在我们指定国内源安装源: 阿里源、豆瓣源.Ubuntu源,(1)指令配置源 pip3 install xlrd -i https://pypi.tuna.tsinghua.edu.cn/simple/(2)永久配置 pip install bs4windows 1、打开文件资源管理器 2、地址栏输入 %a...

2019-01-07 10:22:27 569

原创 一个实现scrapy框架部分功能的爬虫(实现了,下载限流器,随机ip代理, 下载去重等功能)

这是一个具备可扩展功能的爬虫!!!import osimport requestsfrom fake_useragent import UserAgentfrom retrying import retryimport hashlib # 信息摘要 md5import queue # 队列import re # 正则表达式from urllib import robotpa...

2019-01-06 16:54:18 314

原创 [爬虫]爬取猫眼电影票房信息(信息字体加密)

猫眼电影里面的实时票房, 票房占比等信息是字体加密的, 所以要爬取这些信息需要解决字体加密这个问题. 下面介绍一种解密字体的办法.在橙色方块标注的地方我们可以看出字体是加密的, 我们就以这部分字体为例进行解析.首先我面要找到加密的字体, 查看网页源代码, 搜索font-family, 找到base64后面的字体字符串, 下图中方框中的部分.创建一个font_cat.py的文件, 并将这部分...

2019-01-06 16:38:31 2647

转载 Numpy包函数的使用(史上最全)

1.NumPy  NumPy是高性能科学计算和数据分析的基础包。部分功能如下:ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及傅里叶变换功能。用于集成C、C++、Fortran等语言编写的代码的工具。  首先...

2019-01-05 13:14:40 693 2

转载 经典SQL语句大全

SQL语句参考,包含Access、MySQL 以及 SQL Server基础创建数据库CREATE DATABASE database-name删除数据库drop database dbname备份sql server1, 创建备份数据的 device USE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssq...

2018-12-28 15:56:03 175

原创 python运行出现 ModuleNotFoundError: No module named 'xxx'问题

运行代码时出现如下错误:thread_资源竞争.py Etest setup failedfile D:\python\Spider\spider复习\Python多线程\thread_资源竞争.py, line 10 def test1(num):E fixture 'num' not found> available fixtures: cache,...

2018-12-25 13:18:19 15988 1

转载 Flask 操作数据库

查询相关语句:@stu.route('/selectstu/')def select_stu(): # 查询年龄小于16岁的学生的信息 # 第一种查询的方式 stus = Student.query.filter(Student.s_age < 16) # 第二种查询的方式 # __lt__表示小于 __le__表示小于等于 stus...

2018-12-25 09:04:52 158

原创 解析js代码实现爬取页面所有的ip地址[面试题]

该网页只有在刷新时, 才能显示后面的页面, 且页面会打开新的页面, 跳转时需要的cookies, 由第一个页面的cookies动态生成.下面是具体代码:import requestsimport reimport lxml.htmlclass ExamSpider(object): def __init__(self): self.base_url = 'ht...

2018-12-24 22:09:23 333

原创 用mongodb数据库, 对爬取的页面进行监控(mongo_cache)和数据保存

由于在爬虫时, 可因为各种原因导致爬虫在爬取页面的时候从中间断开连接, 当再次爬取的时候不知道从什么地方开始, 这里利用mongodb封装一个类, 用来监控哪些网页已经爬取过, 哪些没有爬取, 为以后监控提供方便.创建一个mongo_cache.py的文件, 具体代码如下import pickleimport zlibfrom datetime import datetime, timed...

2018-12-19 13:20:39 301

原创 selenium模拟 + 鼠标滚动爬取魔方公寓租房评论信息

因为魔方公寓的评论信息是在一个单独的div中, 需要模拟鼠标滚动才能拿到评论信息, 并且每次只能拿到在页面显示的内容, 页面没有显示的取出来的是空. 因此只能在每次滚动后取值保存.代码:import timeimport win32api, win32confrom win32api import GetSystemMetricsfrom selenium.webdriver.commo...

2018-12-13 19:53:35 385 1

原创 用selenium以外的方法实现爬取海报时尚网热门图片

废话不多说, 直接上代码! ! !import jsonimport osimport timefrom urllib.request import urlretrieveimport requestsimport datetimeimport urllib.parseimport re"""接口连接 http://pic.haibao.com/ajax/image:getH...

2018-12-13 14:48:16 233

原创 ubuntu18.04 安装MySQL不出现设置帐户, 密码

最近在ubuntu18.04下安装mysql过程中, 遇到没有象ubuntu16.04下设置账户密码的问题, 但登录的时候又需要输入密码登录, 在网上搜了半天终于找到终于解决了, 在这里说一下流程:在安装过程中实际是有默认账户密码的…但是默认账户密码比较复杂, 修改流程如下:1, 查看默认的账户密码sudo vi /etc/mysql/debian.cnf找到了,用户名:debian-s...

2018-12-09 18:32:54 422

原创 安装 pyspark 出现 "python setup.py egg_info" failed with error code 1 in C:\Users\ZHANGZ~1\...

在安装pyspark时执行pip install pyspark后报如下错误:File “d:\python36\lib\site-packages\setuptools\dist.py”, line 429, in fetch_build_eggreturn cmd.easy_install(req)File “d:\python36\lib\site-packages\setuptool...

2018-12-07 10:57:16 2324

转载 图解十大经典机器学习算法

弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分。以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术。下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力。图1 智能手机上的相关应用传统的机器学习算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。这篇文章将对常用算...

2018-12-06 16:32:52 178

转载 机器学习10大经典算法

1、C4.5机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。决策树学习也是数据挖...

2018-12-06 16:28:41 525

转载 TCP/IP 协议

转自 https://blog.csdn.net/yulyu/article/details/69062288 1.什么是 TCP/IP?TCP/IP 是一类协议系统,它是用于网络通信的一套协议集合.传统上来说 TCP/IP 被认为是一个四层协议1) 网络接口层:主要是指物理层次的一些接口,比如电缆等.2) 网络层:提供...

2018-12-06 09:19:54 155

转载 Python中的单例模式的几种实现方式的及优化

单例模式单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整个系统中,某个类只能出现一个实例时,单例对象就能派上用场。比如,某个服务器程序的配置信息存放在一个文件中,客户端通过一个 AppConfig 的类来读取配置文件的信息。如果在程序运行期间,有很多地方都需要使用配置文件的内容,也就是说,很多地方都需要创建 AppConfig 对象的实例,这就导致系统中存在多个 AppConfig 的实例对象,而这样会严重浪费内存资源

2018-12-02 17:05:13 133

原创 使用scrapy框架,用模拟浏览器的方法爬取京东上面膜信息,并存入mysql,sqlite,mongodb数据库

因为京东的页面是由JavaScript动态加载的所以使用模拟浏览器的方法进行爬取,具体代码如下 :spider.py# -*- coding: utf-8 -*-import scrapyfrom scrapy import Requestfrom jdpro.items import jdproItemnum = 0class MaskSpider(scrapy.Spider):...

2018-12-02 13:38:53 263

原创 Python实现冒泡排序,选择排序,快速排序

冒泡排序原理 : 冒泡排序(Bubble Sort)也是一种简单直观的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。def bubble_sort(lst): # 外层循环控制比较多少轮 for i in range(1, len(lst)): ...

2018-12-01 11:37:56 336

原创 使用scrapy框架+模拟浏览器方法实现爬取智联的职位信息

由于智联的页面是由js动态加载的,一般的方法只能得到js加载前的页面,为了得到加载过的页面需要通过模拟浏览器来拿到完整的页面.下面的代码只是简单的实现,爬取智联页面的部分功能,其他根据需要自己实现中间件(middleswares.py)代码:from scrapy.http import HtmlResponsefrom selenium import webdriverimport ...

2018-11-29 17:52:55 707

原创 Scrapy从json文件加载解析规则,使一个爬虫重复使用.并进行数据清洗

我们在scrapy框架做爬虫的时候,对于不同规则的页面,需要写不同的爬虫文件,在这种情况下,部分代码需要重复书写很不方便,对于这种问题.我们可以通过json文件加载解析规则的方法,来解决这样个问题.同时在爬取到的数据中也有一些数据是我们不需要的,同时数据的类型/格式也可能不是我们需要的.需要对数据进行清洗整合才能达到我们的需求,并保存.1.创建一个json文件,并把页面的解析规则写入json文...

2018-11-28 17:35:17 1275

原创 三种scrapy模拟登陆方式

方法一:直接POST数据(比如需要登陆的账户信息)只要是需要提供岗位数据的,就可以用这种方法下面示例后的数据是账户密码:import scrapyclass Renren1Spider(scrapy.Spider): name = "renren1" allowed_domains = ["renren.com"] def start_requests(self...

2018-11-23 17:21:22 284

原创 Git常用命令总结

Git是一个开源的分布式版本控制系统,在日常的工作中经常使用.在使用Git的过程,由于命令较多,有时一些命令使用个时候想不起来,就总结了一些常用的命令,方便用时查看.

2018-11-22 14:24:50 124

转载 无法推送一些引用到 '[email protected]:youname/xxxx.git' 提示:更新被拒绝,因为远程仓库包含您本地尚不存在的提交。这通常是因为另外 提示:一个仓库已向该引用进

摘要:当linux系统下git发生如上向远程仓库push出错时,解决办法1.首先强制使用$git push -u origin +master​如果仍然发生如下错误error:srcrefspecmaster​doesnotmatchany.error:无法推送一些引用到‘[email protected]:xxx.git’2.需先同步远程仓库文件到本地,再提交一次即可$git pull信息如下⚠️no...

2018-11-21 15:32:33 8993

转载 并发和并行的区别?

做并发编程之前,必须首先理解什么是并发,什么是并行,什么是并发编程,什么是并行编程。并发(concurrency)和并行(parallellism)是:解释一:并行是指两个或者多个事件在同一时刻发生;而并发是指两个或多个事件在同一时间间隔发生。解释二:并行是在不同实体上的多个事件,并发是在同一实体上的多个事件。解释三:在一台处理器上“同时”处理多个任务,在多台处理器上同时处理多个任务。如h...

2018-11-20 16:52:33 101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除