自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 csv导入excel乱码问题与身份证号成科学计算表达式问题

最近用python写的爬虫程序输出的CSV文件(编码是uicode和uft-8),只要是双击直接用office打开就出现乱码,如下图一有很多网友都有能解决乱码问题。但是还会出现第二个很关键的问题那就是超过11位以上的数字在excel中均显示为科学计数法,如果转换为线文本或小数点后0个数字,均造成后几位全部就变为0,造成数字错误。这种情况 多出现在有有身份证号码的情况。下面是解决办法:第一步:...

2020-02-17 11:00:11 2336

原创 git 入坑

SSL certificate problem: unable to get local issuer certificate

2023-12-15 12:08:54 31

原创 【无标题】

test_last.py:8: DeprecationWarning: firefox_profile has been deprecated, please use an Options objectfp = webdriver.FirefoxProfile()Traceback (most recent call last):File “test_last.py”, line 23, in driver = webdriver.Firefox(options=Firefoxoptions, fi

2023-07-25 08:08:02 513

转载 Scrapy笔记---- 动态配置爬虫(转载)

有很多时候我们需要从多个网站爬取所需要的数据,比如我们想爬取多个网站的新闻,将其存储到数据库同一个表中。我们是不是要对每个网站都得去定义一个Spider类呢? 其实不需要,我们可以通过维护一个规则配置表或者一个规则配置文件来动态增加或修改爬取规则,然后程序代码不需要更改就能实现多个网站爬取。要这样做,我们就不能再使用前面的scrapy crawl test这种命令了,我们需要使用编程的方式运行S...

2020-04-10 11:13:16 364

原创 如何在windows下定时执行scrapy爬虫程序,实现定时爬取数据

准备工作:1、写一个run.bat批处理文件,最好放在与爬虫程序同一个目录如:@echo offrem 这里的D:和D:\Python 是Python文件所在的盘及路径D:cd D:\learn\ScrapyLearn\douban\douban\spiders scrapy crawl douban_spiderrem pauserem 可以执行多个任务scrapy cra...

2020-04-09 12:34:01 1537

原创 elasticsearch 出现“java.lang.OutOfMemoryError: Java heap space”

elasticsearch 出现“java.lang.OutOfMemoryError: Java heap space”  默认情况下,Elasticsearch JVM默认使用最小和最大大小为2 GB的堆。迁移到生产环境时,配置堆大小以确保Elasticsearch堆足够的大很重要的。Elasticsearch将通过Xms(最小堆大小)和Xmx(最大堆大小)设置分配jvm.options中...

2020-04-07 17:39:25 3252

原创 scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题

def parse(self, response):print(’========== parse ==========’)print(response.text[:100]) body = response.body encodings = ['utf-8', 'gbk', 'gb2312', 'iso-8859-1', 'latin1'] for encoding ...

2020-04-01 22:54:25 527

原创 (Scrapy)AttributeError: 'str' object has no attribute 'iter'

调试scrapy crawlspider项目时出现报错:AttributeError: ‘str’ object has no attribute 'iter’源码是:next_page = LinkExtractor(restrict_xpaths='//body/a/@href')度了一下:参考链接:https://stackoverflow.com/questions/29081...

2020-03-05 12:34:49 1182 1

原创 Gerapy 安装配置用法

Gerapy 使用Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发.Greapy安装1.gerapy下载pip install gerapygerapy 查看是否安装成功2.初始化...

2020-03-02 08:52:55 1306

原创 2020-02-23

曾国藩说过:“不自是,不失信,不贪财,有此三省,自然事事皆成。”

2020-02-23 07:46:13 62

原创 Windows下ElasticSearch安装中的问题解决

1.安装步骤下载匹配操作系统的版本(x86或x64)的java SDK(JDK)执行安装程序。下载elasticsearch-rtf(github下最新的版本)2.安装问题1:启动ElasticSearch服务提示找不到JDK或JRE,提示Could not find any executable java binary. Please install java in your PAT...

2020-02-21 10:18:52 863 1

原创 scrapy crawlspider难题,翻页链接是JS实现的,无法在rules中定义获取,如何实现翻页???

问题:翻页链接是JS实现的,无法在rules中定义获取,通过网页分析需要爬取的页面翻页规律“index_数字.html”,度了很多,均未找到理想的答案,尤其是如何结束???救急思路:只能通过修改start_urls 重载parse_start_url来预先生成urls的所有请求,再传给rules37 #重载该方法实现JS翻页无法获取翻页链接的问题 ,通过修改start_urls发出请求实...

2020-02-20 11:17:49 556 1

原创 github上进行精准搜索技巧

在github上进行精准搜索技巧:in:name xxx // 按照项目名搜索in:readme xxx // 按照README搜索in:description xxx // 按照description搜索同时可增加筛选条件stars:>xxx // stars数大于xxxforks:>3000 // forks数大于xxxlanguage:xxx // 编程语言是xxx...

2020-02-19 07:29:06 515

原创 学习python-day03-10---转自Django+Xadmin打造上线标准的在线教育平台

第三百八十二节,Django+Xadmin打造上线标准的在线教育平台—xadmin进阶1、后台管理员详情页面布局后台管理员详情页面,区块是可以拖动的,而且分为了很多个区块这个页面的布局在xadmin/plugins/auth.py里的UserAdmin类,修改这个类里的get_form_layout函数,就可以修改布局def get_form_layout(self): if s...

2020-02-18 11:08:11 173

原创 学习python-day03-09---转自Django+Xadmin打造上线标准的在线教育平台

第三百八十一节,Django+Xadmin打造上线标准的在线教育平台—xadmin全局配置1、xadmin主题设置要使用xadmin主题,需要在一个app下的adminx.py后台注册文件里,写一个主题管理器绑定xadmin的views.BaseAdminView注册一般我们会在用户相关的app下的adminx.py后台注册文件里写#!/usr/bin/env python# -*- c...

2020-02-18 11:05:15 133

原创 学习python-day03-08---转自Django+Xadmin打造上线标准的在线教育平台

第三百八十节,Django+Xadmin打造上线标准的在线教育平台—将所有app下的models数据库表注册到xadmin后台管理将一个app下的models数据库表注册到xadmin后台管理重点:xadmin的数据表注册,是到app下查找的adminx文件,所以我们必须在app下创建一个adminx.py文件,所有关于数据表注册到xadmin后台的代码都是写在adminx.py文件里ad...

2020-02-18 11:03:00 153

原创 学习python-day03-07---转自Django+Xadmin打造上线标准的在线教育平台

第三百七十九节,Django+Xadmin打造上线标准的在线教育平台—xadmin的安装xadmin介绍xadmin是基于Django的admin开发的更完善的后台管理系统,页面基于Bootstrap3开发的xadmin安装下载地址:https://github.com/sshwsfc/xadmin下载后解压下载包,cd 进入解压目录执行命令,python setup.py instal...

2020-02-18 10:59:01 140

原创 学习python-day03-06---转自Django+Xadmin打造上线标准的在线教育平台

第三百七十八节,Django+Xadmin打造上线标准的在线教育平台—django自带的admin后台管理介绍配置django的admin数据库管理后台首先urls.py配置数据库后台路由映射,一般这个路由映射在生成项目的时候已经生成了from django.conf.urls import urlfrom django.contrib import adminfrom app1 imp...

2020-02-18 10:55:29 94

原创 学习python-day03-05---转自Django+Xadmin打造上线标准的在线教育平台

第三百七十七节,Django+Xadmin打造上线标准的在线教育平台—apps目录建立,以及数据表生成apps目录建立我们创建一个apps目录,将所有的app放到apps目录里去,这样方便管理,也使目录更清楚,不管有多少app都统一到apps目录里去设置python可以识别apps目录路径注意:我们在创建app后,python会自动到paa文件夹中找到相应的文件运行,当我们移动app到a...

2020-02-18 10:52:53 131

原创 学习python-day03-04---转自Django+Xadmin打造上线标准的在线教育平台

第三百七十六节,Django+Xadmin打造上线标准的在线教育平台—创建用户操作app,在models.py文件生成5张表,用户咨询表、课程评论表、用户收藏表、用户消息表、用户学习表创建名称为app_operation的用户操作APP,写数据库操作文件models.pymodels.py文件#!/usr/bin/env python# -*- coding:utf-8 -*-from...

2020-02-18 10:50:46 115

原创 学习python-day03-03---转自Django+Xadmin打造上线标准的在线教育平台

第三百七十五节,Django+Xadmin打造上线标准的在线教育平台—创建课程机构app,在models.py文件生成3张表,城市表、课程机构表、讲师表创建名称为app_organization的课程机构APP,写数据库操作文件models.pymodels.py文件#!/usr/bin/env python# -*- coding:utf-8 -*-from __future__ i...

2020-02-18 10:49:37 111

原创 学习python-day03-02---转自Django+Xadmin打造上线标准的在线教育平台

第三百七十四节,Django+Xadmin打造上线标准的在线教育平台—创建课程app,在models.py文件生成4张表,课程表、课程章节表、课程视频表、课程资源表创建名称为app_courses的课程APP,写数据库操作文件models.pymodels.py文件#!/usr/bin/env python# -*- coding:utf-8 -*-from __future__ im...

2020-02-18 10:45:07 113

原创 学习python-day03-01---转自Django+Xadmin打造上线标准的在线教育平台

第三百七十三节,Django+Xadmin打造上线标准的在线教育平台—创建用户app,在models.py文件生成3张表,用户表、验证码表、轮播图表创建Django项目项目settings.py配置配置数据库"""Django settings for MxOnline project.Generated by 'django-admin startproject' usin...

2020-02-18 10:41:43 161

原创 学习python-day02-28---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百七十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:https://github.com/scrapy/scrapyd建议安装pip3 install scrapyd首先安装scrapyd模块,安装后在Python的安装目录下的Scripts文件...

2020-02-18 10:33:14 209

原创 学习python-day02-27---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门我的搜素简单实现原理我们可以用js来实现,首先用js获取到输入的搜索词设置一个数组里存放搜素词,判断搜索词在数组里是否存在如果存在删除原来的词,重新将新词放在数组最前面如果不存在直接将新词放在数组最前面即可,然后循环数组显示结果即可热门搜索实现...

2020-02-18 10:26:11 142

原创 学习python-day02-26---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百七十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页逻辑处理函数计算搜索耗时  在开始搜索前:start_time = datetime.now()获取当前时间  在搜索结束后:end_time = datetime.now()获取当前时间  last_time = (end_time-start_time...

2020-02-18 10:23:31 181

原创 学习python-day02-25---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能Django实现搜索功能1、在Django配置搜索结果页的路由映射"""pachong URL ConfigurationThe `urlpatterns` list routes URLs to views. For more information pl...

2020-02-18 10:21:46 178

原创 学习python-day02-24---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—用Django实现搜索的自动补全功能elasticsearch(搜索引擎)提供了自动补全接口官方说明:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-suggesters-completion.html1、创建搜索自动补全字段su...

2020-02-18 10:19:21 313

原创 学习python-day02-23---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch(搜索引擎)操作,如:增、删、改、查等操作都是用的elasticsearch的语言命令,就像sql命令一样,当然elasticsearch官方也提供了一个python操作elasticsearch(搜索...

2020-02-18 10:15:50 174

原创 学习python-day02-22---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询bool查询说明filter:[],字段的过滤,不参与打分must:[],如果有多个查询,都必须满足【并且】should:[],如果有多个查询,满足一个或者多个都匹配【或者】must_not:[],相反查询词一个都不满足的就匹配【取反,非】# bool查询# 老...

2020-02-18 10:02:14 121

原创 学习python-day02-21---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询1、elasticsearch(搜索引擎)的查询elasticsearch是功能非常强大的搜索引擎,使用它的目的就是为了快速的查询到需要的数据查询分类:  基本查询:使用elasticsearch内置的查询条件进行查询  组合查询:把多个查询条件组合在一起进行复合查询  ...

2020-02-18 09:58:05 96

原创 学习python-day02-20---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理1、映射(mapping)介绍映射:创建索引的时候,可以预先定义字段的类型以及相关属性elasticsearch会根据json源数据的基础类型猜测你想要的字段映射,将输入的数据转换成可搜索的索引项,mapping就是我们自己定义的字段数据类型,同时告诉elasti...

2020-02-18 09:53:43 90

原创 学习python-day02-19---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mget和bulk批量操作注意:前面讲到的各种操作都是一次http请求操作一条数据,如果想要操作多条数据就会产生多次请求,所以就有了mget和bulk批量操作,mget和bulk批量操作是一次请求可以操作多条数据1、mget批量操作(查询)批量操作(同一个索引同一个表里的批量查询)说...

2020-02-18 09:51:45 81

原创 学习python-day02-18---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查elasticsearch(搜索引擎)基本的索引和文档CRUD操作也就是基本的索引和文档、增、删、改、查、操作注意:以下操作都是在kibana里操作的elasticsearch(搜索引擎)都是基于http方法来操作的GET 请求指定的页面信...

2020-02-18 09:48:19 128

原创 学习python-day02-17---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引倒排索引倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文...

2020-02-18 09:42:19 103

原创 学习python-day02-16---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念elasticsearch的基本概念1、集群:一个或者多个节点组织在一起2、节点:一个节点是集群中的一个服务器,由一个名字来标识,默认是一个随机的漫微角色的名字3、分片:将索引(相当于数据库)划分为多份的能力,允许水平分割和扩展,对个分片响应请求,提供性能和吞吐量3、副本:创...

2020-02-18 09:40:02 144

原创 学习python-day02-15---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百五十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装elasticsearch(搜索引擎)介绍ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二最...

2020-02-18 09:37:26 213

原创 学习python-day02-14---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速...

2020-02-18 09:33:39 118

原创 学习python-day02-13---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百五十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开源模块scrapy-redis的依赖Python 2.7, 3.4 or 3.5,Python支持版本Redis >= 2.8,Redis版本Scrapy >= 1.1,Scrap...

2020-02-18 09:30:59 147

原创 学习python-day02-12---转自Python分布式爬虫打造搜索引擎Scrapy精讲

第三百五十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点1、分布式爬虫原理2、分布式爬虫优点3、分布式爬虫需要解决的问题...

2020-02-18 09:28:54 111

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除