自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (5)
  • 收藏
  • 关注

原创 [Python爬虫]使用Scrapy框架爬取微博

Scrapy框架爬取微博简介包Scrapy框架main.py(启动文件)setting.py(配置文件)pq.py(项目文件)话题小组模块模板图片模块用户模块视频模块(未找到视频接口)文章模块(未做)pipelines.py(存储)pic下载器items.py (调节)效果话题 效果图图片 效果图用户/找人 效果图视频 效果图简介大家好! 这是我又在一次的使用Scrapy框架进行爬取微博,这里我将微博模块化方便大家使用和理解这里我分成【找人,文章,视频,图片,话题小组】5个模块。包老规矩需要的包如下

2020-11-23 04:52:32 1310

原创 [python爬虫]爬取微信公众号

爬取微信公众号微信公众号接口使用的包需要的三个文件(Account、cookie、list)代码如下显示结果总 结微信公众号接口 目前是个功能需要一个微信号并且允许网页微信登陆,我们就是利用网页微信进行爬取公众号; 用selenium.webdriver进行 模拟登陆需要二维码扫描验证,这是唯一一个比较麻烦做自动障碍; 目前我可以想到用手机虚拟机进行登陆微信一直登陆着进行脚本扫码的操作;(自动脚本还没写)使用的包from selenium import webdriverimport tim

2020-10-26 15:17:10 1461 3

原创 python爬虫]爬取抖音推荐人或粉丝信息

Scrapy框架爬取微信公众号微信公众号接口使用的包需要的文件有3个文件(cookie,Account,list)Scrapy框架mainhotel微信公众号接口 目前一直更变我所使用的是模拟登陆保留cookie信息进行爬取,缺点是cookie是有过期的; 目前想解决这个问题只能用模拟手机一直登陆微信账号随时进行扫码验证。使用的包from selenium import webdriverimport os,json,time,random,reimport requestsfrom ..

2020-10-26 14:09:34 3437 4

原创 python自动生成验证码简单版

生成带干扰线和干扰点的验证码需要安装安装pip install -i https://pypi.douban.com/simple captcha以下是需要导入的包from captcha.image import ImageCaptchaimport numpy as npimport random as ranimport time创建一个函数#默认6个数字加字母def seccode(index=6): # 创建随机数 index = int(index)

2020-09-03 13:43:12 303

原创 python自动生成验证码

导入的包import numpy as npimport random as ranfrom PIL import Image,ImageDraw,ImageFont,ImageFilterimport time随机颜色def rndColor2(): return (ran.randint(32, 127), ran.randint(32, 127), ran.randint(32, 127))def rndColor(): return (ran.randint(64,

2020-09-03 13:23:05 391

原创 区块链的四大分支:公有链、联盟链、私有链、侧链

 根据区块链的开发对象的不同,可以将区块链分成主要的三类:公有链,私有链和联盟链。公有链对所有人开放,节点可以随意的加入;私有链支队单独的实体进行开放,如公司内部;联盟连会对一个特定的组织开放。一、公有链 公有链是完全去中心化的一种区块链,比特币就属于这种公有链,是完全去中心化的。任何人既可以进行交易也可以读取信息。任何人都可以参与链上的交易确认和共识机制。各个节点可以随时假如节点也可以随时...

2019-07-18 15:00:32 6003

原创 merkle二叉树

merkle树区块链中的每个区块都包含了产生于该区块的所有交易,且以Merkle树表示。默克尔树(又叫哈希树)是一种二叉树,由一个根节点、一组中间节点和一组叶节点组成。最下面的叶节点包含存储数据或其哈希值,每个中间节点是它的两个孩子节点内容的哈希值,根节点也是由它的两个子节点内容的哈希值组成。默克尔树的特点是,底层数据的任何变动,都会传递到其父亲节点,一直到树根。区块链中的应用...

2019-07-17 16:31:24 1293

转载 区块链技术基础

简述区块链本质上是一个对等网络(peer-to-peer)的分布式账本数据库。区块链本身其实是一串链接的数据区块,其链接 指针是采用密码学哈希算法对区块头进行处理所产生的区块头哈希值。一、基本概念1、数据区块:比特币的交易会保存在数据区块中,大约每10分钟会产生一个区块,每个数据区块一般包括区块头(Header)和区块体(Body)两部分。区块体中则主要包含交易计数和交...

2019-07-17 16:21:16 2181

转载 区块链技术分析

区块链是加密货币背后的技术,与基础语言或平台等差别较大,它本身不是新技术,类似Ajax,可以说它是一种技术架构,所以我们从架构设计的角度谈谈区块链的技术实现。无论你擅长什么编程语言,都能够参考这种设计去实现一款区块链产品。与此同时,梳理与之相关的知识图谱和体系,帮助大家系统的去学习研究。文末,推荐了一些精选内容,供大家阅读。# 区块链是什么区块链来自于比特币等加密货币的实现,目前这项技术已经...

2019-07-17 15:56:38 622

原创 爬取中国木业企业大全

使用的是urllib爬取这个里我导入的包首先我们需要看爬取的网页是以什么样的请求如何获取网页内容爬取内容信息页面存储函数开启进程池这个里我导入的包from urllib import requestfrom lxml import etreeimport random,refrom multiprocessing import Poolimport pandas as pd首先...

2019-06-18 10:27:14 390

原创 Hadoop及spark框架结构

Hadoop结构框架spark框架Spark各部件介绍Spark Core Spark生态圈的核心: 负责从HDFS, Amazon S3和HBase等持久层读取数据 在YARN和Standalone为资源管理器调度Job完成分布式计算包括两个重要部件有向无环图(DAG)的分布式并行计算框架 反应RDD之间的依赖关系 提供Cache机制来支持多次迭代计算或...

2019-03-21 15:48:36 655

原创 Spark Streaming与Storm的区别

Spark Streaming与Storm的区别Spark Streaming和Storm最大的区别在于,SparkStreaming无法实现毫秒级的流计算,而Storm可以实现毫秒级响应。Streaming无法实现毫秒级的流计算,是因为其将流数据按批处理窗口大小(通常在0.5~2秒之间)分解为一系列批处理作业,在这个过程中,会产生多个Spark作业,且每一段数据的处理都会经过Spa...

2019-03-21 15:40:20 1360

原创 SPSS Modeler 和spss statistics有什么不同

Modeler是数据挖掘statistics是统计分析Modeler是數據挖掘statistics是統計分析 两者的区别 表面的直接区别是在处理数据的量上有区别,statistics的处理数据量有限,而modeler处理数据的量可以是海量,也就是现在吵得沸沸腾腾的大数据  本质的一些区别是功能上的,modeler包括有统计分析的部分,也有机器学习和人工智能的部分 而sta...

2018-08-28 23:22:40 10105 1

原创 [Python爬虫]使用Scrapy框架爬取糗事百科

启动main.py文件说明qiushi是执行文件名from scrapy.cmdline import executeexecute('scrapy crawl qiushi'.split())在spiders文件夹下执行文件qiushi.py(自己创建)# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import...

2018-08-28 22:48:57 530

原创 [Python爬虫]使用Scrapy框架爬取淘宝

说明:这里我们只爬取了淘宝的列表页和宝贝的链接,名称,价格,销量,图片地址。如果有需求爬取内容页,自行添加启动文件mian.pytaobao_wang是我自己建的执行文件名from scrapy.cmdline import executeexecute('scrapy crawl taobao_wang'.split())在spiders下的执行文件taoba...

2018-08-28 22:38:41 4845 2

原创 [Python爬虫]使用Scrapy框架爬取图虫图片

启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl tuchong'.split())在spiders下的执行爬虫文件# -*- coding: utf-8 -*-import scrapy,jsonfrom ..items import tu_baoc #实例化函数class T...

2018-08-28 14:21:10 902 1

原创 [Python爬虫]Scrapy框架爬取网易国内新闻

启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl wangyi'.split())执行spider文件下的爬取文件# -*- coding: utf-8 -*-import scrapy,refrom ..piaot import * #导入自定义包from ..ite...

2018-08-28 14:10:50 1939

原创 [Python爬虫]Scrapy框架爬取bilibili个人信息

启动文件main.pyfrom scrapy.cmdline import executeexecute('scrapy crawl bili_gr_xx'.split())执行spider下的爬取文件# -*- coding: utf-8 -*-import scrapy,jsonfrom .. import itemsclass BiliGrXxSpider(s...

2018-08-28 00:13:28 3890

原创 [Python爬虫]爬取拉勾网存储到Mysql

说明为什么不用Scrapy框架写呢?为什么不用多进程爬取的呢?  拉钩的反爬机制不让多进程爬取,试了很多方法就算开2个进程都不行,太快了被检测出来了~~当然代理也试了,哎!!!重要的是单进程爬取不上代理也不封杀,这有点可疑!,人家请注意也可以投毒(就是假数据)导包 from piaot import * #导入的自定义包 import requests,js...

2018-08-27 23:27:17 518

原创 [python爬虫]Scrapy架构的使用

创建一个Scrapy项目我是在PyCharm的命令行执行,创建项目文件之前可以自定义文件地址创建scrapy项目文件夹(目录)scrapy startproject 文件夹名称建立项目文件时需要在scrapy项目文件夹下建立,文件夹名称:就是创建项目文件夹的名称cd 文件夹名称建立项目文件scrapy genspider 运行文件名 爬取的网页地址这样就创建成功了...

2018-08-27 11:07:51 289

原创 Scrapy架构下载及安装

Scrapy架构下载pip install scrapy下载安装成功查看:会显示版本号scrapy图片: 如果安装失败1.缺少什么文件执行下面:pip install wheel2.在windows环境,python下使用命令行安装模块pip install Twisted如果报错 Unable to find vcvarsall.bat...

2018-08-27 10:15:27 335

原创 Scrapy的架构[图解]

这就是整个Scrapy的架构图了;Scrapy机构流程过程Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》Spiders》Item PipelineScrapy Engine(引擎): 这是引擎,负责Spiders、ItemPipeline、Do...

2018-08-27 09:52:40 493

原创 [python爬虫]爬虫西刺ip代理

西刺代理网页是:http://www.xicidaili.com/nn注意: 1.西刺代理千万别用代理爬取,目前我使用66代理和西刺代理是无法爬取的西刺网页的  2.一定要加User-Agent报头1.从网页爬取到csv文件代码from urllib import request #导request包from piaot import * #导自...

2018-08-23 21:19:09 746

原创 [伪装浏览器报头]html爬虫伪装头

共99个伪装['Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36', 'Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37...

2018-08-23 20:56:17 2028

原创 [python爬虫]爬取boss直聘并且存到Mysql数据库里

导包import chardet,re,json,pymysqlfrom urllib import request,parsefrom piaot import *Mysqldef sql(sql_z): # 打开数据库连接 db = pymysql.connect("192.168.43.128", "root", "123456", "boss", ch...

2018-08-22 22:41:30 1468

原创 [python爬虫]多进程爬取喜马拉雅音乐

导包import json,osfrom piaot import *from multiprocessing import Pooldef pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输入链接地址 url="http://www.ximalaya.com/revision...

2018-08-21 00:20:35 660

原创 Python线程和进程的区别

Python进程Python线程线程与进程、谁更快 因为python锁的问题,线程进行锁竞争、切换线程,会消耗资源。所以,大胆猜测一下: 在CPU密集型任务下,多进程更快,或者说效果更好;而IO密集型,多线程能有效提高效率。CPU和IO密集型1.CPU密集型代码(各种循环处理、计数等等) 2.IO密集型代码(文件处理、网络爬虫等)判断方法:1.直接看C...

2018-08-20 19:52:48 5093

原创 [python爬虫]爬取电影天堂连接

导包import requests,re,chardet,pymysqlfrom piaot import *获取首页一共有多少个分类def shoye(): url='http://www.dytt8.net/html/gndy/dyzz/index.html' headers={ "User-Agent":pa() } req=r...

2018-08-20 16:32:57 3408

原创 [python爬虫]爬取我爱我家租房信息

导包import re,chardet,pymysqlfrom piaot import *from urllib import parse主函数,输入值ye是页数def woaijia(name,ye): # 将name值转成url编码 uname=parse.quote(name) # 判断一下是否是第1页,因为第一页和第2页格式不同 if...

2018-08-20 16:29:02 2340

原创 [python爬虫]喜马拉雅音乐

导包import json,os,time from piaot import *def pqxs(shu=1): # 循环页数 for i in range(1,shu+1): # 需要查询手动输入链接地址 url="http://www.ximalaya.com/revision/album/getTracksList?albumI...

2018-08-20 14:12:56 606

原创 [python爬虫]爬取今日头条,例子:街拍将图片存到本地文件夹里

import requests,json,os,time,re from urllib import request from piaot import *提交post,翻页,因为是瀑布流def post_pq(url):headers = { "User-Agent": pa()}# 用post方法调用a = requests.post(url, headers...

2018-08-16 23:44:20 901

原创 Python的requests使用代理代码

from piaot import * import requests url = ‘http://www.xicidaili.com’如果代理需要使用HTTP Basic Auth,可以使用下面这种格式:headers={'User-Agent':pa()} response = requests.get(url,headers=headers) print(res...

2018-08-16 23:35:45 463

原创 用Python的requests开启百度的翻译端口代码

import requests from urllib import request import json确定链接网站url=’http://fanyi.baidu.com/sug’请输入想要翻译的成语x=str(input(‘输入:’))将输入的值放到data里进行传递form={‘kw’:x}调用封装好的post函数req=requests...

2018-08-16 23:34:21 416

原创 [python爬虫]爬寻雪球网

from urllib import request,parse from piaot import * import json import pymysqlyeshu是输入的页数def sql(sql_z): # 打开数据库连接 db = pymysql.connect(“192.168.43.128”, “root”, “123456”, “xq”, ch...

2018-08-16 23:33:06 1185

原创 cookie的存储及获取

导包 from urllib import request from http import cookiejar#声明一个CookieJar对象实例来保存cookie cookie = cookiejar.CookieJar()利用urllib库中的request的HTTPCookieProcessor对象来创建cookie处理器 handler=requ...

2018-08-15 00:11:35 386

原创 人人网的用cookie进入

import json from urllib import request, parse保存cookiefrom http import cookiejar通过对象保存cookiecookie_object = cookiejar.CookieJar()handler 对应着一个操作handler = request.HTTPCookieProcessor(co...

2018-08-14 23:11:28 351

原创 有道翻译的接口

import time import random import json from piaot import post这个包是伪装和post、get的自定义包 from piaot import postdef md5_my(need_str): import hashlib# 创建md5对象md5_o = hashlib.md5()sign_bytes...

2018-08-14 22:23:10 1744

原创 [python伪装定义包]伪装包

-- coding: UTF-8 --import random from urllib import request,parse import re,os from urllib.error import HTTPError,URLError伪装浏览器def pa(): with open(‘C:/Users/黑神/Desktop/爬虫/html爬虫伪装头.txt...

2018-08-14 08:21:58 902

原创 html表头的结构

我们说一下html的结构url: //地址路径User-Agent: //网页头Host: //是本地计算机在向服务器传送的文件代码地址Accept-Language: // 是HTTP 请求里面的一个属性,用于告诉服务器浏览器可以支持什么语言。 如果网站 支持多语种的话...

2018-08-13 20:13:00 770

原创 cookie 和session 的区别

Cookie: cookie的内容主要5项包括:名字,值,过期时间,路径和域。 路径和域:构成了作用范围,关闭浏览器窗口,cookie就消失。 cookie被称为会话cookie一般不存储在硬盘上而是保存在内存里,当然这种。行为并不是规范规定的。 若设置了过期时间,浏览器就会把cookie保存到硬盘上,关闭后再次打开浏览器这些cookie 仍然有效...

2018-08-13 19:46:06 169

各省市公交&地铁经纬度坐标最新2022.6月数据

各省市公交和地铁经纬度坐标

2022-06-27

各省市公交&地铁经纬度坐标最新9月

根据坐标爬取的平台使用,例如P2P平台里面字段包含省,市,公交站名称,经纬度

2021-09-18

cshi_3.rar

未登录爬取综合信息需要填写爬取信息,未写下载图片模块

2020-09-02

自然语言处理(学习资料-1).rar

自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。统计自然语言处理运用了推测学、机率、统计的方法来解决上述,尤其是针对容易高度模糊的长串句子,当套用实际文法进行分析产生出成千上万笔可能性时所引发之难题。处理这些高度模糊句子所采用消歧的方法通常运用到语料库以及马可夫模型(Markov models)。统计自然语言处理的技术主要由同样自人工智能下与学习行为相关的子领域:机器学习及资料采掘所演进而成。

2019-08-16

小白学SAS-电子完整版

SAS(全称STATISTICAL ANALYSIS SYSTEM,简称SAS)是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件。 1976年SAS软件研究所(SAS INSTITUTE INC)成立,开始进行SAS系统的维护、开发、销售和培训工作。期间经历了许多版本,并经过多年来的完善和发展,SAS系统在国际上已被誉为统计分析的标准软件,在各个领域得到广泛应用。

2018-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除