5 yitian1585531

尚未进行身份认证

暂无相关描述

等级
TA的排名 15w+

python-数据去重

简单去重scrapy去重scrapy-redis去重布隆去重

2019-08-03 00:25:06

mongodb4.0在win安装的坑

试了好多种方法,还是server启动不了,bug。。。,心累,果断装回了mongodb3.6,win10安装mongodb成功后服务无法启动问题在安装时报了个错误,直接忽略了,就是现在的bug。。。我是试了删不了服务,就一直错误大神的帖子,我还没试2...

2019-07-21 12:24:10

元类

元类

2019-07-16 12:29:40

scrapy之分布式爬虫

scrapy之分布式爬虫:修改该settings中的配置信息:替换scrapy调度器SCHEDULER="scrapy_redis.scheduler.Scheduler"添加去重的classDUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"添加pipeline如果添加这行配置,每次爬取的数据也都会入到re...

2019-04-12 13:53:03

爬虫实战-requests

01.爬虫基本原理:爬虫:向网站发起请求,获取响应内容后解析并提取有用数据的程序#1、发起请求使用http库向目标站点发起请求,即发送一个RequestRequest包含:请求头、请求体等#2、获取响应内容如果服务器能正常响应,则会得到一个ResponseResponse包含:html,json,图片,视频等#3、解析内容解析html数据:正则表达式,第三方解析...

2019-03-29 14:04:36

mitmdump抓包+appium滑动解析App数据

对得到App电子书进行抓取,数据分析最受欢迎的电子书:遇到存储MongoDB时pymongo导包错误,应该是一开始建文件是时未引入包,放到包文件目录可以执行。目前先存txt文件在通过MongoDB导入,有点麻烦。mitmdump代码:frommitmproxyimportctximportjson#https://blog.csdn.net/yyz_yinyua...

2019-03-25 11:54:13

keras新闻分类:多分类问题

fromkeras.datasetsimportreutersimportkerasimportnumpyasnpfromkeras.preprocessing.textimportTokenizerfromkeras.layersimportDense,Dropout,Activationfromkeras.modelsimportSequential...

2019-01-19 23:40:12

特征工程

机器学习-特征工程:1.特征抽取/特征抽取:字典特征提取:DictVectorizer实现对类别特征进行数值化、离散化 文本特征提取:CountVectorizer,TfidfVectorizer实现对文本特征进行数值化2.特征预处理:归一化/标准化...

2019-01-13 10:50:23

房天下全国658个城市新房,二手房爬取

房天下北京二手房分布式抓取:importscrapyfromscrapy.linkextractorsimportLinkExtractorfromscrapy.spidersimportCrawlSpider,Rulefromscrapy_redis.spidersimportRedisCrawlSpiderclassLianjiaSpider(Redi...

2019-01-09 23:26:40

爬取瓜子二手车

需要提供cookie才能正常返回数据 importrequestsfromlxmlimportetreeheaders={"User-Agent":"Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/71.0.3578.98Safari/537.3...

2019-01-09 23:21:14

scrapy解析与案例-电影天堂全站

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。Scrapy主要包括了以下组件:引擎(Scrapy)用来处理整个系统的数据流,触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回.可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重...

2019-01-08 08:52:43

淘宝商品的抓取

selenium抓取淘宝商品,需要登录页面才能访问,之前的代码不能用了,淘宝更新登录页面能识别出selenium访问,直接给你滑动验证码,搞了半天,还是不行,直接识别出selenium给反爬了,试了支付宝登录还是不行,最好用了微博的登录进去了,可以抓取了。参考代码:...

2019-01-05 20:23:22

爬小猪短租发布的房子信息

通过输入国内,国外,城市名只能抓取13页的信息。。。木鸟短租可以尝试抓取,主要里面有文章importrequests,re,timefromlxmlimportetree#城市列表:#https://www.cnblogs.com/114811yayi/p/7061674.html#获取每个城市的urlheaders={"User-Agent":"Mozilla/5.0...

2019-01-02 10:45:46

DCGAN+keras生成mnist

ÿan

2019-01-01 15:37:38

OpenCV人脸检测

importcv2importmatplotlib.pyplotasplt#读取照片的人脸检测:img=cv2.imread('data/face.jpg',1)#读取一张图片gray=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)#将图片转化成灰度face_cascade=cv2.CascadeClassifier("haarcasc...

2018-12-30 19:39:06

NLP_IMDB评论情感分析

IMDB评论数据进行情感分析情感分析有很多的应用场景,比如做一个电商网站,卖家需要时刻关心用户对于商品的评论是否是正面的。再比如做一个电影的宣传和策划,电影在键盘侠们中的口碑也至关重要。互联网上关于任何一个事件或物品都有可能产生成千上万的文本评论,如何定义每一个文本的情绪是正面或是负面的,是一个很有挑战的事情。tensorflow进行情感分析kaggle上的IMDB分类:import...

2018-12-27 22:52:21

keras实战: 用lstm对IMDB情感分析

github源码#https://blog.csdn.net/u013948010/article/details/78542650fromkeras.preprocessingimportsequencefromkeras.modelsimportSequentialfromkeras.layersimportDense,Embeddingfromkeras...

2018-12-23 15:21:53

强化学习

原理: 强化学习DQN应用代码讲解    

2018-12-19 18:35:54

tensorflow实战_RNN手写体字识别

原理:代码: 

2018-12-18 17:00:17

tensorflow实战_CNN对cifar-10图片识别

原理: #数据集importtensorflowastfimportcifar10_inputimportnumpyasnpimporttime#https://blog.csdn.net/zeuseign/article/details/72773342#https://blog.csdn.net/sinat_29957455/article/details/8...

2018-12-18 16:58:34

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!