5 yitian1585531

尚未进行身份认证

暂无相关简介

等级
TA的排名 14w+

数据库mysql

mysql:1.索引的结构原理,事务隔离级别:B+树的磁盘读写代价更低,因为B+树的所有非叶子节点只会存放索引信息,而真正的数据信息都只存放在叶子节点中,这样一来,每个非叶子节点存放的索引信息就更多,一次磁盘IO就可以读取更多的索引信息到内存中,可以减少磁盘IO的次数。 B+树的查询效率更加稳定,由于非叶子节点只存索引信息,而没有真正的数据信息,所以任何关键字的查找必须走一条从根结点...

2019-10-25 19:45:17

网络协议和网络编程

tcp/ip

2019-10-25 19:44:37

TCP/IP网络模型

2019-10-23 19:31:57

python-数据去重

简单去重scrapy去重scrapy-redis 去重布隆去重

2019-08-03 00:25:06

mongodb4.0在win安装的坑

试了好多种方法,还是server启动不了,bug。。。,心累,果断装回了mongodb3.6,win10安装mongodb成功后服务无法启动问题在安装时报了个错误,直接忽略了,就是现在的bug。。。我是试了删不了服务,就一直错误大神的帖子,我还没试 2...

2019-07-21 12:24:10

数据结构与算法_python

元类基本算法:基础# 冒泡: https://cuijiahua.com/blog/2017/12/algorithm_1.html它重复地走访要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端,故名冒泡排序。​de...

2019-07-16 12:29:40

scrapy之分布式爬虫

scrapy之分布式爬虫:修改该settings中的配置信息:替换scrapy调度器SCHEDULER = "scrapy_redis.scheduler.Scheduler"添加去重的classDUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"添加pipeline如果添加这行配置,每次爬取的数据也都会入到re...

2019-04-12 13:53:03

爬虫实战-requests

01.爬虫基本原理:爬虫:向网站发起请求,获取响应内容后解析并提取有用数据的程序#1、发起请求使用http库向目标站点发起请求,即发送一个RequestRequest包含:请求头、请求体等#2、获取响应内容如果服务器能正常响应,则会得到一个ResponseResponse包含:html,json,图片,视频等#3、解析内容解析html数据:正则表达式,第三方解析...

2019-03-29 14:04:36

mitmdump抓包+appium滑动解析App数据

对得到App电子书进行抓取,数据分析最受欢迎的电子书:遇到存储MongoDB时pymongo导包错误,应该是一开始建文件是时未引入包,放到包文件目录可以执行。目前先存txt文件在通过MongoDB导入,有点麻烦。mitmdump代码:from mitmproxy import ctximport json# https://blog.csdn.net/yyz_yinyua...

2019-03-25 11:54:13

keras新闻分类:多分类问题

from keras.datasets import reutersimport kerasimport numpy as npfrom keras.preprocessing.text import Tokenizerfrom keras.layers import Dense,Dropout,Activationfrom keras.models import Sequential...

2019-01-19 23:40:12

特征工程

机器学习-特征工程:1.特征抽取/特征抽取:字典特征提取:DictVectorizer实现对类别特征进行数值化、离散化 文本特征提取:CountVectorizer,TfidfVectorizer实现对文本特征进行数值化2.特征预处理:归一化/标准化...

2019-01-13 10:50:23

房天下全国658个城市新房,二手房爬取

房天下北京二手房分布式抓取:importscrapyfromscrapy.linkextractorsimportLinkExtractorfromscrapy.spidersimportCrawlSpider,Rulefromscrapy_redis.spidersimportRedisCrawlSpiderclassLianjiaSpider(Redi...

2019-01-09 23:26:40

爬取瓜子二手车

需要提供cookie才能正常返回数据 import requestsfrom lxml import etreeheaders = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.3...

2019-01-09 23:21:14

scrapy解析与案例-电影天堂全站

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。Scrapy主要包括了以下组件:引擎(Scrapy)用来处理整个系统的数据流, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重...

2019-01-08 08:52:43

淘宝商品的抓取

selenium抓取淘宝商品,需要登录页面才能访问,之前的代码不能用了,淘宝更新登录页面能识别出selenium访问,直接给你滑动验证码,搞了半天,还是不行,直接识别出selenium给反爬了,试了支付宝登录还是不行,最好用了微博的登录进去了,可以抓取了。参考代码:...

2019-01-05 20:23:22

爬小猪短租发布的房子信息

通过输入国内,国外,城市名只能抓取13页的信息。。。木鸟短租可以尝试抓取,主要里面有文章import requests,re,timefrom lxml import etree#城市列表:#https://www.cnblogs.com/114811yayi/p/7061674.html#获取每个城市的urlheaders={"User-Agent":"Mozilla/5.0...

2019-01-02 10:45:46

DCGAN+keras生成mnist

ÿan

2019-01-01 15:37:38

OpenCV人脸检测

import cv2import matplotlib.pyplot as plt#读取照片的人脸检测:img = cv2.imread('data/face.jpg',1)#读取一张图片gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)#将图片转化成灰度face_cascade = cv2.CascadeClassifier("haarcasc...

2018-12-30 19:39:06

NLP_IMDB评论情感分析

IMDB评论数据进行情感分析情感分析有很多的应用场景,比如做一个电商网站,卖家需要时刻关心用户对于商品的评论是否是正面的。再比如做一个电影的宣传和策划,电影在键盘侠们中的口碑也至关重要。互联网上关于任何一个事件或物品都有可能产生成千上万的文本评论,如何定义每一个文本的情绪是正面或是负面的,是一个很有挑战的事情。tensorflow进行情感分析kaggle上的IMDB分类:import...

2018-12-27 22:52:21

keras实战: 用lstm对IMDB情感分析

github源码#https://blog.csdn.net/u013948010/article/details/78542650from keras.preprocessing import sequencefrom keras.models import Sequentialfrom keras.layers import Dense, Embeddingfrom keras...

2018-12-23 15:21:53

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。