yitian1585531-CSDN博客

原创程序员修炼之道(第2版)

关于作者这本书的两位作者分别是大卫·托马斯和安德鲁·亨特，他们不只是非常资深的程序员，还是《敏捷软件开发宣言》17位创始人中的2位。他们为敏捷软件开发建立起了价值观和基本原则。关于本书《程序员修炼之道》被一代代开发者奉为圭臬。时隔20年的新版，经过全面的重新选材、组织和编写，覆盖哲学、方法、工具、设计、解耦、并发、重构、需求、团队等务实话题的最佳实践及重大陷阱，以及易于改造、复用的架构技术。本书极具洞察力与趣味性，适合从初学者到架构师的各阶层读者潜心研读或增广见闻。核心内容需求不清，是程

2020-09-11 09:57:14 1897

原创思维的磨刀石_2020-09-10

早上思考的的一个触点:1.思维惯性;路径依赖的识别与克服2.检验一流智力的标准，就是在头脑中同时存在两种截然相反的想法时仍能保持行动能力”-菲兹杰拉德理性与感性，敏感与迟钝，善良与聪明。。。灰度认知的能力是你的聪明才智与拥有的资源，而情感感知则是你认知这个世界的方式。最成功的创始人往往拥有不同寻常的整合“能力”与“情感感知”的能力。拥有正确的感知但是没有适当足够的能力，那么也只是意味着拥有一个好的“远景”（vision），往往在执行时就非常糟糕。而拥有强大的能力却没有正确的情感...

2020-09-10 09:30:27 267

原创数据库mysql

mysql:1.索引的结构原理，事务隔离级别：B+树的磁盘读写代价更低，因为B+树的所有非叶子节点只会存放索引信息，而真正的数据信息都只存放在叶子节点中，这样一来，每个非叶子节点存放的索引信息就更多，一次磁盘IO就可以读取更多的索引信息到内存中，可以减少磁盘IO的次数。 B+树的查询效率更加稳定，由于非叶子节点只存索引信息，而没有真正的数据信息，所以任何关键字的查找必须走一条从根结点...

2019-10-25 19:45:17 168

原创网络协议和网络编程

tcp/ip

2019-10-25 19:44:37 250

原创 TCP/IP网络模型

2019-10-23 19:31:57 127

原创 python-数据去重

简单去重scrapy去重scrapy-redis 去重布隆去重

2019-08-03 00:25:06 1078

原创 mongodb4.0在win安装的坑

试了好多种方法，还是server启动不了，bug。。。，心累，果断装回了mongodb3.6，win10安装mongodb成功后服务无法启动问题在安装时报了个错误，直接忽略了，就是现在的bug。。。我是试了删不了服务，就一直错误大神的帖子，我还没试 2...

2019-07-21 12:24:10 97

原创数据结构与算法_python

元类基本算法：基础# 冒泡： https://cuijiahua.com/blog/2017/12/algorithm_1.html它重复地走访要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端，故名冒泡排序。de...

2019-07-16 12:29:40 148

原创 scrapy之分布式爬虫

scrapy之分布式爬虫：修改该settings中的配置信息：替换scrapy调度器SCHEDULER = "scrapy_redis.scheduler.Scheduler"添加去重的classDUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"添加pipeline如果添加这行配置，每次爬取的数据也都会入到re...

2019-04-12 13:53:03 184

原创爬虫实战-requests

01.爬虫基本原理：爬虫：向网站发起请求，获取响应内容后解析并提取有用数据的程序#1、发起请求使用http库向目标站点发起请求，即发送一个RequestRequest包含：请求头、请求体等#2、获取响应内容如果服务器能正常响应，则会得到一个ResponseResponse包含：html，json，图片，视频等#3、解析内容解析html数据：正则表达式，第三方解析...

2019-03-29 14:04:36 247

原创 mitmdump抓包+appium滑动解析App数据

对得到App电子书进行抓取，数据分析最受欢迎的电子书：遇到存储MongoDB时pymongo导包错误，应该是一开始建文件是时未引入包，放到包文件目录可以执行。目前先存txt文件在通过MongoDB导入，有点麻烦。mitmdump代码：from mitmproxy import ctximport json# https://blog.csdn.net/yyz_yinyua...

2019-03-25 11:54:13 834 1

原创 keras新闻分类：多分类问题

from keras.datasets import reutersimport kerasimport numpy as npfrom keras.preprocessing.text import Tokenizerfrom keras.layers import Dense,Dropout,Activationfrom keras.models import Sequential...

2019-01-19 23:40:12 1357

原创特征工程

机器学习-特征工程：1.特征抽取/特征抽取：字典特征提取：DictVectorizer实现对类别特征进行数值化、离散化文本特征提取：CountVectorizer，TfidfVectorizer实现对文本特征进行数值化2.特征预处理：归一化/标准化...

2019-01-13 10:50:23 113

原创房天下全国658个城市新房，二手房爬取

房天下北京二手房分布式抓取：import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom scrapy_redis.spiders import RedisCrawlSpiderclass LianjiaSpider(Redi...

2019-01-09 23:26:40 2100 1

原创 scrapy解析与案例-电影天堂全站

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。Scrapy主要包括了以下组件：引擎(Scrapy)用来处理整个系统的数据流, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重...

2019-01-08 08:52:43 705

原创淘宝商品的抓取

selenium抓取淘宝商品，需要登录页面才能访问，之前的代码不能用了，淘宝更新登录页面能识别出selenium访问，直接给你滑动验证码，搞了半天，还是不行，直接识别出selenium给反爬了，试了支付宝登录还是不行，最好用了微博的登录进去了，可以抓取了。参考代码：...

2019-01-05 20:23:22 996

原创爬小猪短租发布的房子信息

通过输入国内，国外，城市名只能抓取13页的信息。。。木鸟短租可以尝试抓取，主要里面有文章import requests,re,timefrom lxml import etree#城市列表：#https://www.cnblogs.com/114811yayi/p/7061674.html#获取每个城市的urlheaders={"User-Agent":"Mozilla/5.0...

2019-01-02 10:45:46 547

转载 DCGAN+keras生成mnist

ÿan

2019-01-01 15:37:38 422

原创 OpenCV人脸检测

import cv2import matplotlib.pyplot as plt#读取照片的人脸检测：img = cv2.imread('data/face.jpg',1)#读取一张图片gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)#将图片转化成灰度face_cascade = cv2.CascadeClassifier("haarcasc...

2018-12-30 19:39:06 185

原创 NLP_IMDB评论情感分析

IMDB评论数据进行情感分析情感分析有很多的应用场景，比如做一个电商网站，卖家需要时刻关心用户对于商品的评论是否是正面的。再比如做一个电影的宣传和策划，电影在键盘侠们中的口碑也至关重要。互联网上关于任何一个事件或物品都有可能产生成千上万的文本评论，如何定义每一个文本的情绪是正面或是负面的，是一个很有挑战的事情。tensorflow进行情感分析kaggle上的IMDB分类：import...

2018-12-27 22:52:21 1507

转载 keras实战：用lstm对IMDB情感分析

github源码#https://blog.csdn.net/u013948010/article/details/78542650from keras.preprocessing import sequencefrom keras.models import Sequentialfrom keras.layers import Dense, Embeddingfrom keras...

2018-12-23 15:21:53 927 1

原创强化学习

原理：强化学习DQN应用代码讲解

2018-12-19 18:35:54 122

原创 tensorflow实战_CNN对cifar-10图片识别

原理： #数据集import tensorflow as tfimport cifar10_inputimport numpy as npimport time#https://blog.csdn.net/zeuseign/article/details/72773342#https://blog.csdn.net/sinat_29957455/article/details/8...

2018-12-18 16:58:34 441

原创 tensorflow实战_神经网络（NN，CNN）

1.神经网络（neural network，缩写NN）神经网络主要由：输入层，隐藏层，输出层构成。当隐藏层只有一层时，该网络为三层神经网络，当没有隐藏层时，网络为两层的神经网络。实际中，网络输入层的每个神经元代表了一个特征，输出层个数代表了分类个数，而隐藏层层数以及隐藏层神经元是由人工设定。一个基本的三层神经网络可见下图：2.神经网络目标函数 3.神经网络优化算法 ...

2018-12-11 19:02:04 408

原创决策树

衡量标准：熵，描述数据的混乱程度，寻找随机变量不确定性的变量。信息增益：表示特征X使得类ý的不确定性减少的多少（ID3）推导 ...

2018-12-09 11:19:29 117

原创逻辑回归

逻辑回归原理：原理推导实战讲解：详解from sklearn.linear_model import LinearRegression,LogisticRegression,SGDClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import S...

2018-12-09 09:04:55 135

原创线性回归

线性回归：对波士顿房价的预测：rom sklearn.datasets import load_bostonfrom sklearn.linear_model import LinearRegression,SGDRegressor,Ridgefrom sklearn.model_selection import train_test_splitfrom sklearn.preproc...

2018-12-09 09:04:36 143

原创数据分析-numpy

创建ndarrayIn [11]: np.array([6,3,1,33])Out[11]: array([ 6, 3, 1, 33])In [12]: data=[[1,2,3,4],[23,4,5,6]]In [13]: np.array(data)Out[13]: array([[ 1, 2, 3, 4], [23, 4, 5, 6]])...

2018-12-04 16:38:11 146

原创微博评论的情感分析

#文本处理：情感分析，文本相似度，文本分类(tf-idf逆文档频率)#NLP：字符串-向量化-贝叶斯训练-测试#文本相似度：词频#文本分类：TF-IDF(词频-逆文档频率)#1.原始文本#2.分词#3.词行归一化#4.去除停用词import os,reimport numpy as npimport pandas as pdimport jieba.posseg as ...

2018-11-29 22:03:51 4946 1

原创豆瓣五个国家的最热电视剧的抓取并可视化展示

数据的抓取：存到mongodb中用pandas读取:# coding=utf-8import requests,pymongo,timeimport jsonclass DoubanSpider: def __init__(self): client = pymongo.MongoClient('localhost',port=27017) ...

2018-11-22 22:06:26 681 1

原创爬虫实战-百度地图API的调用访问地图数据

import requests,json,time#https://blog.csdn.net/suwenkun1126/article/details/78343150def getjson(palace,page_num): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KH...

2018-11-22 16:02:13 1858

原创爬虫实战-北京链家，安居客二手房的爬取

链家mobie北京二手房5w多信息抓取，存MongoDB后进行数据可视化import scrapyfrom scrapy_redis.spiders import RedisCrawlSpider# 57557套class LianjiaSpider(RedisCrawlSpider): name = 'lianjia' allowed_domains = ['m....

2018-11-22 16:00:22 2989

原创 Tor服务器实现动态Ip的切换访问豆瓣电影

需安装Tor浏览器，动态切换IPimport socket,socks,requestsfrom stem import Signalfrom stem.control import Controllerimport timefrom lxml import etreecontroller = Controller.from_port(port = 9151)controlle...

2018-11-22 15:57:47 824

原创快速笔记

高等数学 2 VIM编辑器命令：git要点：

2018-11-18 09:53:40 314

转载数据分析-pandas

案例：实战七周成为数据分析师pandas 基本使用：#创建：data=pd.Series(np.arange(10),index=list('abcdefghih'))'''a 0b 1c 2d 3e 4f 5g 6h 7i 8h 9dtype: int32''' Series...

2018-11-18 09:31:32 198

原创爬虫实战-微博主页内容，评论

微博可用selenium获取页面，分析页面数据，提取数据，就是有点慢；可以对手机端api数据提取：scrapy链接可以通过粉丝列表，关注列表取出微博id后依次循环抓取全站，反爬需cookies访问，构建cookies池反反爬，代理ip等反爬手段，单页分析：import re,jsonimport requestsimport pandas # 没接触pandas之前，一条一条的...

2018-11-17 11:35:30 884

原创抓取空气质量指数AQI_PM2.5历史数据，可视化展示

抓取空气质量指数AQI_PM2.5历史数据，可视化展示：url=‘http://www.tianqihoubao.com/aqi/hangzhou-201810.html’杭州的空气质量数据，可以在主页抓取全国的pm2.5数据展示import time,requests,reimport pandas as pdfrom lxml import etree#https://blog...

2018-11-16 16:00:12 9077 6

原创爬虫实战-图虫网高清图片

动态爬取图虫网，保持图片到本地#scrapy https://www.cnblogs.com/pantom0122/p/9540299.html#https://blog.csdn.net/majiexiong/article/details/82108212import requestsimport json,osimport lxmlfrom lxml import etr...

2018-11-16 15:57:09 1462 1

原创爬虫实战-豆瓣电影Top250

爬豆瓣电影Top250电影信息，电影简介，热门评论。。。from lxml import etreeimport requests,re,timeclass douBan(): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) Appl...

2018-11-15 13:56:05 648

原创 web—WSGI接口

网页开发web服务器加载静态HTML文件，py文件在浏览器中本地访问。from socket import *from multiprocessing import Processfrom time import sleepimport re,sys# 设置静态文件根目录HTML_ROOT_DIR = "./html"#动态文件目录WSGI_PYTHON_DIR = "....

2018-11-12 23:21:28 183

空空如也

空空如也