自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 豆瓣的影评爬取

豆瓣的影评爬取相比较于上一篇新闻类数据的爬取,这篇文章多了一些关于登录账号的处理有时登陆网站需要进行头部伪装, 比如增加头部, 还有模拟服务器登陆 * header: 我们可以加一个header(一些反爬虫的机制),设置置代理,有些网站是反爬虫,所以要将其伪装成浏览器 * Format:是登录的账号和密码以及登录失败是重定向的网址,需要注意的是登录账号和密码的step1:我们先看一...

2018-04-11 17:32:42 1908

原创 新闻数据抓取

新闻数据抓取这篇文章,主要是记录自己学习爬虫过程。整篇部分会分为2篇文章,1,爬取http的网页(新闻网站):获取各类主题的新闻的内容,eg:金融,体育,娱乐等等。2,爬取https的网页(豆瓣):获取豆瓣电影的影评。从简到难,所以我们先http从爬取第一部分:爬虫基础1,简单的知识的介绍先简单看一下http和https两者的概念的区别参考...

2018-04-11 17:27:33 8747 1

原创 盐城汽车上牌量预测

盐城汽车上牌量预测import所需要的包进来#coding:utf-8import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inline第一部分:查看数据train和test_A的数据样式能够看到train中有4个属性特征,date day_of_week...

2018-04-11 17:20:42 1478 2

原创 初学latex的文献引用\bibliographystyle使用一些状况

接到上级指示昨天奋战到半夜,latex的一些情况,1,首先文献引用      主要是出现这个错误! Package natbib Error: Bibliography not compatible with author-year citations.(natbib) Press to continue in numerical citation style.S

2015-02-03 16:28:30 85117 3

原创 c++读取.raw格式图像

第一次接触用c++进行图像处理,首先就是对于裸格式.RAW的图片进行处理,在网上也是找了很久,但是都没有合适的,知识搜集到一些信息,就是说.raw是8位二进,,很好处理,然后就没有搜集到更多的信息了,首先申明自己是刚入手c++,有些c语言的基础,很是羞愧与自己都研究生了,编码竟然还那么弱,没办法啊,被大神鄙视心里还是有点不舒服的,首先之前完全不了解图片的格式,研究了一下.bmp的格式之后才联想

2014-11-03 22:22:30 20327 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除