• 等级
  • 177250 访问
  • 79 原创
  • 1 转发
  • 25137 排名
  • 40 评论
  • 29 获赞

(Gitchat备份)微博爬虫,单机每日千万级的数据 && 吐血整理的微博爬虫总结

前言 此前我发布了一篇博客微博爬虫,每日百万级数据,并且把代码开源在了Github上,然后就有很多人联系我,也有公众号转载了这篇文章。 不过对于微博爬虫,我还是心虚的,因为没有解决了账号池的问题,所以每天百万级的数据,是有水分的。单单爬好友关系,这种简单数据可以达到百万级,如果爬关键词搜索的微博,或者一个人的全部微博,是达不到百万级数据这个量的。 不过既然已经埋了坑,就要填啊。所以自从写了那...

2018-07-27 17:54:57

Ubuntu空间不足清理

前言 Ubuntu 报错 No space left on device 说明磁盘空间占满了,所以就需要找到是什么文件占用了磁盘,并且删除它. 方案 1 首先通过命令 df -a 显示目前在Linux系统上的文件系统的磁盘使用情况统计 可以看到是/目录占用情况最大 2 进入这个目录执行 du -sh * 会显示指定的目录或文件所占用的磁盘空间. -s表示总计,-h是以K,M...

2018-07-04 11:22:46

社交数据抓取系统

系统简介 根据关键词对主流舆情网站进行数据抓取. 网站包括:weibo,facebook,twitter,YouTube 用途 当然是对这些主流网站做舆情监控和分析啊!!! 比如你想了解工商银行的服务态度,直接去抓取提到了工商银行的微博语料(文本,图片,视频),然后基于这些语料做情感分析即可. 在线体验 演示视频 抓取要求 weibo/facebook/t...

2018-05-21 11:09:14

千万级微博语料数据整理

数据说明 整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富 数据最终是一个json文件,每一行都是一个小的json { "_id": { "$oid": "5a6c0686ac7eef81e560e719" }, "reposts_num2": "60436093", "reposts_num1": "0&qu

2018-01-27 14:53:55

微博爬虫,每日百万级数据

前言新浪微博绝对是一个巨大的,实时的语料库!对微博数据爬取和分析,有重大的意义。 比如,现在要调查工商银行的服务态度,就可以抓取微博内容中包含工商银行的微博语料,然后做情感分析,就可以得到用户对银行服务的满意程度。再比如,最近火热的明星鹿晗,可以抓取鹿晗的粉丝信息,分析这些粉丝处于什么年龄段,有什么标签,爱好,性别分布等等。这种对人群的分析,还可以同理应用到商业品牌上,用用户市场调研。

2017-11-01 15:58:28

构建爬虫代理池

proxypoolproxypool是一个自动抓取免费代理并检测入库的程序,并提供开放的实时API服务:proxypool-open-WebAPI使用本项目采用python3进行开发,建议使用virtualenv# 下载源码 git clone https://github.com/SimpleBrightMan/proxypool.git cd proxypool # 安装依赖 pip insta

2017-11-01 15:56:58

proxypool:自动抓取检测爬虫IP代理,并提供实时开放的WebAPI

欢迎Star/Fork,https://github.com/SimpleBrightMan/proxypoolproxypoolproxypool是一个自动抓取免费代理并检测入库的程序,并提供开放的实时API服务:proxypool-open-WebAPI使用本项目采用python3进行开发,建议使用virtualenv# 下载源码 git clone https://github.com/Si...

2017-10-17 22:27:07

异步爬虫

异步爬虫以往写爬虫就是单进程单线程,假设要爬取100哥页面,就是一个循环挨个爬。但是要执行下面一条抓取,就需要等待网络IO请求执行完毕,所以效率就不高了。 一开始处理的数据不大,还意识不到,如果要爬取上万个页面,差距马上就能凸显了。 所以爬虫必须要并发执行,异步编程。 在python中并发编程,有三种途径:多进程,多线程和协程。当然这三者还可以组合使用,比如多进程+多线程。 由于存在GIL锁

2017-10-09 23:15:14

logging模块,还在使用print打印?

为什么使用日志使用日志来看程序的输入,相比于print,多了一个层级的概念。并且可以将不同层级的日志信息,进行不同的处理。比如正常的debug信息,就可以正常记录到log文件中,供以后日志挖掘使用。critical级别的可能就需要发送一封邮件给运维人员,及时提醒。日志的级别日志一共分成5个等级,从低到高分别是:DEBUG INFO WARNING ERROR CRITICAL。 DEBUG:详细的信

2017-10-02 23:05:14

动态规划

dp问题,关键是寻找到递推关系式。 主要也就是几类核心问题,可统一整理。最长递增子序列从一个整的序列中,取出一个子序列,使其能够保持递增的性质 F(1)=1; F(i) = max{1,F[j]+1|j#include<iostream> #include<cstdio> #include<queue> #include<cmath> #include<algorithm> #include<

2017-06-29 12:23:52

递归

在宏观上把握一件事情 并且明确跳出递归的条件 经典问题:汉诺塔

2017-06-27 21:14:51

拓扑排序

先判断能否进行拓扑排序,本质就是检查是否存在环 统计入度的情况,将入度为0的,加入队列中。#include<iostream> #include<cstdio> #include<vector> #include<queue> using namespace std;int main(){ int N,M,in_degree[100],a,b,nodecount; vector<i

2017-06-27 15:30:20

C++ STL

STL是C++中的标准模板库。包括了常见的算法和数据结构。在OJ中广泛使用。本文是对STL的一个整理。排序 头文件< algorithm > 基本用法:sort函数 sort(a,a+n),左闭右开的区间 二分查找 头文件< algorithm > 调用lower_bound(a,a+n,value)-a; 真实范围是在a到a+n-1,左闭右开的区间,寻找大于或等于value的第一个下标位置。 up

2017-06-24 16:24:44

pDHS-SVM:A prediction method for plant DNase I hypersensitive sites based on support vector machine

写在前面这是一篇论文的整理,看题目很高大上!确实,这是一篇SCI。 文章地址:http://www.sciencedirect.com/science/article/pii/S0022519317302527 我因为做了一点微小的贡献,也挂了名字。所以有必要把这篇文章整理一下。 文章题目:pDHS-SVM:A prediction method for plant DNase I hyper

2017-06-18 23:02:17

最短路径

Floyd算法算法思想从i点到j点,如果从i点到k点,再从k点到j点的路径小于直接从i到j,则更新i到j的最短路径。代码题目题目描述: 在每年的校赛里,所有进入决赛的同学都会获得一件很漂亮的t-shirt。但是每当我们的工作人员把上百件的衣服从商店运回到赛场的时候,却是非常累的!所以现在他们想要寻找最短的从商店到赛场的路线,你可以帮助他们吗? 输入: 输入包括多组数据。每组数据第一行是两个整数N、M

2017-04-18 21:39:05

最小生成树(MST)

Kraskal算法1.初始所有节点都独立 2.按照边的权值递增遍历所有的边,若遍历到的边上的两个点,分属在不同的集合,则这条边就是最小生成树上的一条边,并将这两个顶点合并。 3.如果出现集合数量只为1个,说明最小生成树已经构成。如果遍历完所有的边,集合还大于1个,说明原图不连通,最小生成树不存在。代码/* 题目描述: 省政府“畅通工程”的目标是使全省任何两个村庄间都可以实现公路交通(但不

2017-04-15 16:13:51

并查集

集合判断两个点是不是在一个集合里面 检查图中有多少个孤立节点 很多问题都可以抽象为集合问题代码在合并两个树的同时,进行路径压缩。让所有的节点指向根节点。#include <iostream> using namespace std; int Tree[1001]; int N=1000;//寻找根节点 int findRoot(int i){ if (Tree[i]==-1){

2017-04-15 13:43:40

反腐网站搭建

项目定义学校马克思主义学院反腐网站的搭建,包括网页前端和管理员后台两个部分。项目内容主页搭建 法学期刊入口 反腐新闻动态入口 人工整理的反腐信息可视化展示 科研成果展示入口 法学期刊静态网页,展示常见的学院期刊。通过超链接可以打开对应期刊的官网。反腐新闻动态反腐新闻的动态抓取更新(延时不超过24小时)正义网新网抓取正义网-反腐要闻 抓取部分如下: 中纪委官网抓取中纪委-反腐曝光 抓取部分如下:

2017-04-14 19:43:44

常用的推荐算法小结

推荐系统的必然互联网发展到现阶段,信息已经不是匮乏,而是爆炸。所以良好的用户体验就是把用户喜欢的,感兴趣的从大量的数据中筛选出来,再呈现给用户,实现千人千面的效果。所以推荐系统的出现就是必然了,他可以推荐每个用户感兴趣的产品,同时也将每个产品呈现到感兴趣的用户面前。实现用户和产品的双赢。推荐系统架构一个常见的推荐系统架构一般如下图: 可以看到分为数据来源、推荐引擎和推荐交互三个方面。 数据

2017-04-11 23:40:34

HTTPS与HTTP

HTTPS大创中做APP的后端,一个完整的rest框架,要求数据传输采用https协议。因为客户端与后端直接会涉及用户的私密用户数据,而采取http协议实际上就是明文传输,这是不能接受的。 而HTTPS并非是应用层的一种新协议. 只是HTTP通信接口部分用SLL(Secure Socket Layer)和TLS (Transport Layer Security) 协议替代而已.HTTPS的工作流

2017-04-11 20:45:46

千叶正志

关注
  • 计算机软件/学生
  • 中国 江苏省 南京市
奖章
  • 持之以恒