自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 error: command ‘gcc‘ failed with exit status 1解决方法

问题描述:在pip install gevent时,报出的错误。因为缺少openssl-devel。装上即可解决方式msg_server]# yum install gcc libffi-devel python3-devel openssl-devel -y

2020-08-11 09:47:14 452

原创 练习小项目:微博全站用户info抓取

作为大学毕业后就没有摸过程序的我,借着疫情自学爬虫2个月的菜鸡,写这个项目的确花费了不少的时间,翻阅了无数技术博客,官方文档,包括github上的一些项目(大神写出的代码可读性确实很高,值得学习),不过鉴于爬虫的时效性,很多项目都已经不能用相同的思路去实现了。经过自己的反复尝试,通过以下思路实现微博全用户的爬取,并做了简单的数据展示。和大家分享分享我的思路,共同学习,共同进步。自定需求门户网站:https://weibo.com/使用技术:scrapy,pyecharts,flask,redis,

2020-05-14 15:30:44 311

原创 练习小项目:音乐爬虫

学习爬虫也有些日子了(虽说还是个菜鸡),最近找工作也是各大网站投递,然后都石沉大海。实在闲来无事,想着再写写小项目练练手吧,Lets go<( ̄︶ ̄)↗[GO!]自定需求门户网站:http://music.taihe.com/使用技术:requests,xpath,re爬取内容:输入某歌手名,爬取下载该歌手所有歌曲(律师函警告)开始吧首先第一步,还是分析网站结构,个人觉得这...

2020-05-08 14:18:24 293

转载 PyCharm 读取同项目的相对路径下文件失败

我们一般这样读取绝对路径下的文件,但是在同一个项目下我们会这样写:将目录之前的非项目路径用 . (点)代替,然后我们有时候会发现读相对文件时运行不了,只好把这个换成绝对路径,那么问题出在哪里呢?打开 Edit Configurations…我们可以看到在项目的工作目录下面:这个时候,把后面的‘/main’去掉,留下的‘wen’要和我项目所在的包名一致:这样就能解决PyCharm读...

2020-05-08 07:52:35 3237 2

原创 练习小项目:微博爬虫

自学爬虫近1个月,基本的库啊框架啊基本也都囫囵吞枣的过了一遍,感觉网上视频里各大名师砖家带着练习的项目,基本都是毫无反爬机制的NC网站,感觉若是在实际工作中(没工作过-。-),怕是没有这么容易的网站要你爬取的吧。个人一点愚见,某网站数据有分析价值,才会有人爬,因为给爬多了运营小姐姐很生气,该网站才会去研究怎么反爬,于是反反爬,于是反反反爬,于是反反反反爬。。。。。连selenium这么低效的东西都...

2020-05-05 04:09:17 569

weiboPro.rar

* 门户网站:https://weibo.com/ * 使用技术:scrapy,pyecharts,flask,redis,selenium * 爬取内容:user_info中部分信息,并统计微博使用人群的年龄与地域

2020-05-14

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除