自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 送给双肾结晶患者的一个小彩蛋(Python+钉钉机器人发送喝水提醒)

送给双肾结晶患者的一个小彩蛋

2022-03-27 00:54:10 597

原创 Python3 调用腾讯AI开放平台之智能闲聊与情感分析

昨日抓了一大堆公司店铺的评论.可是抠门的天猫不予展示评分... 所以也不知道到底是好评呀,还是差评. 心好累...本想着弄一个现成的snowNlp来进行情感分析.  因为没有自己的语料库,也不会自己去训练.   所以就想着弄个现成的 腾讯Ai开放平台. 简直太好用了! 期间有收到两位大佬: 大佬1 大佬2 文章的指点.因为是第一次接入Api.  所以会写得很蠢. 主要是为了自己记录自己...

2018-10-24 15:17:42 4844 2

原创 python 嵌套List去重之set大法(表格转化为str再hash去重) 和 遍历append大法

网上常见的python List去重主要是3钟.1、遍历,not in ,再append2、直接set3、itertools.grouby 对于嵌套list去重. 可以利用分隔符将list合并为字符串后,再用set去重. 速度会有很明显的提高!从遍历大法的 30分钟+ ,到4s就完成 小弟之前主要是用1 . 因为set无法对表格套表格进行处理.直到今天处理一串2...

2018-09-28 16:30:02 2466 1

原创 PowerBi利用Python Script绕过ODBC来导入MongoDB数据

上一篇文章是讲如何弄一个 MondoDB ODBC driver 的. 但是试用期1个月..我还没用过..就戛然而止.一年300美刀的许可费,让我流泪.虽然现在MongoDB很火.. 但是好像跟POWER BI 没有什么关系. 因为人家都有现成的库可以直接连接的.. 恰好POWER BI 8月份发布了新功能中,包含了Python . 我看到官方介绍里面都是用 plot 来画图的...

2018-09-27 14:40:52 1879 1

原创 MongoDB+Python 爬取宝宝树问答模块并进行简单分析

前几天刚学了MongoDB的。听说有诸多好处。边想着来感受下。恰逢一好友职位调整,需要了解目前母婴市场围绕的重心。所以便我去  宝宝树  ,爬取问答,看看妈妈们都在想什么。 整体思路1,爬取各大问题分类及其链接。分成一级分类,二级分类。比如准备怀孕 - 怀孕前的准备。2,直接生成所有需要爬取的链接(一个已解决问题下,最多只有250页的问题。多了爬不下来。所以只有少于25...

2018-08-15 15:54:32 765 2

原创 在ODBC中添加MongoDB

因为工作需要,需要用到的MongoDB。但不是所有的第三方软件都是可以直接的MongoDB的。所以走ODBC。(目前只找到试用30天的。 买这个,贵的一匹...  为啥没有免费的..)1,下载  MongoDB ODBC驱动程序 2,安装 3,ODBC中配置 4,配置把所需里的填一下就好了。大部分人应该是跟我一样的localhost:27017。然后...

2018-08-15 15:51:11 4225 2

原创 Python+pyecharts研究周杰伦歌词中的 秘密

我的女朋友很喜欢周杰伦。所以,前两天我跟别人去KTV,就唱的是“七里香”。唱着唱歌,突然就好奇了起来。周杰伦的歌里,是不是还有很多的麻雀后来发现,270首歌,140786个字,千言万语,说来说去,都是“我”,“的”,“你”路人:咦,怎么没有你我他中的他我:你我之间,没有他。路人:不对啊,不是每首歌都是你呀我呀的吗这跟是不是周杰伦也没啥关系吧?我:......我不听我...

2018-07-26 21:43:05 1094

原创 利用Charles+Python抓包获取App数据

之前因为工作需要,所以偶尔了解其他App的一些信息.虽然有些信息,肉眼也看得到,但是自己照着打,实在有点累...所以同事让我帮忙尝试抓包.利用Charles打开以后. 发现有些json的URL是可以直接打开. 这种是最舒服的. 并且,手动调整offlet和limit就可以爬完了.而有些是打不开的. 并且显示{"message":"Argument 'accessKey' mu...

2018-07-21 14:17:50 6487

原创 利用Python批量修改文件夹下所有文件夹的文件名

话说需求产生动力。昨天下了一个小图包。作者把所有的文件名都加上了他们自己的网站名....看得我吐血了0.1个压缩包里面还有好多个压缩包。看得我心很累。所以希望按照文件名,批量修改我个人小图库里面的所有文件的文件名./邪恶的笑用到的模块只有OSos.path.basename(文件路径)获取文件名os.path.dirname(文件),获取文件绝对路径os.walk(FOLDER...

2018-07-06 20:46:44 4566 2

原创 拉勾网杭州站的数据采集及可视化分析之分析报告篇

在经历了 爬虫 和 数据清洗 了以后.就可以建模啦~BI链接是 拉钩BI . 如上图就是整个BI的界面. 以下为分析报告1、学历的影响有多大?上图是拉钩杭州站全站27617个岗位的学历及其岗位平均薪资分布情况.由此可见, 硕士及其以上学历,真的是决定了工作的下限.  即便考虑到离群值/异常值,也还是比其他学历要高不少.同时,本科/不限/大专,在下边缘,即下限方面,并,没有很大差异.  上限方面,好...

2018-06-24 15:46:52 1156 1

原创 利用Python+PowerBi进行拉勾网杭州站的数据采集及可视化分析之数据清洗篇

2018-06-22 18:02:20 1981

原创 利用Python+PowerBi进行拉勾网杭州站的数据采集及可视化分析之爬虫篇

思路:1、获取到拉勾网的所有岗位信息2、一个一个岗位进行获取数据一、获取拉勾网杭州站的岗位信息在这里,可以看到 拉勾网 所有的岗位(理论上??) .  我猜啦...不然也找不到其他的地方能找到岗位数据了这里的源代码也很简单.直接用正则表达式来爬即可.#时间 2018/06/21 17:24#提取职位分类跟具体职位.方便后期根据具体职位进行搜索import requests # 网络请求imp...

2018-06-21 20:39:29 6007 3

原创 看书海全站爬虫+MySql+多线程+代理

该文章是自己在初学爬虫时,选择了 看书海 这个网站进行爬虫,慢慢地学习新的内容(多线程,代理).整体思路为四步走一、页面爬虫连载书库  这个链接是文章列表,该站所有的小说都在里面.  共有2000多页. 目的就是获取到2000多页的链接.二、书本链接爬虫根据第一步获得的2000多个链接,爬取其书本的URL三、单个书本所有章节爬虫根据第二步爬取的书本URL,爬取每一本书的每一个单章的链接四、单章爬虫...

2018-05-22 15:57:05 723

原创 简单的携程用车接送机数据爬虫

python菜鸡一枚.  因为之前的学习得到很多善良的博主的推荐.在网上没有看到关于携程用车数据的爬虫(估计没人会关注这个).所以抛砖引玉,写一个非常非常粗糙的爬虫来爬取单个页面携程用车的供应商+评分+价格.  希望记录一下自己写代码的过程,以及能够帮助到那些可能会有需求的朋友,谢谢~~思路是   获取单个链接>>>>使用selenium手动登录>>>&g...

2018-05-19 18:06:23 1008

身份证对应的地区

身份证对应的地区. 根据身份证号开头的6位数字,即可判断用户户籍所在的 省份,城市

2018-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除