席地而坐不谈国事-CSDN博客

原创送给双肾结晶患者的一个小彩蛋(Python+钉钉机器人发送喝水提醒)

送给双肾结晶患者的一个小彩蛋

2022-03-27 00:54:10 597

原创 Python3 调用腾讯AI开放平台之智能闲聊与情感分析

昨日抓了一大堆公司店铺的评论.可是抠门的天猫不予展示评分... 所以也不知道到底是好评呀,还是差评. 心好累...本想着弄一个现成的snowNlp来进行情感分析. 因为没有自己的语料库,也不会自己去训练. 所以就想着弄个现成的腾讯Ai开放平台. 简直太好用了! 期间有收到两位大佬: 大佬1 大佬2 文章的指点.因为是第一次接入Api. 所以会写得很蠢. 主要是为了自己记录自己...

2018-10-24 15:17:42 4844 2

原创 python 嵌套List去重之set大法(表格转化为str再hash去重) 和遍历append大法

网上常见的python List去重主要是3钟.1、遍历,not in ,再append2、直接set3、itertools.grouby 对于嵌套list去重. 可以利用分隔符将list合并为字符串后,再用set去重. 速度会有很明显的提高!从遍历大法的 30分钟+ ,到4s就完成小弟之前主要是用1 . 因为set无法对表格套表格进行处理.直到今天处理一串2...

2018-09-28 16:30:02 2466 1

原创 PowerBi利用Python Script绕过ODBC来导入MongoDB数据

上一篇文章是讲如何弄一个 MondoDB ODBC driver 的. 但是试用期1个月..我还没用过..就戛然而止.一年300美刀的许可费,让我流泪.虽然现在MongoDB很火.. 但是好像跟POWER BI 没有什么关系. 因为人家都有现成的库可以直接连接的.. 恰好POWER BI 8月份发布了新功能中,包含了Python . 我看到官方介绍里面都是用 plot 来画图的...

2018-09-27 14:40:52 1879 1

原创 MongoDB+Python 爬取宝宝树问答模块并进行简单分析

前几天刚学了MongoDB的。听说有诸多好处。边想着来感受下。恰逢一好友职位调整，需要了解目前母婴市场围绕的重心。所以便我去宝宝树，爬取问答，看看妈妈们都在想什么。整体思路1，爬取各大问题分类及其链接。分成一级分类，二级分类。比如准备怀孕 - 怀孕前的准备。2，直接生成所有需要爬取的链接（一个已解决问题下，最多只有250页的问题。多了爬不下来。所以只有少于25...

2018-08-15 15:54:32 765 2

原创在ODBC中添加MongoDB

因为工作需要，需要用到的MongoDB。但不是所有的第三方软件都是可以直接的MongoDB的。所以走ODBC。（目前只找到试用30天的。买这个,贵的一匹... 为啥没有免费的..）1，下载 MongoDB ODBC驱动程序 2，安装 3，ODBC中配置 4，配置把所需里的填一下就好了。大部分人应该是跟我一样的localhost：27017。然后...

2018-08-15 15:51:11 4225 2

原创 Python+pyecharts研究周杰伦歌词中的秘密

我的女朋友很喜欢周杰伦。所以，前两天我跟别人去KTV，就唱的是“七里香”。唱着唱歌，突然就好奇了起来。周杰伦的歌里，是不是还有很多的麻雀后来发现，270首歌，140786个字，千言万语，说来说去，都是“我”，“的”，“你”路人：咦，怎么没有你我他中的他我：你我之间，没有他。路人：不对啊，不是每首歌都是你呀我呀的吗这跟是不是周杰伦也没啥关系吧？我：......我不听我...

2018-07-26 21:43:05 1094

原创利用Charles+Python抓包获取App数据

之前因为工作需要,所以偶尔了解其他App的一些信息.虽然有些信息,肉眼也看得到,但是自己照着打,实在有点累...所以同事让我帮忙尝试抓包.利用Charles打开以后. 发现有些json的URL是可以直接打开. 这种是最舒服的. 并且,手动调整offlet和limit就可以爬完了.而有些是打不开的. 并且显示{"message":"Argument 'accessKey' mu...

2018-07-21 14:17:50 6487

原创利用Python批量修改文件夹下所有文件夹的文件名

话说需求产生动力。昨天下了一个小图包。作者把所有的文件名都加上了他们自己的网站名....看得我吐血了0.1个压缩包里面还有好多个压缩包。看得我心很累。所以希望按照文件名，批量修改我个人小图库里面的所有文件的文件名./邪恶的笑用到的模块只有OSos.path.basename（文件路径）获取文件名os.path.dirname（文件），获取文件绝对路径os.walk（FOLDER...

2018-07-06 20:46:44 4566 2

原创拉勾网杭州站的数据采集及可视化分析之分析报告篇

在经历了爬虫和数据清洗了以后.就可以建模啦~BI链接是拉钩BI . 如上图就是整个BI的界面. 以下为分析报告1、学历的影响有多大?上图是拉钩杭州站全站27617个岗位的学历及其岗位平均薪资分布情况.由此可见, 硕士及其以上学历,真的是决定了工作的下限. 即便考虑到离群值/异常值,也还是比其他学历要高不少.同时,本科/不限/大专,在下边缘,即下限方面,并,没有很大差异. 上限方面,好...

2018-06-24 15:46:52 1156 1

原创利用Python+PowerBi进行拉勾网杭州站的数据采集及可视化分析之数据清洗篇

啊

2018-06-22 18:02:20 1981

原创利用Python+PowerBi进行拉勾网杭州站的数据采集及可视化分析之爬虫篇

思路:1、获取到拉勾网的所有岗位信息2、一个一个岗位进行获取数据一、获取拉勾网杭州站的岗位信息在这里,可以看到拉勾网所有的岗位(理论上??) . 我猜啦...不然也找不到其他的地方能找到岗位数据了这里的源代码也很简单.直接用正则表达式来爬即可.#时间 2018/06/21 17:24#提取职位分类跟具体职位.方便后期根据具体职位进行搜索import requests # 网络请求imp...

2018-06-21 20:39:29 6007 3

原创看书海全站爬虫+MySql+多线程+代理

该文章是自己在初学爬虫时,选择了看书海这个网站进行爬虫,慢慢地学习新的内容(多线程,代理).整体思路为四步走一、页面爬虫连载书库这个链接是文章列表,该站所有的小说都在里面. 共有2000多页. 目的就是获取到2000多页的链接.二、书本链接爬虫根据第一步获得的2000多个链接,爬取其书本的URL三、单个书本所有章节爬虫根据第二步爬取的书本URL,爬取每一本书的每一个单章的链接四、单章爬虫...

2018-05-22 15:57:05 723

原创简单的携程用车接送机数据爬虫

python菜鸡一枚. 因为之前的学习得到很多善良的博主的推荐.在网上没有看到关于携程用车数据的爬虫(估计没人会关注这个).所以抛砖引玉,写一个非常非常粗糙的爬虫来爬取单个页面携程用车的供应商+评分+价格. 希望记录一下自己写代码的过程,以及能够帮助到那些可能会有需求的朋友,谢谢~~思路是获取单个链接>>>>使用selenium手动登录>>>&g...

2018-05-19 18:06:23 1008

xueaalei1的博客