1 林_胖

尚未进行身份认证

我要认证

找工作...找工作...找工作,有单位收留吗?

等级
TA的排名 19w+

一分钟一个Pandas小技巧(四)

暂更至此,有人看再更。纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。本篇涉及的知识点:一维表和二维表互换stack()和unstack()pivot()和pivot_table()高性能查询和赋值query()eval()快速计算同比环比、差异diff()pct_change()一维表和二维表互换一维表是指表中各维相互独立,且不可再分的表二维表是指表中部分列不独立,或者说可以归.

2020-08-03 00:48:31

数据分析_爬取37491条上海二手房数据,我感觉我又行了!

本文数据来源于链家网,搜集时间为2020年7月23日。本次项目使用Scrapy-Redis分布式爬取链家网数据,请自备代理ip。完整代码我已经放文末链接中,本文不再赘述爬虫细节,源码中我都有详细注释。仪表板展示项目背景去面试的时候被问上海二手房的一些情况,作为一个土著,我只知道上海这个区挺贵的那个区大概这个价,但是具体数值却说不上来。所以,就有了本文。从政策上来看,自从2016年国家喊出“房住不炒”的口号之后中国的房价就出现了明显的降温。2019年国家为了“救市”又宣布了几条政策:政府不再.

2020-07-29 01:24:45

一分钟一个Pandas小技巧(三)

在逛Kaggle的时候发现了一篇不错的Pandas技巧,我将挑选一些有用的并外加一些自己的想法分享给大家。 本系列虽基础但带仍有一些奇怪操作,粗略扫一遍,您或将发现一些您需要的技巧。纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。本篇所涉及知识点:美化DataFramePython一些好玩的函数Pandas拼接列中出现列表的处理方式accessor窗口函数美化DataFramedf = pd.DataFrame

2020-07-21 00:52:22

一分钟一个Pandas小技巧(二)

在逛Kaggle的时候发现了一篇不错的Pandas技巧,我将挑选一些有用的并外加一些自己的想法分享给大家。本系列虽基础但带仍有一些奇怪操作,粗略扫一遍,您或将发现一些您需要的技巧。纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。本篇所涉及知识点:map、apply、applymapgroupbyMultiIndex DataFrame统计函数、累计函数agg、transform、filtermap、appl

2020-07-16 18:28:03

微信群解答_各月各旬降水量均值_巧用groupby

记录一则群友在微信群里提出的需求,计算多年各月各询的平均降雨量。统计这个多年旬月均值,是为了跟当前年份的旬月值做比较,多了就说明当前月份雨水多,有可能发生洪涝灾害。# 数据文件比较规整,所以用pd.read_csv直接读取df = pd.read_csv("./1.txt",sep='\t')df.head() dt p0 2018-01-06 0.61 2018-01-25 0.12 2018-01-26 0.13 2018-01-27 1.14 2018-02-06 4.0.

2020-07-14 00:12:45

一分钟一个Pandas小技巧(一)

在逛Kaggle的时候发现了一篇不错的Pandas技巧,我将挑选一些有用的并外加一些自己的想法分享给大家。本系列虽基础但带仍有一些奇怪操作,粗略扫一遍,您或将发现一些您需要的技巧。原网址:https://www.kaggle.com/python10pm/pandas-100-tricks纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。创建测试数据Pandas自带的函数,​避免了自己手写测试数据的痛苦。索引设置重命名索

2020-07-12 19:13:02

爬虫7_《隐秘的角落》豆瓣影评爬取及可视化分析

爬取链接:隐藏的角落豆瓣影评本文源码:百度云 提取码影评爬取豆瓣网有限制,各种类型的评论只可以爬取220条,所以我爬取了好评、一般、差评各220条,过滤解析错误的影评后,累计爬取630条。爬取维度为评论类型、点赞数、评分、发布日期、评论。分析urlstart:从第几条开始展示,豆瓣影评每一页都是20条评论,所以start应该是20的倍数。limit:这个限制了每页显示多少评论,但修改数值也没用。sort:根据热门/最新/好友进行排序, 这里我选择了热门。status:P/F代表看过和想看,

2020-07-05 01:39:51

数据分析_面试日记

面试日记A:您好,我是xxx,来面试数据分析师。B:你好,我们现在招大数据分析师,需要有三年工作经验的。A:我对这个岗位很感兴趣,但是很抱歉我没有三年工作经验。但是相关技术我都了解,可以考虑一下吗?B:哦,那您的情况我也了解了,虽然有点不符合我们的要求但是没有关系。我们会提供给您三个月的线下培训服务。只要您培训完毕就可以入职。A:真的吗?我这种基础不怎么好的也可以吗,那是在哪里培训呢?B:是的,我们有专门的培训机构**网。A:那你们和这个培训机构是什么关系呢?收费如何?B:我们是合作关系,支

2020-07-01 12:37:39

Pandas_Python处理dhl文件,dict转DataFrame

微信群内搜集到的真实数据清洗工作。需要将dhl格式的文件转为csv文件。数据皆为虚构源数据前两个方括号内分别是日期和字符串,逗号之后是一个完整的字典型字符串。目标格式将前两个方括号内的数据提出,并且字典里的数据也一并提出,合并为一个一维表。代码# 读取dhl文件df = pd.read_table("./1.dhl", header=None)# 使用正则拆分并还原成DataFramedf_new = df[0].str.split("\[(.*?)\]\[(.*?)\],(.*?

2020-06-30 01:31:45

数据分析7_酒店预定分析

数据分析7_酒店预定分析数据来源:kaggle本文源码及数据链接:百度云项目背景你有没有想过一年中预订酒店房间的最佳时间是什么时候?或者为了获得最佳的每日费用而选择的最佳停留时间?如果你想预测一家酒店是否有可能收到过高数量的特别要求呢?这个酒店预订数据集可以帮助您探索这些问题!该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、入住时间、成人、儿童和/或婴儿数量以及可用停车位数量等信息。数据来源于Nuno Antonio、Ana Almeida和Luis Nunes撰写的文章《酒店预订需求

2020-06-28 19:18:21

爬虫6_周杰伦新歌《Mojito》B站弹幕分析

6.12周杰伦发布新歌《Mojito》,赶紧蹭个热点来看一下大家弹幕都会说点什么。爬取链接【官方MV】Mojito - 周杰伦本项目源码,提取码duq8找弹幕API自己抓包研究是不可能的,前人肯定都帮我们踩过坑了,所以我这种技术渣渣肯定要在搜索引擎上搜寻资料的,B站弹幕接口,这篇文章很详细地介绍了B站弹幕API的各个参数。B站弹幕API格式:https://api.bilibili.com/x/v1/dm/list.so?oid= + cid找cid打开爬取链接F12打开开发者模式选择

2020-06-12 22:42:10

Excel_一维二维表转换(行列转换)的几种方法

今天在看Kettle的视频中发现了行列转换的方式,所以准备总结一下Excel中几种行列转换的方法。就是实现如下的效果。一维表转二维表方法一:Excel透视列选中数据源→数据→从表格选中想要更改为列的字段(这里这里是将星期改更改为列,所以选中的是星期列)→转换→透视列在跳出的弹窗中值列选择看你需求(这边就是工作小时)→打开高级选项→聚合值函数也是看你需求,这边选择不聚合关闭并上载即ok方法二:Excel数据透视表选中数据→插入→数据透视表姓名拖入行,星期拖入列,工作小时拖入值

2020-06-10 19:18:50

数据分析6_视频游戏销售分析

电子游戏销售分析数据来源kaggle数据集链接,共16598条记录,1MB。本项目源码及数据源项目背景kaggle中并没有指出该数据集的项目背景,只是提到这是由某位大佬自己爬取的数据。我们就通过这个数据来粗略的了解一下电子游戏市场的变化。分析目的根据5W2H确定问题,从5个角度来交叉分析。游戏市场角度游戏市场整体的销量发展趋势发行量趋势地区角度游戏市场的发展趋势各地区的整体销量情况各地区不同游戏平台、不同游戏厂商、不同游戏类型的销售情况游戏平台角度各平台整体

2020-06-05 00:58:39

MySQL_50道练习题

网上有好多MySQL练习题,今天偷摘别人的练习题自己也来做一下。CREATE TABLE `Student`(`s_id` VARCHAR(20),`s_name` VARCHAR(20) NOT NULL DEFAULT '',`s_birth` VARCHAR(20) NOT NULL DEFAULT '',`s_sex` VARCHAR(10) NOT NULL DEFAULT '',PRIMARY KEY(`s_id`));-- 课程表CREATE TABLE `Course`(

2020-05-29 20:46:33

MySQL_rank()、row_number()、dense_rank()的区别

MySQL8.0后推出了窗口函数,本文将根据实际的案例区分一下rank()、row_number()、dense_rank()到底有啥不一样。-- 成绩表CREATE TABLE `Score`(`s_id` VARCHAR(20),`c_id` VARCHAR(20),`s_score` INT(3),PRIMARY KEY(`s_id`,`c_id`));-- 成绩表测试数据insert into Score values('01' , '01' , 80);insert into

2020-05-29 00:10:28

MySQL_查询面试题(持续更新)

资源全部来自于网络,没什么好说的,尽量在每一题上都写上注释,做就完事了。窗口函数-- 建表CREATE TABLE mianshi1 (id VARCHAR (20),dates VARCHAR (20),v_num INT) charset=utf8;-- 插入数据INSERT INTO mianshi1 VALUES ("A","2015-01",5),("A","2015-01"...

2020-04-26 23:02:42

MySQL_SQLZOO练习答案(不含Quiz,持续更新)

SQLZOO参考答案,都是最基础语法,附注释。

2020-04-25 01:13:17

数据分析5_美团外卖用户差评分析(附数据及Tableau文件)

美团外卖不满意率分析项目数据及文件:网盘链接,提取码o8c1本次项目使用Excel进行数据清洗,使用Tableau进行可视化分析。仪表盘展示项目背景该项目源于美团面试分析题,主要分析用户不满意的原因,并据此提出可落地的建议来降低不满意率。分析目的差评原因分析,并给出改善方案。问题拆解数据概览骑手姓名重复默认为同一个骑手;同一个骑手可能在不同站点出现差评。数据清洗...

2020-04-22 19:43:51

数据分析4_母婴商品销量分析

母婴商品市场销量分析项目介绍项目背景根据PEST框架,从四个角度简要分析:政策Politics:国家发展改革委2013年5月28日表示,13个部门将出台系列政策措施,从可信交易、移动支付、网络电子发票、商贸流通和物流配送共5个方面支持电子商务发展,有利于促进在线母婴商品市场快速发展。经济Economy:随着国内经济的稳定增长,2015年我国城镇居民可支配收入增长到31195元, 同期农...

2020-04-21 01:24:01

数据分析3_使用Python进行淘宝用户行为分析

淘宝用户行为分析数据来源数据链接,我下载的是2018年上传的905.80MB的UserBehavior.csv.zip。本项目完整源码,提取码9a5v。项目背景UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数...

2020-04-14 16:41:24

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力探索
    原力探索
    参与《原力计划【第二季】——打卡挑战》的文章入选【每日精选】的博主将会获得此勋章。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。