自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 Vscode Vim自动切换

vscode中vim插件自动切换输入法

2023-11-09 22:55:51 932

原创 Excel使用公式设置条件格式

今天同事提了一个需求,结果如下图所示。备注里面为空或者为“✔”则为白底,出现任意其他字符就使用红色填充。操作步骤公式分析一下:ISBLANK()判断单元格是不是空的(如果是#N/A就需要ISNA()来判断)OR()有一个为真则返回TrueNOT()取反先分析单元格里面是不是空或者是不是✔,如果返回False,即单元格即不为空也不是✔,那就直接取反获得True,再自定义一下单元格样式就好了。列前面加不加上"$"都可以。没了...

2021-05-12 19:09:17 1512

原创 零售数据分析——价格三度

最近项目里面有需要用到零售相关的知识,从网上了解到一些有趣的易于理解的指标,在这做一记录、分析。指标介绍根据价格三度的分析可以判断商品定价、采购及陈列是否合理。假设背景:A店在售的方便面价格从3元/包-15元/包不等,包含了10个sku;B店在售的方便面价格从1.5元/包-13.5元/包,包含了5个sku。价格带价格带相当于一个品类下的价格区间,根据背景可知A店的方便面价格带是3-15元,B店的方便面价格带是1.5-13.5元。宽度宽度就是价格带的极差。价格带的宽度决定了该品类商品满足消费者

2021-04-06 16:26:01 1495

原创 使用Python将Word表格转Excel

今日需求其实就是把Word中的表格转到Excel中,顺便做一个调整。如果单单是两个表格,那只要简单的复制黏贴即可,但如果上百了呢?那就得考虑自动化了。好在今天碰到的需求中的原文件格式是比较有规律的,那直接来尝试一下。# 首先要pip install python-docx# 如果原文件是doc格式,那就先转成docxfrom docx import Documentimport pandas as pdpath = "./word表格转excel.docx"docx = Document

2021-03-09 14:13:32 2483 2

原创 使用Python实现邮件发送

邮箱专用密码(授权码)到邮箱设置里面自己生成,可以参考这篇.import smtplibimport timefrom email.header import Headerfrom email.mime.text import MIMETextsender = "[email protected]" # 配置发送邮件地址,显示--由[email protected]代发password = "xxxx" # 客户端登录专用密码receivers = ["[email protected]"] # 邮件接收地址subject

2021-01-19 17:08:31 340 1

原创 利用Python实现企业微信发送文件消息

最近领导希望做一个小的招标信息爬取系统,每日以邮件以及企业微信的方式进行推送。所以记录一下如何使用Python实现企业微信发送文件。第一步:登录企业微信后台,需要用有管理员权限的微信进行扫码登录。第二步:获取AgentId和Secret,获取路径:应用管理-创建应用,创建应用后即可看到。第三步:确认需要接收信息的userid,获取路径:通讯录-选择需要发送的人员-账号。第四步:获取公司ID,获取路径:我的企业-公司ID。通过上面四步即可获取到:CORPID # 企业IDCORPSECRE

2021-01-19 16:43:00 3652 9

原创 微信群解答_根据给定数据范围划分文件

需求描述参数“氧量”(代号T)划分区间[0,1],[1,1.3],[1.3,1.5],[1.5,1.8],[1.8,2],[2,2.5],[2.5,3],[3,5],[5,10],现在T有9个区间,T01、T02…T09;参数“热值”(代号Q)划分区间[4000,4800],[4800,5200],[5200,5300],[5300,5500],[5500,6500],现在T有5个区间,Q01、Q02…Q05。最后想得到T和Q的排列组合的csv文件,就是T01Q01、T02Q01、T03Q01…这样的

2021-01-05 11:36:22 184

原创 AI面试题(持续更新)

加入了个开课吧9.9元的AI面试题交流群,纯当笔记记录及分析。1. 为什么要对特征归一化?归一化可以消除因特征量纲差异导致对模型收敛带来的影响,可以加快收敛,便于使用默认的参数。如果不归一化,会导致特征值相差大的特征占主导作用,而忽略特征值相差小的特征。对连续数值进行归一化可以将特征统一到一个大致相同的数据区间内。常用方法有min-max scaling,z-score normalization.通常在计算欧氏距离或者使用梯度下降优化的场景下需要对特征进行归一化处理,例如线性回归、逻辑回归、SVM

2020-11-09 23:53:39 858

原创 Superset安装及排坑

-----------------------------------------Windows------------------------------------------1. 创建虚拟环境,需先安装pip install virtualenv cd F: # 切换到F盘virtualenv superset_venv # 创建一个叫做superset的虚拟环境,此时会自动创建文件夹cd superset/Scripts # 进入刚刚创建的文件夹的Scripts文件夹下activate

2020-09-04 20:45:19 293

原创 数据分析_滴滴AB test面试题及城市运营分析

滴滴AB test面试题及运营情况分析从和鲸上看到了一个滴滴数据集,看介绍说的是数据来自滴滴出行内部,也有小道消息说是面试题?那我们来试一下。数据字典上图为两个数据集的数据字典,可以看出来维度比较少,进行AB test的test数据集是58行,运营情况分析的city数据集是90行。两者皆无空值。AB test分析数据清洗及特征工程[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8GvDqn8r-1598674835825)(https://imgkr2.cn-bj

2020-08-29 12:24:57 4737 2

原创 微信群解答_行列转换的Mysql,Excel,Python解法

微信群又双叕有新问题了,如图所示,两个表格的转换。首先跟大家分享一下我的记忆口诀:行转列逆透视列转行透视我们用Excel、Python、SQL分别实现一下这个功能。Excel使用到Excel中的Power Query,只有Excel2016以上的版本才有,注意版本号。行转列全选数据>数据选项卡>自表格/区域由于要转换的列是由"/"分割的,所以我们需要先拆分列。选中需要拆分的列>右键>拆分列>按分隔符。选择自定义>输入"/">选择每次出

2020-08-21 00:29:28 247 1

原创 MySQL_复购回购率

指标解释如何计算复购率/回购率计算方法一:复购的人复购率 = 单位时间内购买次数大于1的人/所有购买的人例如:一段时间内,10个人中有3个人购买2次,这3个人中有一个人又购买了一次,累计复购人数为3人,则这段时间内的复购率为30%。计算方法二:复购次数复购率 = 单位时间内复购次数/所有购买的人例如:一段时间内,10个人中有3个人购买2次,这3个人中有一个人又购买了一次,累计复购次数为4次,则这段时间内的复购率为40%。复购和回购的区别复购是一个单位时间内的多次购买,回购是在下一个单位

2020-08-11 22:05:49 2143

原创 一分钟一个Pandas小技巧(四)

暂更至此,有人看再更。纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。本篇涉及的知识点:一维表和二维表互换stack()和unstack()pivot()和pivot_table()高性能查询和赋值query()eval()快速计算同比环比、差异diff()pct_change()一维表和二维表互换一维表是指表中各维相互独立,且不可再分的表二维表是指表中部分列不独立,或者说可以归.

2020-08-03 00:48:31 433

原创 数据分析_爬取37491条上海二手房数据,我感觉我又行了!

本文数据来源于链家网,搜集时间为2020年7月23日。本次项目使用Scrapy-Redis分布式爬取链家网数据,请自备代理ip。完整代码我已经放文末链接中,本文不再赘述爬虫细节,源码中我都有详细注释。仪表板展示项目背景去面试的时候被问上海二手房的一些情况,作为一个土著,我只知道上海这个区挺贵的那个区大概这个价,但是具体数值却说不上来。所以,就有了本文。从政策上来看,自从2016年国家喊出“房住不炒”的口号之后中国的房价就出现了明显的降温。2019年国家为了“救市”又宣布了几条政策:政府不再.

2020-07-29 01:24:45 1812 4

原创 一分钟一个Pandas小技巧(三)

在逛Kaggle的时候发现了一篇不错的Pandas技巧,我将挑选一些有用的并外加一些自己的想法分享给大家。 本系列虽基础但带仍有一些奇怪操作,粗略扫一遍,您或将发现一些您需要的技巧。纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。本篇所涉及知识点:美化DataFramePython一些好玩的函数Pandas拼接列中出现列表的处理方式accessor窗口函数美化DataFramedf = pd.DataFrame

2020-07-21 00:52:22 623

原创 一分钟一个Pandas小技巧(二)

在逛Kaggle的时候发现了一篇不错的Pandas技巧,我将挑选一些有用的并外加一些自己的想法分享给大家。本系列虽基础但带仍有一些奇怪操作,粗略扫一遍,您或将发现一些您需要的技巧。纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。本篇所涉及知识点:map、apply、applymapgroupbyMultiIndex DataFrame统计函数、累计函数agg、transform、filtermap、appl

2020-07-16 18:28:03 654

原创 微信群解答_各月各旬降水量均值_巧用groupby

记录一则群友在微信群里提出的需求,计算多年各月各询的平均降雨量。统计这个多年旬月均值,是为了跟当前年份的旬月值做比较,多了就说明当前月份雨水多,有可能发生洪涝灾害。# 数据文件比较规整,所以用pd.read_csv直接读取df = pd.read_csv("./1.txt",sep='\t')df.head() dt p0 2018-01-06 0.61 2018-01-25 0.12 2018-01-26 0.13 2018-01-27 1.14 2018-02-06 4.0.

2020-07-14 00:12:45 907

原创 一分钟一个Pandas小技巧(一)

在逛Kaggle的时候发现了一篇不错的Pandas技巧,我将挑选一些有用的并外加一些自己的想法分享给大家。本系列虽基础但带仍有一些奇怪操作,粗略扫一遍,您或将发现一些您需要的技巧。原网址:https://www.kaggle.com/python10pm/pandas-100-tricks纸上得来终觉浅,绝知此事要躬行,所谓的熟练使用Pandas是建立在您大致了解每个函数功能上,希望本系列能给您带来些许收获。创建测试数据Pandas自带的函数,​避免了自己手写测试数据的痛苦。索引设置重命名索

2020-07-12 19:13:02 760

原创 爬虫7_《隐秘的角落》豆瓣影评爬取及可视化分析

爬取链接:隐藏的角落豆瓣影评本文源码:百度云 提取码影评爬取豆瓣网有限制,各种类型的评论只可以爬取220条,所以我爬取了好评、一般、差评各220条,过滤解析错误的影评后,累计爬取630条。爬取维度为评论类型、点赞数、评分、发布日期、评论。分析urlstart:从第几条开始展示,豆瓣影评每一页都是20条评论,所以start应该是20的倍数。limit:这个限制了每页显示多少评论,但修改数值也没用。sort:根据热门/最新/好友进行排序, 这里我选择了热门。status:P/F代表看过和想看,

2020-07-05 01:39:51 2089 8

原创 数据分析_面试日记

面试日记A:您好,我是xxx,来面试数据分析师。B:你好,我们现在招大数据分析师,需要有三年工作经验的。A:我对这个岗位很感兴趣,但是很抱歉我没有三年工作经验。但是相关技术我都了解,可以考虑一下吗?B:哦,那您的情况我也了解了,虽然有点不符合我们的要求但是没有关系。我们会提供给您三个月的线下培训服务。只要您培训完毕就可以入职。A:真的吗?我这种基础不怎么好的也可以吗,那是在哪里培训呢?B:是的,我们有专门的培训机构**网。A:那你们和这个培训机构是什么关系呢?收费如何?B:我们是合作关系,支

2020-07-01 12:37:39 1129 4

原创 Pandas_Python处理dhl文件,dict转DataFrame

微信群内搜集到的真实数据清洗工作。需要将dhl格式的文件转为csv文件。数据皆为虚构源数据前两个方括号内分别是日期和字符串,逗号之后是一个完整的字典型字符串。目标格式将前两个方括号内的数据提出,并且字典里的数据也一并提出,合并为一个一维表。代码# 读取dhl文件df = pd.read_table("./1.dhl", header=None)# 使用正则拆分并还原成DataFramedf_new = df[0].str.split("\[(.*?)\]\[(.*?)\],(.*?

2020-06-30 01:31:45 273

原创 数据分析7_酒店预定分析_kaggle入门

数据分析7_酒店预定分析数据来源:kaggle本文源码及数据链接:百度云项目背景你有没有想过一年中预订酒店房间的最佳时间是什么时候?或者为了获得最佳的每日费用而选择的最佳停留时间?如果你想预测一家酒店是否有可能收到过高数量的特别要求呢?这个酒店预订数据集可以帮助您探索这些问题!该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、入住时间、成人、儿童和/或婴儿数量以及可用停车位数量等信息。数据来源于Nuno Antonio、Ana Almeida和Luis Nunes撰写的文章《酒店预订需求

2020-06-28 19:18:21 5267

原创 爬虫6_周杰伦新歌《Mojito》B站弹幕分析

6.12周杰伦发布新歌《Mojito》,赶紧蹭个热点来看一下大家弹幕都会说点什么。爬取链接【官方MV】Mojito - 周杰伦本项目源码,提取码duq8找弹幕API自己抓包研究是不可能的,前人肯定都帮我们踩过坑了,所以我这种技术渣渣肯定要在搜索引擎上搜寻资料的,B站弹幕接口,这篇文章很详细地介绍了B站弹幕API的各个参数。B站弹幕API格式:https://api.bilibili.com/x/v1/dm/list.so?oid= + cid找cid打开爬取链接F12打开开发者模式选择

2020-06-12 22:42:10 1687 6

原创 Excel_一维二维表转换(行列转换)的几种方法

今天在看Kettle的视频中发现了行列转换的方式,所以准备总结一下Excel中几种行列转换的方法。就是实现如下的效果。一维表转二维表方法一:Excel透视列选中数据源→数据→从表格选中想要更改为列的字段(这里这里是将星期改更改为列,所以选中的是星期列)→转换→透视列在跳出的弹窗中值列选择看你需求(这边就是工作小时)→打开高级选项→聚合值函数也是看你需求,这边选择不聚合关闭并上载即ok方法二:Excel数据透视表选中数据→插入→数据透视表姓名拖入行,星期拖入列,工作小时拖入值

2020-06-10 19:18:50 5252 1

原创 数据分析6_视频游戏销售分析_kaggle入门

电子游戏销售分析数据来源kaggle数据集链接,共16598条记录,1MB。本项目源码及数据源项目背景kaggle中并没有指出该数据集的项目背景,只是提到这是由某位大佬自己爬取的数据。我们就通过这个数据来粗略的了解一下电子游戏市场的变化。分析目的根据5W2H确定问题,从5个角度来交叉分析。游戏市场角度游戏市场整体的销量发展趋势发行量趋势地区角度游戏市场的发展趋势各地区的整体销量情况各地区不同游戏平台、不同游戏厂商、不同游戏类型的销售情况游戏平台角度各平台整体

2020-06-05 00:58:39 1368 1

原创 MySQL_50道练习题

网上有好多MySQL练习题,今天偷摘别人的练习题自己也来做一下。CREATE TABLE `Student`(`s_id` VARCHAR(20),`s_name` VARCHAR(20) NOT NULL DEFAULT '',`s_birth` VARCHAR(20) NOT NULL DEFAULT '',`s_sex` VARCHAR(10) NOT NULL DEFAULT '',PRIMARY KEY(`s_id`));-- 课程表CREATE TABLE `Course`(

2020-05-29 20:46:33 631

原创 MySQL_rank()、row_number()、dense_rank()的区别

MySQL8.0后推出了窗口函数,本文将根据实际的案例区分一下rank()、row_number()、dense_rank()到底有啥不一样。-- 成绩表CREATE TABLE `Score`(`s_id` VARCHAR(20),`c_id` VARCHAR(20),`s_score` INT(3),PRIMARY KEY(`s_id`,`c_id`));-- 成绩表测试数据insert into Score values('01' , '01' , 80);insert into

2020-05-29 00:10:28 557 1

原创 MySQL_查询面试题(持续更新)

SQL面试查询题目,资源全部来自于网络,没什么好说的,尽量在每一题上都写上注释,做就完事了。

2020-04-26 23:02:42 943 1

原创 MySQL_SQLZOO练习答案(不含Quiz,持续更新)

SQLZOO参考答案,都是最基础语法,附注释。

2020-04-25 01:13:17 1198 7

原创 数据分析5_美团外卖用户差评分析(附数据及Tableau文件)

美团外卖不满意率分析项目数据及文件:网盘链接,提取码o8c1本次项目使用Excel进行数据清洗,使用Tableau进行可视化分析。仪表盘展示项目背景该项目源于美团面试分析题,主要分析用户不满意的原因,并据此提出可落地的建议来降低不满意率。分析目的差评原因分析,并给出改善方案。问题拆解数据概览骑手姓名重复默认为同一个骑手;同一个骑手可能在不同站点出现差评。数据清洗...

2020-04-22 19:43:51 10797 8

原创 数据分析4_母婴商品销量分析_阿里云天池

母婴商品市场销量分析项目介绍项目背景根据PEST框架,从四个角度简要分析:政策Politics:国家发展改革委2013年5月28日表示,13个部门将出台系列政策措施,从可信交易、移动支付、网络电子发票、商贸流通和物流配送共5个方面支持电子商务发展,有利于促进在线母婴商品市场快速发展。经济Economy:随着国内经济的稳定增长,2015年我国城镇居民可支配收入增长到31195元, 同期农...

2020-04-21 01:24:01 2787 1

原创 数据分析3_淘宝用户行为分析_阿里云天池

淘宝用户行为分析数据来源数据链接,我下载的是2018年上传的905.80MB的UserBehavior.csv.zip。本项目完整源码,提取码9a5v。项目背景UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数...

2020-04-14 16:41:24 4847

原创 数据分析2_使用Tableau进行收视率分析

今天分享的是如何使用Tableau Public进行收视率分析及设计广告投放策略。数据链接:点这里提取码:m1g1本文含有详细的操作步骤,可下载数据一步步操作实践。确立目标此次获得的数据是由机顶盒采集,描述北京地区各频道19:00-23:00的收视率状况。我们要做的是分析各频道的收视率情况,及不同目标群体的广告投放策略。投放广告的原则:目标人群的占比越高越好,有些频道虽然收视率高,...

2020-04-08 20:32:53 1486 2

原创 爬虫5_QQ音乐《说好不哭》评论爬取及可视化

说好不哭评论_生成词云图最近周杰伦的新歌《说好不哭》发布,我的朋友圈也是不断被刷屏,那就趁着热度,我们来看看网友们对这首歌的评论如何吧。目标网址:https://y.qq.com/n/yqq/song/001qvvgF38HVc4.html?ADTAG=baiduald&play=1#comment_box分析网页我们打开QQ音乐找到《说好不哭》,页面下拉可以看到不少网友评论,起码...

2019-09-22 00:12:30 812

原创 爬虫4_表情包爬取

表情包爬取今天还是入门学习的一篇记录,爬取表情包,斗图再也不怕了!爬取网址:https://fabiaoqing.com/bqb/index.html分析url进入爬取网址,然后输入关键词翻到第二页,从url的变化上来看主要就是上图红框处有所变化。所以url就很好写了。这里就先先写个basic_url,因为要根据输入的关键词和爬取页数来修改路径。basic_url = f"http...

2019-09-19 11:58:22 733

原创 数据分析1_猫眼TOP100

猫眼TOP100今天爬了猫眼TOP100的电影,那就使用Jupyter简单的分析查看一下吧。使用的是Jupyter Notebook,所以代码如果直接复制在PyCharm里面可能会执行不了。如何爬取的博客:爬虫学习日记3_猫眼TOP100导包并清洗数据根据上一篇博客里面写的爬取方式,我把爬取下来的数据存放在了MongoDB里面,所以首先需要加载数据。import pandas as ...

2019-09-19 00:51:23 1067

原创 爬虫3_猫眼TOP100

猫眼TOP100好多人的爬虫都是从爬取猫眼排行榜,或者爬爬妹子图开始的,我也不例外,今天和大家分享一下猫眼TOP100榜的爬取。目标网址:https://maoyan.com/board/4分析url还是从第二页开始找,可以看到offset一直是以10的倍数在递增,因为每一个都展示10部电影,所以url就很容易分析出来。def main(): url = 'http://mao...

2019-09-19 00:22:34 589

原创 爬虫2_起点中文网字体反爬

起点中文网_字体反爬今天讲一下起点中文网的列表页爬取,准备爬取的是小说书名、图片url、详情页url、作者、字数、分类及状态。爬取网址:https://www.qidian.com/all分析url翻页至第二页、第三页,发现url上只有page=x这一个在改变,所以url的循环就很容易写出def main(): """ 起点中文网列表页只能爬5页 :return...

2019-09-16 11:57:36 859 2

原创 爬虫1_自建代理IP池

自建IP代理池从今天起,开始一点点记录自己学习的路线,也是作为对自己的一个监督。今天要做的是从西刺代理网(https://www.xicidaili.com/nn/)爬取免费代理ip存入本地redis。作为一个不舍得花钱买动态代理ip的穷鬼,只能想出这么个鬼办法了。获取url上图为西刺代理网的第二页,我们往后翻几页可以很容易地分析出,西刺url设计的很简单,翻页的变化就在于/nn/后面...

2019-09-15 16:08:22 488 1

原创 Python字符串类面试题

Python字符串类面试题从各种文章、公众号搜刮来的题目,慢慢更新。列举Python中的基本数据类型String,Digit,List,Tuple,Set,Dictionary如何区别可变数据类型和不可变数据类型答:从对象内存地址方向来说1. 可变数据类型:在内存地址不变的情况下,值可改变(List和Dictionary是可变类型,但是Dictionary中的key是不可变类...

2019-08-20 23:12:10 544

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除