自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 R、tableau、excel/ppt作图比较

之前写过一些可视化的文章,绘图用的是R和tableau,今天把office两件套加上,总结下三者的应用场景。小数据+常规图形,office系列就可以,“小”、“常规”如何定义?能即刻出图则算小,至于常规,点击插入图表,可选的就是,如下图。它们是经典统计图的稍变形和多种统计图的复合(一般也不会很多),最典型的特征就是简单:绘制简单,理解简单。现在有一些比较成熟的小插件,如islide和EasyShu,结合起来使用更香。数据是实时更新的,图表之间是有关联的,分析模式已经比较固定,有这类需求的,选tab

2020-10-11 15:36:39 1140

原创 tableau复合图形示例:创建参数进行维度筛选

tableau的筛选功能,一般是针对维度的取值,比如topN、range(a,b),这篇文章介绍另一种筛选:维度筛选,以创建参数实现。在涉及多变量两两间的相关关系的图形展示时,非常有用。数据是怎样的数据来源于tableau public的一个可视化项目:How has the world changed since 1962?,包含1862年-2018年各个国家的人口、GDP、寿命等数据,主要字段整理后如下所示,总计10488行。要实现什么效果用以上数据,我们希望看到各个国家变量A与变量B随时间的

2020-08-08 19:11:38 3298

原创 yes or no?基于词典的情感分析法

自更博以来第一次断更,现在先把文本分析的坑补上,这篇文章着重介绍情感分析的两种基本方法之一:基于词典的情感分析(下篇讲基于监督的情感分析),建模环境为R。目录1 背景与目的1.1 情感分析的应用场景1.2 情感分析的痛点2 方法与实现2.1 什么是基于词典的情感分析2.2 怎么做词典式情感分析2.2.1 数据介绍2.2.2 训练集分词2.2.3 情感分析(统计两性词汇数量并比较)2.2.5 测试集验证、结果评价与调优1 背景与目的1.1 情感分析的应用场景顾客的评价最能反映其对商品的使用感受,对此类

2020-08-02 11:39:44 1152

原创 序列的趋势存在性检验:Cox-Stuart test和Mann-Kendall test

我们经常听这样的描述,数据呈现上升/下降/无明显趋势,这个结论大都是靠人眼观察出来的,往往不够严谨。我们需要更科学的方法,下面就借助非参里的符号检验,来谈谈检验趋势存在性的两种常用方法。Cox-Stuart趋势检验原理对于数据序列x1,x2,x3,……,xn,我们以位置中间数c为界把该序列分成两部分,并两两配对成(x1,xc+1),(x2,xc+2),……(xc,xn)的形式。接着我们以每一组中后一个数减去前一个数并记下正负性,s+表示得到正数的个数,s-表示得到负数的个数。如果s+远远大于s

2020-05-31 17:42:31 7212 4

原创 数据挖掘在舆情分析中的应用,我们是怎么看《后浪》和《非浪》的(一)

五四期间,B站推出宣传片《后浪》,引发了热烈的讨论。很多观众认为,视频中所展现的光鲜亮丽的“后浪”生活,并不能代表时下年轻人负重苦逼的真实状态,明明是最倒霉最内卷的一代,却被认为是最有选择最有机会的一代。接下来几篇文章,我将从数据分析的角度来挖掘这一事件,所有数据均爬自于小破站涉及两个视频:《后浪》和《非浪》具体包括视频评论、弹幕、用户信息等分析方法主要是非文本分析(比如评论量趋势,用户属性分布、俩视频信息对比等)文本分析(词频统计,主题聚类,情感分析等)用到的工具有:Python

2020-05-16 22:37:27 840

原创 从肖战专辑《光点》的销量谈起,简析完美数据中的bug

一张专辑,一首歌,四天不到,“一个亿的小目标”就这样轻松达成。我恰柠檬了,作为一个酸精,今天就借这篇文章来挑一挑这“一个亿”的刺。数据源自于【微博肖战数据站】,时间从2020/4/25 10:00:00到2020年4/26 22:30:00,大概每小时更新一次,累计销售额8000万+,可惜并没有更新到破亿,如果读者有相关数据资料,能提供就最好啦。整理后的销售量如下:我要做的分析很简单,找b...

2020-05-04 12:45:45 24795

原创 新冠疫情对20年校招的影响分析——以某高校就业信息网数据为例

受新冠肺炎疫情的影响,今年绝壁是求职最最艰难的一年,就算有政策扶持,可就连相对easy的“校招”也成了hard模式,年前辞职的考研失利的秋招未落实的萌新们,要哭晕在厕所。疫情对校招的影响究竟有多大?咱们通过某高校就业信息网数据的来量化这个问题。先获取数据,这是某高校的就业信息网,校内宣讲部分的信息完全是停滞状态,在线招聘部分发布了一些招聘信息,就爬取这部分数据。爬虫整理成如下格式,共81...

2020-04-29 23:32:28 1266 2

原创 疫情下的数据技术应用——基于轨迹分析的风险预警

前几天去了一趟武汉,管制依然严格,所有区域实行分块管理,每过一个关卡都要扫码以记录个人的行动轨迹。就是上面这样,每扫一次码就形成一条id+时间+站点+标注的记录,表示某人某时在某地干了啥事。这个数据可以用来做疫情预警,当然,这里只是粗浅地谈谈思路,实际应用会复杂很多。比如说道德风险,有些地方扫码全凭自觉,数据未必是完整的;还比如行为的模糊性,我们真正关注的是一段时间内人的行为,但这些数据记录...

2020-04-18 22:25:53 1128

原创 数据分析 算法练习1(R语言循环与函数)

这是美团招聘数据分析的两道算法题:一、污水处理问题;二、棋盘颜色翻转。解决思路是R语言的循环与函数。一、【污水处理问题】一家污水处理厂通过去掉污水中有害的污物来净化水质,生产出用于灌溉使用的水源。该处理过程每小时可以去掉处理池中剩余污物的12%。问:1.一天后处理池中将大概处理掉百分之几的污物?2.要多长时间才能把污物的量减少一半?#1x<-0for (i in 1:24) ...

2020-04-09 11:06:03 574

原创 tableau复合图形示例:三张图形描述一张成绩单

之前介绍过基本统计图形,虽然简单但反映信息有限。有时为了展示更丰富的信息,需要采用带交互功能的复合图形。在作图的过程中有两点值得注意:一,掌握基本统计图,这是复杂图形的根基;二,不要炫技式作图,目的在于呈现信息。好了,进入正题,这是我在逛tableau可视化库时收藏的一份作品:All the Books I’ve Read (2009-2019),作者用一张仪表盘展示了她这十年来读过的书,里面...

2020-04-06 11:24:23 1197

原创 公考之申论话题分析——基于词云和主题聚类

随着今年的疫情这么一闹,本就热门的公考定然比以往更让人关注。这篇文章就聊聊申论,用文本挖掘的方式来分析话题重点。这是一个整理了一些申论范文的网站,我将从这个地方爬下全部数据。...

2020-03-31 12:10:32 755

原创 “啤酒—尿布”的目标群体定位分析

之前写过一篇关于商品联合销售的文章,借助于apriori算法做关联分析,成功地从订单数据中挖掘到类似于“啤酒——尿布”的频繁模式。现在我们就来解决另一个问题:定位商品组合的目标客户,即为“啤酒—尿布”寻找对应的“奶爸群体”,以实现个性化推荐。案例来自IBM SPSS Modeler官网,包括两份数据,订单数据+用户属性数据。模型为决策树,通过C5.0 规则归纳,描绘已标识产品组的购买者的特征。...

2020-03-28 22:19:26 438

原创 数据挖掘的典型商业应用

上篇文章《数据挖掘的一般流程》说到,数据挖掘实际上就是一个解决问题的过程,那它可以解决什么样问题呢?一说,有以下四类:预测eg:买或者不买,买的话买多少发现内在结构eg:样本间的相似性,分群关联性eg:啤酒与尿布模式甄别eg:异常值识别,欺诈分析这些问题几乎存在于各个领域,所以说数据挖掘的行业应用非常广泛,就其中最典型的若干商业应用,画个图供大家参考,两个维...

2020-03-26 21:14:44 926

原创 数据挖掘的一般流程

数据挖掘的一般流程:数据挖掘的基础:数据没有数据,谈何挖掘,巧妇难为无米之炊;没有相对有效的数据,模型再好,挖掘出来的信息也是无用的,Garbage in, Garbage out。数据分析并不要求数据完美,本来就有很多方法比如缺失值插补、Bootstrap抽样来应对这个问题,但是数据缺陷一定是有限度的。数据挖掘的目的:业务大多时候,做数据挖掘,不仅是玩数据而已,我们希望的是它能为实际...

2020-03-24 11:11:51 391

原创 淘宝用户行为分析(四):行为聚类

在上一篇文章,我们初步探讨了这份淘宝用户数据所体现的用户行为特点,具体说到一次淘宝行为是怎么开始的,怎么结束的,当中又会涉及多少种累计多少次小的动作。这篇文章是上一篇的延伸,我们将继续研究用户的行为特点。依然将用户-商品-时间段-点击数-加购数-收藏数-购买数记为一次淘宝行为,但统计周期改为1个月,原因有两点:周期过长过短都不能概括一次淘宝过程周期过短,有网购经验就会明白今天的购买并不是...

2020-03-20 16:31:45 5376 7

原创 淘宝用户行为分析(三):行为特点分析

这篇文章的目的:淘宝用户数据的行为转化分析。经过前面的介绍,我们知道用户存在四种行为:一般来说,谈及行为转化分析,会用到桑葚图和漏斗图,但这份数据却不可以直接适用,原因如下:涉及大量商品和用户,纵横交错,A商品的收藏与B商品的购买本来没有关系,但在漏斗分析里混同。点击—加购—收藏—购买没有一定的顺序,这是从数据里得出的结论。解决方案:只对单个商品做漏斗分析不纠结顺序,考虑将 ...

2020-03-18 20:08:59 2269

原创 淘宝用户行为分析(二):指标与可视化

指标计算是最基本的统计方法之一,它尝试用少数综合变量去概括原数据的特征,最常见的比如均值、方差。以上次的淘宝用户数据为例,介绍与此相关的一些重要指标。...

2020-03-17 17:21:49 1380

原创 淘宝用户行为分析(一):点击—加购—收藏—购买

前面研究的都是用户下单后的行为,是基于已经生成的订单数据,接下来几篇文章将把重点放在下单之前的用户行为分析。数据来源于 Season 1 of Ali Mobile Recommendation Algorithm Competition是一份跨期1个月且经过脱敏处理的淘宝用户行为数据,共1225 6906行,6个字段如下,主要涉及用户click, collect,add-to-cart , ...

2020-03-11 21:06:00 3150 2

原创 销售数据分析——tableau仪表盘示例

前面对于用户的研究,多是基于数据挖掘的角度,利用模型或算法,尝试挖掘数据更深层次的信息。这篇文章将从数据分析的另一个视角,以指标聚合计算、图形可视化等非建模的方式,来描述一份数据,并以仪表盘的形式呈现出来。源数据是一份零售电商销售明细,跨度 3 个月, items 数 25 万+,涉及10681名用户,10780件商品。主要工具为tableau,考虑从销售情况、订单周期、用户价值、商品价值、...

2020-03-10 12:46:11 6686 5

原创 基于协同过滤的商品个性化推荐

上次在用回归模型研究豆瓣短评top500的代表性时,爬了一份用户影视评分数据,今天结合协同过滤算法,做一个简易的“推荐系统”,将特定商品——影视作品推荐给潜在感兴趣的参与打分的用户。数据:包含24594条记录,涉及54部影视作品和19317算法与R语言包:协同过滤算法、recommenderlab具体步骤:数据预处理(主要是转化为稀疏矩阵)——推荐建模(topN;评分状况)+ 结果分析...

2020-03-09 11:45:35 1539

原创 个性化推荐的几条思路

推荐系统,大家基本不会陌生。哔哩哔哩在主页给用户推荐的视频,网易云的“每日音乐推荐”,游览网页时狗皮膏药似的电商广 告,都是推荐系统的实现形式。关于个性化推荐的方法,这里大致总结一下。基于KNN的协同过滤应该是最常用的推荐算法。通常分为两种:基于用户:根据用户的相似性,给特定用户推荐与他相似的用户所购买的商品;基于商品:根据商品的相似性,给购买特定商品的用户推荐与之相似的商品。...

2020-03-08 16:07:06 666

原创 常见数字规律:帕累托定律与本福特定律

帕累托定律:又名二八定律,揭示了一类常见的投入-产出不平衡的现象,认为80%的产出实际上是由20%的最top的投入决定的。这个定律应用非常广泛,比如,最有少部分大客户,贡献了大部分的销售额;财富分析发现,巨量的财富掌握在少数人的手中。以之前的订单数据为例,从商品和用户对销售额的贡献两个角度,进行帕累托分析:红色虚线标记了理论上20%-80%,实际上有出入。从商品帕累托图来看,商品的价...

2020-03-07 16:20:30 1850

原创 随机数模拟应用,以集五福分钱为例

上次写了一篇文章,关于支付宝集五福的模拟过程,这次谈另一个问题,分钱。去年集齐人数就近3亿,瓜分金额5亿。如何分这个钱,既服从一定的分布,又基本随机,又刚好分完。这个问题在IT那里非常常见,但现在我想从另一个角度,统计抽样,来解决这个问题。未来路效率缩减数量级,3000人分5000,原理是一样的。想服从怎样的分布正态、均匀、二八原则…… 参考链接这里以均匀分布为例,希望每个人得到的金额...

2020-03-06 13:19:04 265

原创 从统计回归的角度看,豆瓣500热评真得有代表性吗?

上次写了一篇关于《北灵少年志之大主宰》的短评分析链接1,用热评500是在无法取得完整短评下不得已为之的结果,现在咱们来重申一个问题,豆娘放出来的短评top500,是真得能代表全体的意见领袖吗?考虑用多元线性回归和CART回归树来进行验证。

2020-03-05 11:05:45 302

原创 常用统计模型与算法

基本统计方法方差分析:研究分类变量与数值型变量的相关关系相关分析:主要研究数值变量间的线性相关关系列联分析:研究分类变量间的独立性常用模型与算法主成分分析:将多个变量规约为少数几个综合变量,新变量为原变量的线性组合因子分子:从多个变量中提取少数几个内部因子,每个原始变量均为内部因子的线性组合两者都是变量降维的重要方法,另,主成分可用于综合指标体系的建立,因子分析可用于研究变量...

2020-03-03 18:56:53 4552

原创 基于apriori算法的商品关联分析,寻找类“啤酒-尿布”模式

先给大家介绍一个啤酒与尿布的故事。沃尔玛在观察消费者购物行为时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒,于是尝试推出将啤酒和尿布摆在一起的促销手段,结果尿布和啤酒的销量都大幅增加。做着类似业务的医药电商受到启发,是否也可以从自己的历史订单中提取到类似于“啤酒-尿布”的频繁模式,进行联合销售,并找到对应的“奶爸群体”,实现个性化推荐呢?今天我们来解决第一个问题,利用apriori算...

2020-03-02 20:12:23 2028 2

原创 基于决策树的用户群规则归纳

上篇文章通过聚类分析将全体客户群分4个类别,并保存了每一位用户所对应的类别。现在有几个新问题?1、特点描述太模糊,对各组的R、F、M比较是相对的,比如R有高频低频之说,但并没有给出具体的分割点。2、不可外延,现有客户的类别是给了,但若新来一份客户名单,业务人员又得抓瞎。为解决这个问题,我们引入决策树模型,为各个类别建立非技术人员也能读懂并使用的具体规则。一、源数据用户id+所属类别...

2020-03-01 15:57:25 876

原创 基于RFM模型与kmeans聚类的用户细分

前面主要是关于客户风险的分析,本文换一个角度,对客户价值做一点研究。用户与商品(or服务)是企业最重要的资产,当用户数量增长到一个比较庞大的规模,如何有效地管理是需要关注的问题,而用户细分、差异化运营正是是一个可考虑的方向。将相似的用户归类,给每一个类别贴上“标贴”,然后针对各类的特征制定差异化策略。核心流程主要包含以下模块:用户分群,要求不重不漏,群内差异较小,群间差异较大;对上一步得...

2020-02-29 12:51:54 3695

原创 数据探索与可视化(R的DataExplorer包)

这篇文章将介绍在完整数据挖掘过程中的三次可视化里提到的第一次可视化,没有人会在拿到数据的时候就马上去建模,最起码,我们得知道拿到的数据是什么样子,【数据探索】其实就是在给源数据“画初印像”。数据探索性分析主要包括以下内容:维度:行列数、变量名称取值:缺失值、异常值属性:数值or字符,离散or连续分布:偏度、是否正态、统计量以一份订单明细为例,在R里进行数据探索分析。librar...

2020-02-27 21:05:25 1781

原创 构建信用风险综合评价体系——基于主成分与因子分析

多维数据在建模过程中,会出现很多问题,在基于logit模型的客户信用风险预测一文中,有谈到关于变量降维的几种方法:(1)基于经验,简单但主观性很强;(2)基于变量的统计显著性,模型上可靠但未必实务上可用;(3)变量规约,即用因子分析、主成分分析等方法将多个变量分解或合成为少数几个聚合因子。之前用的是(1)和(2),这篇文章讨论第三种:主成分分析与因子分析。首先解决两个问题。什么是主成分分析与...

2020-02-27 12:53:38 2191 1

原创 数据挖掘过程中的三次可视化

先说为什么要用图?其一,图形往往能比文字传达更多的信息,此外,作为数据分析报告的阅读者,可能对我们的模型数据并没有兴趣,更吸引他的可能是最后的和图和结论。再说什么时候要用图?通常来说,在一次数据挖掘过程中,可视化有三次。

2020-02-26 20:25:14 488

原创 考研调剂信息爬取,以“小木虫”为例

近年来,考研的形势一年严峻过一年,但除了少部分上岸的幸运儿,更多的还是陪跑的炮灰。高分落榜数见不鲜,调剂是重要的补救措施,但由于信息的不对称,很多人其实本可以有更好的选择却生生错过了机会。小木虫调剂,一个专门发布研究生复试调剂信息的版块,分为招生信息和学生信息两部分,考生关注的主要是前者。跟大部分论坛一样,搜索功能很坑,页面也不友好。为了更快、更精准地找到需要的调剂信息,考虑把招生信息逐条爬取...

2020-02-22 13:41:46 5714 5

原创 水逆了一整年的王源,2020年年初能靠《大主宰》翻身吗?

《大主宰》,典型的流量+大IP模式,2020-01-30以来上线15天,豆瓣短评达13633 条,但迟迟没开分,想知道口碑究竟如何,索性用500条热评来窥一窥豹。源数据是从《大主宰》豆瓣主页爬取的热评500条,为什么是500?因为官方开放给读者的就这么多,作为最热门的“意见领袖”,还是有一定代表意义的。整理后的数据如下:四个分析方向:1.总的评分分布,最终(截止2020-02-14)评分;...

2020-02-14 21:54:06 889

原创 R循环语句在数据模拟中的应用,以支付宝集五福为例

集五福是由支付宝每年年关都要举办的福利活动,集齐5张不同的卡片即可瓜分5亿奖金,参与人数逐年增加,今年光集齐人数就近3亿。卡片是随机发放的吗?当然不,集过的人就知道“敬业福”是多么稀有的小东西;中奖人数是不控制的吗?我想主办方不会这么傻,奖金额固定的前提下,当然是参与人越多越好,但是若多过了头,个人奖金额只有几毛甚至几分,活动也自然会失去一些吸引力。综上,模拟预演是必要的,通过适当分配各卡片...

2020-02-05 21:15:38 360

原创 关于数据建模、可视化的“傻瓜软件”

谈到统计,有两种看法很多。其一,数数的,比如指标计算、报表统计这些,好像不需要专业人士,会点execl的就能做;其二,大数据,写代码搞计算机的,但实际上它跟IT的区别也不小。这两种看法都比较极端,但主流的确如此,市场上提供的要不是极low的“数据文职”,要不是招聘要求天花乱坠的全能岗位,跟普通人比被质疑专业度,跟IT比代码能力又差了点,两头不落好。但也别妄自菲薄,统计的价值是一直存在且独一无二...

2020-02-02 15:17:21 1416

原创 R-7.假设检验与轮廓分析

假设检验就是在根据样本信息和抽样分布对总体参数进行推断,通常用的就是两种:均值检验和方差检验,按检验方法可分为:参数检验与非参数检验。1、 参数检验T检验 U检验 F检验 卡方检验(分布检验)参考:R语言各种假设检验实例整理(常用) - ywliao - 博客园https://www.cnblogs.com/ywliao/p/6724334.html【数据分析 R语言实战】学习笔记 第七...

2020-01-27 16:43:33 1068

原创 客户信用风险预测——基于logit模型

在上一篇文章中,介绍了多元线性回归,该模型一般只是用来衡量数值型变量间的线性关系,当解释变量或者被解释变量为分类型变量时,可能就不再适用,需要引入新的方法,比如设置虚拟变量和选择其它分类模型。接下来就介绍一个简单的二元选择模型——logit回归,此时被解释变量是分类变量,取值为0或者1。引例:信用风险识别,用logit模型对客户的违约行为进行预测。...

2020-01-23 22:34:56 4803 3

原创 R-5.多元线性回归

在相关关系一文中,我们探讨了俩数值型变量的相关问题,相关系数可反映相关性大小和方向,相关性检验可证明相关系数的可靠性。但是,研究变量间的关系仅靠相关分析是不够的,为了获得更精确的数量关系以及做一些基本的推断,有必要引入线性回归模型,对这种数量关系做进一步的刻画。1、线性回归简介...

2020-01-20 21:28:27 658

原创 R-2.列联分析(分类数据的关联分析)

参考《非参数统计》王星第六章:分类数据的关联分析

2020-01-18 12:37:36 3348

原创 R-4.方差分析

项目背景,现有个xx条订单数据,来自xx个省的买家,现要分析,不同地区的买家的购物行为(比如订单金额)是否存在显著差异。有人觉得很简单啊,把各省分类汇总求个均值求个和就行,明显错误。比如A组:2,10, 100;B组56,56,;C组:20,26,22,24,这三组均值、和没有差别,但能说三组等价吗?方差分析同时考虑了组内方差与组间方差,在各组独立、正态、同方差的假设前提下,检验均值齐性,显然...

2020-01-09 21:10:11 534

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除