自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 层次分析法的一些理解

何为层次分析法?大名鼎鼎的层次分析法(Analytic Hierarchy Process, AHP)是将与决策相关的细分元素进行拆解,在此基础上做层次权重的方法,这是一种将定性与定量分析相结合的方法。应用场景是啥呢?当你需要根据多种因素(或元素),来对某个事物综合判断时,就可以用AHP啦:生活上,比如你毕业后想租房,自如给你推了几个房间,有的离公司近,有的租金便宜,有的环境好,有的周围生活便利,你要怎么选择?商品资源位的决策中,哪些商品应该放到最好的位置?商家价值衡量,除了能够量化的如销量、

2021-07-17 00:12:53 994

原创 用python实现一个完整的小案例

今天分享一个python的小实例,结合工作场景,对工作中经常会用到的一些函数进行实操。仔细阅读哦,适合新手小白的避坑指南~吼吼,直接上实例!step1 妥妥的导入各种工具包,numpy, pandas之类的,这步一般不会出错,略过;step2 导入文件,工作中我们一般用csv文件,在存储的时候要存成utf-8格式的csv, 敲黑板哦!如果存错格式,会有各种报错。step 3 处理数据这是经常会忽略的一步,你会看到上图中p_date的值都是20201027的样子,你确定这是int, 还是strin

2020-11-05 20:48:22 633 1

原创 非AB实验的效果评估

效果回归本质上属于统计学中的因果推断(Causal Inferences)问题。在统计科学中,因果 推断要解决的本质问题是剥离(或者说量化/控制)我们所不关心的外部协变量对结果的 影响,从而精准捕捉到我们最关心的那一个因素对结果的单一影响。之前有一篇文章简略的介绍过非AB实验下的效果评估方法 目录非AB实验下策略的效果评估方法回归模型构造法基本方法和数据案例解读回归模型构造法的局限倾向得分匹配法双重差分方法(DID)非AB实验下策略的效果评估方法回归模型构造法基本方法和数据在回归模型构建法中,我们

2020-10-27 17:13:47 1305 2

原创 大厂真实的AB实验方法论

这是一篇很详细的具有实操意义的AB实验方法论,为你揭秘一线大厂是如何进行AB实验设计与分析的,码字(画图)不易,求各位看官点赞、收藏、关注~Par 1 实验设计基本流程提出假设 -> 验证假设 -> 产品决策 -> 长期观察应用场景...

2020-10-23 11:10:39 4279 3

原创 AB实验分析方法论 - matching

这次我们来讲一讲AB实验分析过程中的一个基本方法论 Matching。Matching的方法其实大家在日常工作中都用过,一般是在大盘整体对比得不到显著影响的时候,继续寻找特征相似的细分用户进行对比分析,这其实是在‘术’这个层次把问题解决了。这篇文章呢,就帮你系统的梳理一下Matching的思想和逻辑,让你不但有术,亦有道。使用matching的必要性渗透率低:比如这个功能只影响了某一批人,所以在分析大盘整体情况时,效果往往不显著,这时需要根据用户的特征行为找到相似的用户,转变为分析这波用户在受到策

2020-09-18 17:27:03 2850

原创 机器模型的可解释分析-测算feature importance

首先推荐一本经典好书《可解释的机器学习》,Christoph Molnar著,朱明超翻译,公司的大佬也是通过学习这本书有了很多很有价值的见解~以下是我的读书笔记以及思考。宏观来说,构建机器学习模型的商业应用场景有两种:预测问题:给定x, 预测y.典型应用场景,如满房率预测,外卖配送时间预测,google流感趋势预测,沃尔玛啤酒与尿布等等。这类问题一般可容忍一个‘black box model’, 因此降低了对于Y理论框架的要求和特征工程的难度,一个高精度的模型, f(x1, x2,…xp)和f*

2020-09-03 11:12:50 3954 5

原创 Partial Dependence Plots - 部分依赖图实践

今天我们来聊一聊如果解读一个特征对模型的影响~说起特征对模型的影响,我们需要看两方面:一是通过PermutationImportance函数查看特征重要性(Feature Importance),这个是研究某一个特征对模型预测影响的大小;另一个是部分依赖图,反映这个特征如何影响了预测。上一篇推送我们已经介绍了特征重要性的知识,今天重点聊一聊部分依赖图的原理和应用。介绍PDP会展示一个或两个特征对模型预测的边际效应,我们可以通过绘制特征和预测目标之间的一维关系或二维关系图来了解特征与目标之间的

2020-08-16 23:54:07 5210 3

原创 品牌广告与效果广告的差异-计算广告读书笔记1

最近在读计算广告这本书,书中概念非常多,对于广告小白来说,很是需要时间理解一下。第一篇笔记呢,首先科普品牌广告和效果广告的不同点,其次简要介绍一下在线广告的发展历程。特别指出:借用了https://www.zhihu.com/question/29291644这篇知乎文章的一些内容。首先我们来梳理一下品牌广告和效果广告的不同点,科普一下~品牌广告 vs 效果广告推广目的不同(最根本区别)品牌广告:目的是建立品牌知名度,提升中长期购买率和利润空间。考核指标比较简单,如曝光量、覆盖人群、CPM(cos

2020-08-06 16:05:41 404

原创 hive sql实现随机样本的选取

hive实现数据抽样一般有三种方法(参考http://www.bubuko.com/infodetail-1022686.html):1. 数据块抽样 (tablesample()函数)利用tablesample() 函数, 根据hive表数据的大小按比例抽取数据,并保存到新的hive表中。例子: 将原hive表10%的数据存到新表,但是select语句不能带where条件且不支持子查询,需要通过建中间表或随机抽样解决。create table xxx_new asselect *...

2020-07-24 18:00:15 2970

原创 关于抽样

概率抽样是根据一个已知的概率来抽取样本单位(也称为随机抽样),概率抽样要求按照一定的概率随机抽取样本,也就是说每个样本都有一定的机会被抽中,同时每个样本被抽中的概率是可以已知或计算出来的,而当运用概率抽样的样本进行参数估计的时候必须考虑样本被抽中的概率(某种程度来说感觉类似贝叶斯,先验概率和后验概率的问题)。简单随机抽样——从总体N个单位里抽出n个单位作为样本(可以重复抽样,也可以不重复抽样),...

2020-07-24 11:29:14 271

原创 AB TEST小结

关于样本样本的内容引用自:https://zhuanlan.zhihu.com/p/40919260理论上,样本越多越好,工作中,样本量越少越好然而在现实操作中,样本量应该越少越好。这是因为:流量有限。大公司因为用户数量足够多,不用过于精打细算,同时跑几十个甚至上百个实验也没问题。但小公司一共就那么点流量,还要开发这么多新产品。在保证不同实验的样本不重叠的情况下,产品开发的速度会大大降低...

2020-07-24 11:28:50 743

原创 with cube, with rollup, grouping_sets

https://www.cnblogs.com/Brambling/p/6721119.htmlhttps://www.cnblogs.com/Impulse/articles/9273538.htmlcube的分组组合最全,是各个维度值的笛卡尔(包含null)组合,rollup的各维度组合应满足,前一维度为null后一位维度必须为null,前一维度取非null时,下一维度随意,group...

2020-07-24 11:28:35 62

原创 AB测试的局限性浅谈

首先,A/B测试只有在关键效绩指标(KPI, or Key Performance Indicator)单一,且这个单一明确的目标可以被电脑量化时,适用。可以通过电脑量化的目标包括:电子商务网站销售额,订阅邮件的用户数,在网上银行选择开户的用户数,下载白皮书、联系销售人员,或其他主动推进销售进程的用户数但是,这些数据(除了电商销售额)很少是网站追求的唯一目标。对于其他情况,比如,选择开户/注册的...

2020-07-24 11:27:55 575

原创 Python数据类型转化

在读这篇文章的时候https://mp.weixin.qq.com/s/fMI0gtpY426yPWp5NeKDGA涉及到很多datetime64[ns]和object,以及时间戳之间的转换,领悟到拿到数据集之后要先了解数据类型,做好数据清洗再做分析才是王道。数据类型的学习是来自这篇:https://www.cnblogs.com/onemorepoint/p/9404753.html学...

2020-04-01 21:39:19 246

原创 sql练习

近期一些sql练习题目汇总:select name, orderdate, cost, sum(cost) over(partition by month(orderdatee))from t_window;想要cost按月累加:select name, orderdat, cost, sum(cost) over(partition by name order by orderdate)...

2020-02-13 13:42:11 107

原创 sql笔试题目1

4.0 结构转换表tmp 两个字段user,profileuser profileabc key1:value,key2:value2def key1:value,key2:value2,key3:value3,key4:value4xyz key1:value需要转换标结构:user profile_key profile_valueabc key1 ...

2020-02-13 13:21:31 158

原创 SQL查询连续七天以上的用户(用户一天一次记录 & 一天多次记录)

SQL查询连续七天以上的用户创建表格create table orde(id varchar(10),date datetime,orders varchar(10));insert into orde values(‘1’ , ‘2019/1/1’,10 )insert into orde values(‘1’ , ‘2019/1/2’,109 )insert into orde va...

2019-12-05 10:51:47 4165

原创 SQL计算日环比、周同比

计算日环比、周同比范例表格如下:这是面试问到的一个问题,回来学习之后了解可以用这个函数:代码如下:select date,gmv,(gmv-gmv_1)/gmv_1,(gmv-gmv_7)/gmv_7from(select date,gmv,lead(gmv,1) over(order by date desc) as gmv_1,lead(gmv,7) over(order by...

2019-11-10 20:59:43 7580 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除