自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

livan1234的博客

大数据的应用不仅仅是技术的问题,但首先是技术的问题

  • 博客(193)
  • 资源 (10)
  • 收藏
  • 关注

原创 龙门石窟与洛邑古城的产品表达

总结上面的内容其实只有一句话,即:“我能简单直接的满足你,并且给你更多”。“简单直接”是够轻松,“能满足你”是接得住,“给你更多”则是能升华,这也给出了产品设计的三个层面,用通俗的语言做了表达。

2023-10-06 13:22:30 144

原创 市场分析:洞悉客户决策过程

消费决策是市场对企业满意度的最直接表达,也是企业洞察客户的最重要来源。以客户为中心的理念要求企业从用户的行为出发,体系化、细致化分析客户深层次的需求。决策表面上是一瞬间的动作,其背后的内容却极其复杂,让我们一起来探索决策背后的秘密~

2023-02-05 02:46:20 428 1

原创 价值创造链路及经营计划

通过上面五个环节的梳理,行动计划逐渐落地到企业中,执行过程中基于对核心指标的监控和分析,反复优化问题点,完成企业与市场之间价值交换的过程。

2023-01-15 23:58:22 610

原创 经营的本质是价值交换

基于“市场价值”逻辑,企业是市场生态中的一个节点,即完整独立又相互联系,为应对市场中五种力量引发的快速变化,企业经营需要从整个市场生态中考虑方案,基于图4逻辑全盘考虑自身及环境,构建出全方位经营方案,即:对内“多角色步伐一致、以结果导向构建经营效果”,对外“全流程多渠道整合经营、协作网络健康畅通”……

2023-01-07 23:53:52 365

原创 数据报告重要的是业务看得懂

通过上面三个维度的构建,业务侧看得懂的指标平台便构建完成。对于规模化、持续化、标准化的东西需要通过平台和规范来协同约束,指标平台后续的工作重点便是构建指标规范、完善数据治理、平台角色分工等规范层面内容。

2023-01-05 00:07:26 311

原创 效果分析的关键是指标能算出来……

在这篇文章中我们梳理了指标的加工流水线——指标库,并在流水线的基础上梳理指标的分类和加工过程。两条链路相互协同下,指标计算结果可以快速输出,同时输出指标的口径和属主,数据使用人员能够明明白白使用指标,随着指标库中指标的累积和使用规范的完善,企业中看数据的问题会逐渐减少,不过对于平台性能的压力需要做一些权衡……

2022-12-19 15:03:31 438

原创 数据驱动下的客群经营逻辑

是否夫妻,这一特征很多平台获取不到,为得到这一特征可以通过一些预测的方式,做一些概率层面的信息补充,客户每天晚上10:00到第二天早上6:00访问同一WIFI热点,同时有另外一个设备同时频繁接入当下WIFI,且两个设备访问内容存在明显男性和女性的差异,是否可以推断出这两个人是夫妻关系?当然这是一个概率推断逻辑,不乏有推导错误的情况,但是通过不断丰富这一逻辑,可以无限接近真相~

2022-05-15 15:33:49 360

原创 HiveSQL函数优化原理

更多内容,欢迎观众公众号:livandata1、group by的计算原理:代码为:SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;可以看到,group by本身不是全局变量,任务会被分到各个map中进行分组,然后再在reduce中聚合。默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。ma.

2021-01-21 10:28:05 970

原创 基于Pyspark进行PCA主成分分析

了解更多内容,欢迎关注公众号:livandataPyspark是近段时间笔者接触到的比较高效的大数据处理工具,他的亮点是整理出了数据分析过程中两个最高频应用的工具:pandas的DataFrame包和sklearn包,能够方便的完成数据处理及模型构建两块内容,上一篇笔者整理了Pyspark的常规用法,本篇以一个案例的形式串联一下pyspark的内容:在小数据集中构建一个PCA模型是非常方便的,DataFrame构建完成后直接调用sklearn的PCA包即可,那么,在大数据集中是否也是这样方便呢?

2021-01-21 10:05:55 1762

原创 深度学习与推荐系统(十五)——LS-PLM(MLR)模型

CTR预估的发展过程中,LR模型是比较常用的方法,因为其计算量小容易并行,工业上应用非常广泛,同时也引发了各位大佬基于LR模型的优化改进,这一改进通常有两个方向,一个是走融合路,即GBDT+LR样式,将LR模型与其他的模型算法结合,达到优势互补的效果;另一个就是因子分解,即FM系列探索,它们的主要思想就是构造交叉特征或者是二阶的特征来一起进行训练。除此之外也会有一些大佬给出一些新的思路,比如本文中介绍的LS-PLM模型(又叫MLR模型),这一模型是用传统的机器学习方法模仿了深度学习的结构,采用divid

2020-09-15 09:55:17 2332

原创 推荐算法模型应用——策略运营沙盘与促活引擎

个人公众号:livandata前面聊了那么多推荐类的算法,具体在数据产品中该如何应用呢?是不是这些推荐逻辑只能应用在推荐系统中呢?我想未必的,用户兴趣在业务逻辑中几乎可以渗透到工作的方方面面,简单来讲:无论什么业务,但凡接触客户,就给他最喜欢的东西,是不是一个最好的策略?答案可能是未必,但是在大部分领域还是非常有价值的,笔者在这一文章中跟大家分享一下两个常见的应用方向:1)活动受欢迎程度、最佳人群/活动推荐:1.1)我们根据经验设计了一个闪闪发光的活动,是否真的符合当下公司的客群?1.2

2020-09-06 01:08:20 1094

原创 增长黑客AB-Testing系统设计

个人公众号:livandataAB-test思路数据驱动概念兴起的同时,AB-test也同步出现在大家的视线中,各互联网大厂率先引进了AB-test系统,希望通过循环的测试,上线最符合公司客群的产品。这一理念一出引发行业内各个公司的效仿,各种宣导纷至而来,那么,什么是AB-test?什么样的公司能迅速构建出AB-test系统?我们今天来一起聊一下:什么是AB-test?携程的大佬们曾给出一个定义:AB试验可以简单的认为是传入一个实验号和用户分流ID到AB试验分流器,分流器吐出分流版本A、B

2020-09-06 00:45:28 541

原创 深度学习与推荐系统千字文——Attention机制

缘起注意力机制模仿了人类观察事物的过程,将其应用到深度学习中,人观察事物会分为两个过程:扫描全局,获取重点关注区域;对重点关注区域深化研究,并抑制其他无用信息。如上图,查看整个图形分两步:扫描重点文字,重点观看文字。注意力机制沿用了这一思路:先通过一个深度学习框架,实现扫描重点信息的功能,将重点信息存储在一个中间网络中,然后再通过另一个深度学习框架解读并深化中间网络中的信息。这其中,最普遍的框架为:Encoder-Decoder框架。注意力机制价值...

2020-07-15 00:33:16 479

原创 推荐系统与深度学习千字文——FFM模型原理

上一篇我们讲解了FM模型:推荐系统与深度学习(一)——FM模型原理从FM的公式我们可以看出: FM中每个特征所对应的向量是唯一的: Vi是Xi的向量化表达,多个特征相乘的时候,只需要将Vi相乘,这一模型的优势在于考虑高维特征组合的情况下最小化运算量,但是问题也是有的:这一模型没有考虑各个特征之间的关系,而不同特征之间的关系恰巧是不一样的。例如: Publisher与Advertisor可能是正相关/强相关,Publisher与Gend...

2020-07-15 00:30:42 503

原创 深度学习与推荐系统千字文——FM模型

前言简单的机器学习模型构建往往假设各个特征之间相互独立,并基于特征独立进行模型训练,例如:LR、SVM;但是实际场景中特征往往存在相互关联的,比如:女性更喜欢化妆品类广告,男性更喜欢球类装备广告:女性—化妆品,男性—球类设备两者之间的关联性较高。因此,关联特征需要考虑引入到模型建设中。关联特征在one-hot变化中是按照笛卡尔积的形式呈现的,容易引发高维灾难,比如性别和品类的关联特征如下:(男/球类)的向量为(女/球类,女/化妆品,男/球类,男/化妆品),on...

2020-07-15 00:27:45 401

原创 web爬虫学习(六)——CSS反爬加密彻底破解

笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata0 惯性嘚瑟刚开始搞爬虫的时候听到有人说爬虫是一场攻坚战,听的时候也没感觉到特别,但是经过了一段时间的练习之后,深以为然,每个网站不一样,每次爬取都是重新开始,所以,爬之...

2020-04-10 10:05:44 3786 12

原创 假期过后,你的元气值恢复了吗?

清明三天假期眨眼就划过了,你的元气值恢复了吗,还是依然感觉疲惫?(关注公众号:livandata,回复:元气值,即可获取本文案例的代码)随着工作年限的增长,这一感觉似乎越来越明显,似乎一周七天里面最累的是周一——黑眼圈、惺忪眼、哈气连天,不自觉会想起曾经那个三天网吧,三天课堂的少年。那么,如何才能预测出一个人的工作恢复能力呢?笔者借着小伙伴的调研,做了简单的探索。有兴趣的小伙伴可以简单...

2020-04-07 23:50:57 533

原创 如何预测“他”什么时候住酒店?

看到这个题目,大家是否会有一些小小的想法?别闹~笔者是一个正经人,讨论的也是一个技术问题,哈哈~每个人的行为都是有迹可循的,这些蛛丝马迹可以作为预测的数据支持,有没有想过一个人什么时候住酒店能够被预测出来?笔者作为一个从事机器学习方面的程序员,对这一问题表示肯定,因为,如果不信就没有工作了。笔者以为:所谓预测即为通过历史上遗留下来的蛛丝马迹:行为、订单甚至大厅门口的摄像头,判断某个...

2020-03-29 23:49:33 566 1

原创 一文系统搞懂协同推荐算法(二)

笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata不知大家对推荐算法有没有一个系统的了解,推荐本身的逻辑很简单,就是需要找到用户喜...

2020-02-16 16:55:22 1481

原创 一文系统搞懂协同推荐算法(一)

推荐系统的重要性已经不需要过多的强调了,随处一搜索就能看到各领域的大佬告诉你推荐系统的构建方法,面试的时候不讲几个协同都不好意思说自己懂算法,各个资料都会对协同的每一个细节详细描述,不知大家看完之后有没有一个感触:各个知识点都了解了,就是串不起了,而且也多少会有些疑惑,就这么简单?被全宇宙的人推崇的推荐算法就是简单的几个表的来回计算吗?那平时我们应用的机器学习的各种算法都去哪里了?1、协同推荐...

2020-02-15 22:04:00 4129

原创 数据处理奇技巧——python篇

1、数据读取前五行方法:1)pandas读取时限定行数:此方法只将前5行读入到内存中,所以比较快速。import pandas as pddata = pd.read_csv('sub_customer.csv',nrows=5)2)head函数:也是pandas中的用法,不过这个用法需要将大量数据存入到内存中,然后才会读其中的前5行。import pandas as pd...

2020-01-04 20:49:33 901

原创 数据处理奇技巧——hive篇

1、pmod(int a, int b):返回a除以b的余数的绝对值;cast(aaa as int):将string转化成int;cast(aaa as decimal(10, 2)):将string转化成float,保留两位小数;2、trim(String A):去除A两侧的空格;ltrim(String A):去除左边空格;rtrim(String A):去除右边空格...

2020-01-04 20:45:12 2953

转载 产品运营都必须知道的数据指标们

文章转载自公众号PB产品,作者 Soso 数据指标,在大多数时候确实可以衡量一个产品的好坏表现,不仅如此还可以帮助我们找到问题点,避免拍脑袋式的思考模式。近期经常碰到有些同事来问关于数据指标类的问题,因此本期期刊首先向大家介绍一下一些基础的数据指标的知识点。我们基本可以把用户行为指标分解成以下几种类型:点击浏览类指标用户活跃类指标最终转化类指...

2019-09-06 23:54:58 4076

原创 网站分析19——数据可视化及数据报告规范

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata数据分析的一个总体步骤如下,可以看到,数据可视化非常重要。第一种为柱状图:第二种为曲线图:第三种为饼图:第四种为散点图/气泡图:第五种为雷达图:...

2019-07-21 11:39:02 1515

原创 网站分析18——网站竞品分析

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata如何利用appstore来看你的创意是否可行?app的竞品分析可以在各大商城里查看他的下载量;主要查看的指标为:下载量、用户评价、应用详情页是否清晰;apple会每周更新精品推...

2019-07-20 23:15:53 2584

原创 网站分析17——数据分析的生命周期以及用户画像进行个性化运营

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata1、数据分析的生命周期为:2、如果有逼格的提出一个问题:一般是基于场景的,比如:运营中常有的情况是pv下降,如果直接问:为什么我的pv下降了?估计没有人能回答,作为运营人员...

2019-07-20 23:13:48 787

原创 网站分析16——移动产品数据分析的五大维度

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata1、用户规模和质量分析:1)活跃用户指标用户启动app的次数和时长的指标。活跃用户数可以分为:日活、周活或者月活等。2)新增用户指标安装app之后首次激活用户的一个指标...

2019-07-20 23:02:07 1074

原创 网站分析15——数据分析常用数据指标

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata除了前面的运营指标外,数据分析还有一些整体的分析指标,请了解:运营指标:https://blog.csdn.net/livan1234/article/details/96600265...

2019-07-20 17:09:03 1323

原创 网站分析14——网站分析的思路、方法和模型

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata1、常见的网站分析需求为:1)用户价值衡量:FRM模型+马尔可夫链最近购买日、购买频率、购买金额;网站运营人员通常会将浏览网站的用户划分等级,因此需要建立一套顾客价值分析体系,...

2019-07-20 17:00:30 1219

原创 网站分析13——AARRR模型和留存率

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata运营模型中的经典模型:1、AARRR模型:Acquisition(获客):获取客户的指标。Activation(活跃):活跃度。提高活跃度的方法:获客渠道与产品定位相匹配,...

2019-07-20 16:45:42 1180

原创 网站分析12——收益控制流的指标

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata1、总收益2、流量类收益3、销售类收益订单包括所有的状态,比如:退换货等~4、会员类收益5、促销类收益我的公众号为:livandata...

2019-07-20 16:40:55 204

原创 网站分析11——成本控制类指标

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata成本是公司不得不考量的部分,常见的指标有:1、总成本以亚马逊为例,虽然他不盈利,但是总成本非常低,维护这个企业的现金流足够,所以市值非常高。2、流量类成本CPM:每...

2019-07-20 16:35:27 1229

原创 网站分析10——产品会员类指标

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata会员是一个公司,或者一个网站的主要维护对象,下面介绍一些对会员用户的指标:1、整体会员指标:用户活跃度的定义表:会员活跃度的整体指标可以从表上计算得到。会员营销实际...

2019-07-20 16:31:02 1714

原创 网站分析09——产品运营的指标(2)

数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata本文主要分析了一些常用指标,与上文中有些重合,权当复习,同时新增一些常见指标:https://blog.csdn.net/livan1234/article/details/88...

2019-07-20 16:21:12 829

原创 网站分析08——使用student’s T检验的未必是学生

笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中有趣的事情。我的公众号为:livandata一直想整理一下统计方法在网站分析中的应用,刚好前几天遇到类似的问题,借这个机会整理一下网站分析中T检验的思路。在统计面前我们并没有生产方法,我们只是方法的搬运工,希望能用的恰到好处而已...

2019-07-08 23:54:50 2378

原创 实战演习(十三)——遍历文件夹中的所有内容

笔者希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata在数据收集过程中,会有各种各样的格式,同时这些文件也存储在不同的文件夹中,为了方便起见,此处整理出一个可以遍历各个文件...

2019-06-22 13:16:01 337 3

原创 实战演习(十二)——基于关联规则分析用户行为频繁项集的关键页面

笔者希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata啤酒尿布的案例是引发大数据思考的一个非常重要的案例,自从这个案例出现之后,对其进行深度研究的人员不计其数,本文是基于网...

2019-06-12 20:47:58 915 1

原创 实战演习(十一)——使用LSTM构建文本分类模型

笔者希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata由于工作中应用,需要对文本进行分类,主要是对客户的反馈信息进行分类,确定客户的反馈投诉是指的哪个部门的问题,然后自动的...

2019-06-12 20:29:19 2532

原创 网站分析07——内容效率分析

笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中有趣的事情。我的公众号为:livandata流量导入到网站中后,我们并不知道网站本身有没有偷懒,为了解决这一问题,提出了网站内容效率分析,如下:1、网站页面参与度分析:在客户目标完成后,哪些页面参与了这一流程,页面参与流...

2019-05-19 17:10:33 1008 2

原创 网站分析06——路径分析

笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中有趣的事情。我的公众号为:livandata流量分析经常会用在产品设计过程中,我们可以根据用户在各个页面上的行为数据,分析用户在操作过程中产生的一些问题,进而修改产品,分析的点一般为行为路径分析、落地页分析、效率分析、异常检测等...

2019-05-17 17:24:31 1333 2

frequency_linked.rar

主要是分析了用户访问页面的过程,借用啤酒尿布的思路,融合分布式处理思想,探索了用户访问页面之间的关联性

2019-06-12

movie_analysis.rar

附件为机器学习的应用案例,主要是应用了LSTM模型,对电影的信息做一个分类~

2019-06-12

网站分析三剑客

主要录入了网站分析实战、wireshark等三本资料,希望对大家有用处~

2019-03-28

python基础学习笔记

主要是在学习过程中做的一些笔记,供大家使用,也方便与大家讨论

2018-08-02

爬虫学习笔记

主要是将自己学习过的爬虫知识进行汇总,其中也有很多代码案例,供大家使用

2018-08-02

机器学习笔记

在学习机器学习的过程中,一路学习,一路笔记,形成了现在的一个文档,上传上来,供大家使用

2018-08-02

抖音问答弹窗代码

之前抖音上有跳出vb的弹窗代码,用来搞笑,我也实现了一下,感觉还比较不错,把他放到开机自启动的文件夹里,效果会很不错

2018-08-02

hadoop学习资料(一)

本文档是个人学习hadoop过程中做的笔记,文档(一)中含有1-16周的课程笔记,后面的内容会继续更新,希望以这样的方式激励自己学习,同时也分享信息给到更多想学习的同道人~

2018-07-30

机器学习常用算法汇总

本文为个人面试机器学习方面工作过程中,对机器学习中的常用算法做了一些汇总,个人认为非常全面,也希望对其他人有些帮助

2018-07-27

斯坦福机器学习讲义-中文版-黄海广

本资源为学习使用资源,作者写的非常详细,感谢作者的贡献~

2018-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除