渔好学-CSDN博客

原创产品和数据应该知道的AARRR

产品和数据应该知道的AARRRRianBAT数据科学家个人公众号: Data Science数据科学之美一、背景无论是产品经理还是数据分析师在日常工作中, 都需要构建一个完整的指标体系, 但由于经验或者对业务的熟悉程度, 产品经理和数据分析师经常会遇到下面的问题:1）指标变成满天星：没有重点、没有思路，等指标构建完成了也只是看到了一组数据，各有用处，却无法形成合力，最终不仅浪费了开发人力，也无益于业务推动；2）指标空洞不落地：需求中没有几个具体的指标，需求空洞，无法落地。正是上面的原因，产品

2020-07-20 13:08:37 298

原创 PCA 主成分分析 R 语言实现

主成分分析（PCA）是一种数据降维技巧，它能将大量相关变量转化为一组很少的不相关变量，这些无关变量称为主成分。探索性因子分析（EFA）是一系列用来发现一组变量的潜在结构的方法，通过寻找一组更小　的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。1.R中的主成分和因子分析R的基础安装包中提供了PCA和EFA的函数，分别为princo...

2020-07-17 14:40:11 1118

原创 Hive SQL随机抽样

使用Hive随机抽样  <div data-note-content="" class="show-content"> <div class="show-content-free"> <h1>1 在hive中使用rand简单随机抽

2020-07-17 14:39:35 492

原创互联网产品中的数据体系搭建

一、什么是指标体系先举两个轻松的例子现实生活中的男女生评价指标我们在判断一个男生或者一个女生是否在意你的时候, 我们会用绝对值指标比如: 主动发消息数, 回复消息数, 回复消息时间, 年送礼物数, 月制造惊喜数比率型的指标: 发给你的消息数/其他人的消息数, 发给你的消息延迟时间/总平均延迟时间二分值的指标: 比如是否规划未来, 是否会耐心沟通, 是否会愿意去磨合和迁就, 朋友父母评价情况所以微博上用阿娇老公在结婚前 “安排游玩的次数”, 以阿娇”为老公医药所打call的次数” 这两

2020-06-14 12:53:08 502

转载谷歌微软等科技巨头数据科学面试107道真题：你能答出多少

General QuestionsAppleSuppose you’re given millions of users that each have hundreds of transactions and these millions of transactions are for tens of thousands of products. How would you group th...

2019-04-24 21:11:43 942

原创一篇写的很好的XGBoost的博客

转一篇写的很好的XGBoost的博客（于简书转载） 2017年12月23日 17:05:38 fourierr 阅读数：817 ...

2019-04-02 11:41:22 272

转载 kmeans聚类基本思想

聚类的基本思想俗话说"物以类聚，人以群分"聚类（Clustering）是一种无监督学习(unsupervised learning)，简单地说就是把相似的对象归到同一簇中。簇内的对象越相似，聚类的效果越好。定义：给定一个有个对象的数据集，聚类将数据划分为个簇，而且这个划分满足两个条件：(1)每个簇至少包含一个对象；(2)每个对象属于且仅属于一个簇。基本思想：对给定的，算法首先给出一个初始的...

2019-03-14 18:02:58 19918

原创 Hive分析函数和窗口函数

Hive分析函数和窗口函数在Hive 0.11之后支持的，扫描多个输入的行计算每行的结果。通常和OVER,PARTITION BY, ORDER BY, WINDOWING配合使用。和传统的分组结果不一样，传统的结果每组中只有一个结果。分析函数的结果会出现多次，和每条记录都连接输出。语法形式如下：Function(arg1,....argn) ...

2019-03-11 21:34:03 335

转载机器学习-10：MachineLN之样本不均衡

2019-02-21 20:28:15 176

转载图论概念：Degree Centrality 和 Betweenness Centrality

该概念是我看到：http://www.impactjournals.com/oncotarget/index.php?journal=oncotarget&page=article&op=view&path%5B%5D=14140&path%5B%5D=45094中的：Degree Centrality ...

2019-02-20 11:22:06 7475

转载 hive 抽样

在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样（SAMPLING）的功能，能够根据一定的规则进行数据抽样，目前支持数据块抽样，分桶抽样和随机抽样，具体如下所示：数据块抽样（tabl...

2018-12-18 17:54:45 198

转载 R语言与格式、日期格式、格式转化

2018-11-27 17:12:53 11029 1

转载 R语言数据集合并、数据增减、不等长合并

2018-11-27 17:10:19 1423 1

转载练习题︱基于今日头条开源数据（二）——两款Apriori算法实践

2018-11-27 17:06:43 287

原创连续变量最优分箱--基于CART算法

关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A. 无监督：(1) 等宽 (2) 等频 (3) 聚类B. 有监督：(1) 卡方分箱法(ChiMerge) (2) ID3、C4.5、CART等单变量决策树算法 (3)  信用评分建模的IV最大化分箱等本篇使用python，基...

2018-11-27 17:01:21 6607 2

转载完整的R语言预测建模实例-从数据清理到建模预测

概述本文使用Kaggle上的一个公开数据集，从数据导入，清理整理一直介绍到最后数据多个算法建模，交叉验证以及多个预测模型的比较全过程，注重在实际数据建模过程中的实际问题和挑战，主要包括以下五个方面的挑战：缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异以上的几个主要挑战，对于熟悉机器学习的人来说，...

2018-11-27 16:24:08 1651 1

原创完整的R语言预测建模实例-从数据清理到建模预测

概述本文使用Kaggle上的一个公开数据集，从数据导入，清理整理一直介绍到最后数据多个算法建模，交叉验证以及多个预测模型的比较全过程，注重在实际数据建模过程中的实际问题和挑战，主要包括以下五个方面的挑战：缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异以上的几个主要挑战，对于熟悉机器学习的人来说，...

2018-11-27 16:23:59 9953 1

原创多变量分析”——数据挖掘、数据分析

I。多重对应分析 多重对应分析在超过两个以上定类变量时有时候非常有效，当然首先我们要理解并思考，如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量，这时候就可以用简单对应分析了。对应分析对数据的格式要求：对应分析数据的典型格式是列联表或交叉频数表。常表示不同背景的消费者对若干产品...

2018-11-26 21:40:29 2709

原创多变量分析”——数据挖掘、数据分析

I。多重对应分析 多重对应分析在超过两个以上定类变量时有时候非常有效，当然首先我们要理解并思考，如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量，这时候就可以用简单对应分析了。对应分析对数据的格式要求：对应分析数据的典型格式是列联表或交叉频数表。常表示不同背景的消费者对若干产品...

2018-11-26 21:40:01 14814

转载多变量分析”——数据挖掘、数据分析

I。多重对应分析 多重对应分析在超过两个以上定类变量时有时候非常有效，当然首先我们要理解并思考，如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量，这时候就可以用简单对应分析了。对应分析对数据的格式要求：对应分析数据的典型格式是列联表或交叉频数表。常表示不同背景的消费者对若干产品...

2018-11-26 21:40:01 1131

转载用户贷款风险预测之Top10初体验

写在前面：DataCastle智慧中国杯全国大数据创新应用大赛：本次参加的是三大赛题中的用户贷款风险预测（算法竞赛）距离上次发博文又过去近两个月了，坚持写博客是件不容易的事，还得继续努力！中间过了个年，打了个比赛，时间过得真快，不过没有闲着，用寒假时间终于拿到比较满意的成绩。参加这个比赛是快放寒假的时候，想寒假找点事做做，当时就DC有三个比赛了吧，交通赛数据太大玩不动，教育赛觉得没意思，于是...

2018-11-15 21:33:58 317

转载 xgboost入门与实战（实战调参篇）

2018-11-15 21:30:30 292

转载 xgboost入门与实战（原理篇）

2018-11-15 21:26:26 255

转载 XGBoost中参数调优的完整指南（含Python-3.X代码）

CSDN：http://blog.csdn.net/kicilove/article/Github：https://github.com/zhaohuicici?tab=repositories原文链接：https://www.analyticsvidhya.com/blog/2016/03/comple...

2018-11-06 10:58:18 1217

转载 A road map to become a Data Scientist（上）

这是Swami Chandrasekaran所绘制的一张地图。名字叫MetroMap to Data Scientist。该地图一共十条路线，分别是基础原理、统计学、编程能力、机器学习、文本挖掘／自然语言处理、数据可视化、大数据、数据获取、数据清理、常用工具。●★● 基本原理：（1）矩阵和线性代...

2018-11-05 20:47:46 204

转载 A road map to become a Data Scientist（上）

这是Swami Chandrasekaran所绘制的一张地图。名字叫MetroMap to Data Scientist。该地图一共十条路线，分别是基础原理、统计学、编程能力、机器学习、文本挖掘／自然语言处理、数据可视化、大数据、数据获取、数据清理、常用工具。●★● 基本原理：（1）矩阵和线性代...

2018-11-05 20:41:37 274

转载数据科学家应知必会的6种常见概率分布

2018-11-05 20:14:24 3454 1

转载分类模型的评价指标--混淆矩阵，ROC，AUC，KS，Lift，Gain

对于分类模型，常用的指标有混淆矩阵、ROC曲线，AUC值，KS曲线以及KS值、Lift图，Gain图等，查阅了很多的资料，加入自己的理解整理了一下他们的计算方法和意义，希望对大家有帮助。1. 混淆矩阵---确定截断点后，评价学习器性能假设训练之初以及预测后，一个样本是正例还是反例是已经确定的，这个时候，样本应...

2018-11-02 15:47:50 1594

转载分类模型的评价指标--混淆矩阵，ROC，AUC，KS，Lift，Gain

对于分类模型，常用的指标有混淆矩阵、ROC曲线，AUC值，KS曲线以及KS值、Lift图，Gain图等，查阅了很多的资料，加入自己的理解整理了一下他们的计算方法和意义，希望对大家有帮助。1. 混淆矩阵---确定截断点后，评价学习器性能假设训练之初以及预测后，一个样本是正例还是反例是已经确定的，这个时候，样本应...

2018-11-02 15:21:19 898

转载 FM系列算法解读（FM+FFM+DeepFM）

综述　　在计算广告中，CTR是非常重要的一环。对于特征组合来说，业界通用的做法主要有两大类：FM系列和Tree系列。这里我们来介绍一下FM系列。　　在传统的线性模型中，每个特征都是独立的，如果需要考虑特征与特征之间的相互作用，可能需要人工对特征进行交叉组合。非线性SVM可以对特征进行核变换，但是在特征高...

2018-11-01 20:26:35 707

转载使用Apriori进行关联分析（一）

使用Apriori进行关联分析（一）　　大型超市有海量交易数据，我们可以通过聚类算法寻找购买相似物品的人群，从而为特定人群提供更具个性化的服务。但是对于超市来讲，更有价值的是如何找出商品的隐藏关联，从而打包促销，以增加营业收入。其中最经典的案例就是关于尿不湿和啤酒的故事。怎样在繁杂的数据中寻找到数据之间的隐藏关系？当然可以使用穷举法，但代价高昂，所以需要使用更加智能...

2018-10-24 11:57:57 696

转载斯坦福CS231N课程学习

斯坦福CS231N课程学习经过多方面的查找资料，对比学习，发现了一个很好的机器学习的课程，斯坦福CS231N课程，课程链接见：http://cs231n.stanford.edu/，课程的大纲和课程表见：http://cs231n.stanford.edu/syllabus.html，里面有课程中用到的ppt等资源，读者可以下载下来进行查看，课程的相关笔记见：http://cs231n.gith...

2018-10-22 00:08:07 122

转载连续变量最优分箱--基于CART算法

关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A. 无监督：(1) 等宽 (2) 等频 (3) 聚类B. 有监督：(1) 卡方分箱法(ChiMerge) (2) ID3、C4.5、CART等单变量决策树算法 (3)  信用评分建模的IV最大化分箱等本篇使用python，基...

2018-10-21 23:51:20 3931

转载数据挖掘模型中的IV和WOE详解

2018-10-21 22:52:20 182

转载几种常用的特征选择方法

几种常用的特征选择方法转载 2016年12月14日 16:33:38标签：特征选择6084结合Scikit-learn介绍几种常用的特征选择方法原文  http://dataunion.org/14072.html主题 特征选择 scikit-lea...

2018-10-21 22:50:40 1570

转载一些常见的特征选择方法

现实中产生的特征维度可能很多，特征质量参差不齐，不仅会增加训练过程的时间，也可能会降低模型质量。因此，提取出最具代表性的一部分特征来参与训练就很重要了。通常有特征抽取和特征选择两种方法。这里分别介绍一下。特征抽取特征抽取中最常见的当属PCA了。PCA对于特征之间存在正交关系，数据满足高斯分布或指数分布的数据，作线性变换，使用方差、协方差去噪，生成新的主元，接下来按重要性排序后取少数参与训...

2018-10-21 22:47:03 1380

转载 RandomForest algorithm之python实现

    RandomForest algorithm之python实现          写在之前：像一个优秀的工程师一样使用机器学习，而不要像一个机器学习专家一样使用机器学习方法。--Google  &nbs...

2018-10-10 15:53:53 567

转载用xgboost模型对特征重要性进行排序

用xgboost模型对特征重要性进行排序在这篇文章中，你将会学习到：xgboost对预测模型特征重要性排序的原理（即为什么xgboost可以对预测模型特征重要性进行排序）。如何绘制xgboost模型得到的特征重要性条形图。如何根据xgboost模型得到的特征重要性，在scikit-learn进行特...

2018-10-10 15:48:23 3360

转载数据分析的五大思维方式

数据分析的五大思维方式。首先，我们要知道，什么叫数据分析。其实从数据到信息的这个过程，就是数据分析。数据本身并没有什么价值，有价值的是我们从数据中提取出来的信息。然而，我们还要搞清楚数据分析的目的是什么?目的是解决我们现实中的某个问题或者满足现实中的某个需求。那么，在这个从数据到信息的过程中，肯定...

2018-10-10 14:53:30 1611

转载 ggplot 画图

1、Why use ggplot2ggplot2是我见过最human friendly的画图软件，这得益于Leland Wilkinson在他的著作《The Grammar of Graphics》中提出了一套图形语法，把图形元素抽象成可以自由组合的成分，Hadley Wickham把这套想法在R中实现。为什么要学习ggplot2，可以参考ggplot2: 数据分析与图形艺术的序言（btw: ...

2018-10-10 08:32:47 515

data analysis and data mining

空空如也