nbszg-CSDN博客

原创 A/Btest：组间的差异性检验，统计功效以及反选样本量，附python底层实现代码

先概括一下：本文主要阐述了A/Btest中组间差异的比率检验（单比率检验，双比率检验），统计功效和，以及何通过显著性水平还有统计功效反实验所需选样本量。根绝这些理论使用python对着三个功能封装成类，进行实现一、A/B test在产品发布，运营等场景我们都会遇到A/B test。A/B test通常为同一个目标，设计两种方案，将两种方案随机投放市场中。A/B test让组成成分相同（相似）...

2020-03-31 17:03:58 6092 6

原创风控-评分卡模型建立流程

评分卡建模流程对于风控中的评分卡模型，常用A/B/C三类评分卡。其中A类评分卡指贷前的信用评分卡，用于审批等流程。B类主要是贷中，起到对用户还款进行预警和提醒作用。C类评分卡主要用于催收等催收流程。下面以A卡为例，大致介绍一下评分卡建模的简易流程（每个步骤暂时没有展开介绍，后续慢慢补充）：评分卡目标确定：确立建立评分卡用途（审批，催收等）观察期和表现期确定、好坏样本的定义：观察期用于确...

2020-01-16 18:34:41 2201

原创特征选择 Python代码

一、特征选择对与机器学习建模。在海量特征时，特征工程选择是必要的。特征工程很大程度上决定了模型的效果和模型的稳定性。特征工程中包函内容很多，包括数据分析，特征组合变换，特征选择和特征降维等等的技术。特征工程和数据的清洗占据了建模过程中绝大部分的时间。其中特征选择是必不可少的阶段。当建模样本数量不足，但特征较多的时候。特征选择是必须的。因为参数的数量规模往往是与特征的多少是正相关的。如果没有足够...

2019-12-12 20:38:57 3907 2

原创数据分析系列：绩效（效率）评价与python实现（层析分析、topsis、DEA）

当分析一个项目是否可行，或多个决策中挑选出最优的一个进行执行，对以往的项目或人员进行绩效评价时，我们需要对一项业务或人员的绩效（效率）进行打分。这就是绩效（效率）评价的目标。假设有下面一个案例，我们对一个进行产品进行用户增长的广告投放，假设我们有多个广告承接商可以选择。具体的我们应该选择哪一个广告承接商？这就可以用一些绩效评价的方法解决，可用户绩效（效率）评价的方法非常多，这里只介绍层析分析法，...

2020-04-26 20:01:46 8268 2

原创用户增长：增长黑客——Growth Hacking

Growth Hacking（以下简称GH）指的是通过非正常手段（一些技术手段）增加产品用户做法。其中Growth说的是用户增长，这是产品发展的重要目标，Hacking指的是一些技术手段，包括产品迭代、A/B test、落地页设计、邮件触达等手段，其最主要特点是不需要再获取用户上投放大量成本。特别是初创公司来说，在没有广告预算、市场营销活动以及市场推广专员的情况下，Growth Hacking 也...

2020-04-24 11:31:46 3167

原创数据分析系列：《精益数据分析》读书笔记和理解

这本书很符合分析中的二八定律，前面20%的内容，蕴含了整本书80%的内容。在数据的时代，我们希望我们的产品发展和用户增长都是数据驱动的。确保产品服务和营销有依据可寻。依据数据分析和数据挖掘的产品迭代在理论上是不断变优的。具体的，我们的数据分析结果需要深入，全面，并且最好符合认知才能正确的指导产品发展。一、什么指标是好的数据指标衡量一个指标的好坏的重要标准，是指标是可以比较的，并且简单易懂。...

2020-04-22 20:05:43 1653

原创用Python底层编写进行计量经济分析（四）：自相关（原因、结果、检验：DW检验、补救：广义线性回归）

系列前面的文章：1.用Python底层编写进行计量经济分析（一）：多元线性回归（参数估计、T检验、拟合优度、F检验）2.用Python底层编写进行计量经济分析（二）：多重共线性（原因、结果、检验：条件数/方差膨胀因子、补救：岭回归）3用Python底层编写进行计量经济分析（三）：异方差（原因、结果、检验：White检验、补救：广义线性回归）多元线性回归的基本假定：模型符合线性模式XX...

2020-04-17 17:25:08 5914 1

原创计量经济分析：计量经济学中的三大检验（LR， Wald， LM）

前面用Python底层编写进行计量经济分析（一）：多元线性回归（参数估计、T检验、拟合优度、F检验）写过在多元线性回归时的参数检验方法t检验和方程整体的F检验。在分析中和实际情况中，我们可能会假定因素之间可能存在一定的约束条件。我们在意的不仅是x对y的影响，也关心我们的约束条件是否成立。于是产生了检验线性约束条件是否成立的F检验、似然比检验（LR）、沃尔德检验（Wald）和拉格朗日乘子检验（LM）...

2020-04-16 20:40:45 122368 9

原创数据分析系列：如何估计一个产品用户最大量（最大DAU）——附python计算代码

在做产品的时候，我们希望是数据驱动的。**一个产品的用户天花板（最大DAU）是指导产品的重要指标。**问题来了，如何估计一个产品的DAU？给出解决方案，这是本文解决的主要问题。一、估计最大DAU首先，一个产品的活跃用户可以分为两部分，第一部分是当天的新增天用户，第二部分是产品之前的存留用户。这两部分与DAU大致的关系如下：DAU(n)=A(n)+A(n−1)R(1)+A(n−2)R(2)+…...

2020-04-16 11:21:24 1941

原创数据分析系列：生存分析（生存曲线分析、Cox回归分析）——附生存分析python代码。

上一篇文章写了数据分析系列：归因分析原理、案例和python代码。但是现实中用户所归属的渠道可能很多，比如用户在网上商城的首页点击了一个产品，又在其他公众号的相关推荐点击了此产品，最终进行了下单，那这个产品的订单应该归属于哪个渠道？这就是归因分析中的多渠道归因。对于多渠道归因，有一些启发式的归因方法，比如“最终点击”（将订单归属于最后一个渠道）、“非最终点击”（归属于倒数第二个渠道）、“首次点击...

2020-04-15 11:48:56 24209 26

原创数据分析系列：归因分析原理、案例（附python代码）

本文主要对以下指标的计算和解释进行阐述，并使用案例说明，最后利用python编写代码进行计算：risk ratios and rate ratios（风险比率和比率比率，RR）risk difference and rate difference（风险差异和利率差异， RD）attributable proportion (attributable risk percent) for th...

2020-04-13 18:26:00 17291 5

原创《统计学习方法》七：手推“支持向量机”

第七章支持向量机SVM是二分类模型，它的基本模型时定义在特征空间上的间隔最大的线性分类器。SVM由简至繁可分为：线性可分支持向量机、线性支持向量机、非线性支持向量机7.1.线性可分支持向量机与硬间隔最大化7.1.1.线性可分支持向量机...

2020-04-09 20:29:26 146

原创使用Hive的窗口函数进行数据分析——以股票市场分析为例

声明：本文主要是实现利用Hive常用的窗口函数和一些数据分析思维分析数据，只是套用在股票数据的例子上，因此并不适用于提高投资技巧！我们先看一下常用Hive中常用的窗口：PRECEDING：往前FOLLOWING：往后CURRENT ROW：当前行UNBOUNDED：起点（一般结合PRECEDING，FOLLOWING使用）UNBOUNDED PRECEDING 表示该窗口最前面的行（起...

2020-04-09 15:12:44 1171 1

原创《统计学习方法》六：手推“逻辑回归与最大熵模型”

第六章逻辑回归与最大熵模型逻辑回归主要用于二分类问题，与线性回归的核心区别在于，逻辑回归是一个对数线性模型。6.1.逻辑回归模型6.1.1.逻辑分布6.1.2.二项逻辑回归模型6.1.3.模型参数估计6.1.4.多项逻辑回归6.2.最大熵模型6.2.1.最大熵原理最大熵原理是概率学习模型的一个准则。最大熵原理认为，在学习概率模型时，所有可能的概率模型中，熵最大的模型...

2020-04-09 10:38:32 159

原创《统计学习方法》五：手推“决策树”

第四章决策树决策树是一种基本的分类与回归方法，可以认为是if-then的集合。常用的决策树算法有ID3和C4.5以及CART5.1.决策树模型与学习5.1.1.决策树模型决策树定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型。内部结点和叶结点，内部节点表示属性，即建模使用特征。叶节点是一个类，即标签。决策树将一个实例在树上进行查找，最后...

2020-04-09 10:36:53 685

原创《统计学习方法》四：手推“朴素贝叶斯法”

第三章朴素贝叶斯法朴素贝叶斯法是通过学习输入XXX和输出YYY的联合分布P(X,Y)P(X,Y)P(X,Y)，对给定的输入xxx，根据贝叶斯理论求出后验概率最大的输出yyy的方法。是一种生成学习方法4.1.朴素贝叶斯算法的学习与分类4.1.1.基本方法4.1.2.后验概率最大化的含义朴素贝叶斯将实例分到后验概率最大的类中，这等价于期望风险最下化。4.2.朴素贝叶斯算法的参数...

2020-04-09 10:35:42 203

原创《统计学习方法》三：手推“k近邻法”

第三章 kkk近邻法k-NN是一种基本的分类和回归方法，没有显式的表达过程。3.1.kkk近邻算法

2020-04-09 10:34:22 192

原创《统计学习方法》二：手推“感知机”

第一章感知机感知机是一个二分类问题线性模型。旨在于找到一个超平面将正负样本分开。是支持向量机SVM和神经网络的基础。2.1.感知机模型感知机时一种线性分类模型，属于判别模型。感知机的假设空间是定义在特征空间的所有线性分类模型或线性分类器。具体定义如下：2.2.感知机学习策略2.2.1.感知机的线性可分如果存在一个超平面wx+b可以将正负两类样本完全的划分到超平面两侧，则称该数据...

2020-04-09 10:33:07 189

原创用Python底层编写进行计量经济分析（三）：异方差（原因、结果、检验：White检验、补救：广义线性回归）

系列前面的文章：1.用Python底层编写进行计量经济分析（一）：多元线性回归（参数估计、T检验、拟合优度、F检验）2.用Python底层编写进行计量经济分析（二）：多重共线性（原因、结果、检验：条件数/方差膨胀因子、补救：岭回归）模型符合线性模式XXX满秩（无多重共线）零均值价值：E(εi∣Xi)=0E(ε_i|X_i)=0E(εi∣Xi)=0（自变量外生）同方差：Var(εi...

2020-04-08 20:03:24 11592 6

原创数据分析系列：分布分析法&用户留存分析法

本文部分内容来自数据分析（4）：分布分析法&用户留存分析法，并在此基础上加入看了一些自己的理解和看法。一、分布分析法原文总结了几种划分方式，具体的划分还是需要根据所在的业务来考虑。必须我们在考虑支付宝支付的人群，不仅要考虑地域、年龄、等划分。还可以根据使用渠道（扫码、线上购物、线上跳转等渠道）、使用方式（PC， APP等）等其他方式划分。只要能想到的方面，并且该方面对业务改进可以起到作...

2020-04-08 15:14:30 1050

原创数据分析系列：用户分群和画像分析

本来想自己总结一下关于数据分析的一些东西，包括漏斗分析、存留分析、用户粘性、用户价值（rfm）和用户画像分析等方面的内容。但是网上资料十分多，自知肯定没有那些资深大牛写得好，而且自己写东西时间有限，想多总结一些关于模型和统计方面的东西。所以还是直接转载别人表述的比较清晰的文章吧，在此基础上加入一些自己的理解和注释。一、什么是用户画像？用户画像是通过对用户各类特征进行标识，通过标识给用户贴上各类...

2020-04-08 11:44:33 3614

原创数据分析系列：漏斗分析

一、漏斗分析漏斗分析是针对产品时间轴上流程上的数据分析方法，这与数据的横向对比存在本质逻辑的不同。漏斗分析希望通过观察每个流程节点上的转化与流失的人数得到出现问题或可以改进的流程节点。比如用户再网上购物时，一个购买用户会经历下面类似的流程链条：首页->搜索浏览->点击详情页->(加入购物车)->提交订单->结算->购买成功再比如，一个网上现金贷业务业务营...

2020-04-07 20:25:03 3910

原创用Python底层编写进行计量经济分析（二）：多重共线性（原因、结果、检验：条件数/方差膨胀因子、补救：岭回归）

上一次对多元线性回归的估计以及参数和方程的显著性进行了python实现。但是这些都是建立多元线性回归的几个假设基础之上的：模型符合线性模式XXX满秩（无多重共线）零均值价值：E(εi∣Xi)=0E(ε_i|X_i)=0E(εi∣Xi)=0（自变量外生）同方差：Var(εi∣Xi)=σVar(ε_i|X_i)=σVar(εi∣Xi)=σ无自相关：cov(εi,εj)=0cov(ε...

2020-04-05 12:23:06 5076

原创用Python底层编写进行计量经济分析（一）：多元线性回归（参数估计、T检验、拟合优度、F检验）

之前上学时计量经济学的模型实现总是用Eviews等软件实现。但是对于点击鼠标得到结果的方式，总是让自己感觉没有参与模型建立的过程。所以准备利用python写代码进行计量经济分析，对自己也做一个技术沉淀。暂时准备写以下几篇，后面再慢慢补充；多元线性回归和显著性检验（参数估计、T检验、F检验、拟合优度）多重共线性（导致结果、检验——方差膨胀因子、补救措施——岭回归）异方差（导致结果、检验——W...

2020-04-03 11:29:45 10275 2

原创风险平价、与基于PCA的风险平价改进投资方式（附回测效果）

一、组合投资的方式先大大致了解一下有多种资产是常用的投资方式：其中马克维茨的均值方差理论是需要投资方式的基础，其目标是：在约束最大风险下，投资组合的收益最大化；或约束最小收益下，投资组合风险最小。而这是等价的。对于不同风险下求解的最大收益组合，或不同收益下求解出的最小风险组合，在风险收益曲线上构成有效前沿有效前沿上面的点是不可能的组合，在有效前沿下面的点不是最优组合。二、风险评价模...

2020-03-27 16:43:34 2800

原创强化学习笔记+代码（七）：Actor-Critic、A2C、A3C算法原理和Agent实现(tensorflow)

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN算法原理和Agent实现(tensorflow)Double-DQN、Dueling DQN算法原理和Agent实现(tensorflow)Policy Gradients算法原理...

2020-03-27 11:41:58 6935 1

原创 Hive Hive性能调优

最近慢慢把工作中涉及到的Hive知识和优化方法整理一下在实际业务中，我们使用的Hive通常是基于map reduce计算方式的。通俗的来讲，map负责映射或筛选关系（比如where，±等操作），reduce负责整合或这说规约操作（如group by，join等）。通常我们要评估我们所写的hql性能，需要先知道所写hql的执行过程和mapredcue过程。此处引用一张网上的图片，很好的表示和m...

2020-03-26 11:47:09 320

原创 Hive 使用动态分区

在实际业务中，我们常常去要将数据根据某一或某几个字段的值插入到不同的分区中。比如我们有一张全量的订单表，我们想让其变为增量表。具体的，我们想根据其开单日期open_date动态插入到新标表table_A中。其中open_date就是table_A的分区。显然手动使用where条件筛选open_date在插入table_A的对应分区是不现实的。此时使用Hive的动态分区可以实现一次将数据插入到对应...

2020-03-26 10:57:09 322

原创强化学习笔记+代码（六）：Policy Gradient结构原理和Agent实现(tensorflow)

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN算法原理和Agent实现Double-DQN、Dueling DQN算法原理和Agent实现Policy Gradients算法原理和Agent实现A2C、A3C算法原理和Age...

2020-03-25 18:59:17 2327 6

原创强化学习笔记+代码（五）：Double-DQN、Dueling DQN结构原理和Agent实现

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN算法原理和Agent实现Double-DQN、Dueling DQN结构原理和Agent实现Policy Gradients算法原理和Agent实现A2C、A3C算法原理和Age...

2020-03-24 17:03:57 6865 1

原创手推 GBDT与xgboost

先说结论：GBDT与xgboost的主要区别是GBDT利用的一阶导数的思想去拟合每棵树，xgboost利用二阶导数思想去拟合每棵树。另外xgboost还加入了其他许多技巧，比如xgboost加入和正则项是模型泛化能力更强；同时xgboost还支持并行计算（每棵树还是串行，并行是特征维度的并行）；xgboost在训练完一棵树后都会为其叶子节点的分数乘以一个缩减权重(shrinkage)。来给后面...

2020-03-24 15:04:54 547

原创强化学习笔记+代码（四）：DQN算法原理和Agent实现

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN算法原理和Agent实现Double-DQN、Dueling DQN结构原理和Agent实现Policy Gradients算法原理和Agent实现A2C、A3C算法原理和Age...

2020-03-23 19:36:51 8365 3

原创强化学习笔记+代码（三）：Q-learning算法原理和Agent实现

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN算法原理和Agent实现Double-DQN、Dueling DQN算法原理和Agent实现Policy Gradients算法原理和Agent实现A2C、A3C算法原理和Age...

2020-03-23 15:54:37 4687

原创强化学习笔记+代码（二）：SARSA算法原理和Agent实现

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN算法原理和Agent实现Double-DQN算法原理和Agent实现Policy Gradients算法原理和Agent实现A2C、A3C算法原理和Agent实现一、SARS...

2020-03-23 12:03:33 6233 6

原创强化学习笔记+代码（一）：强化学习背景介绍

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN算法原理和Agent实现Double-DQN算法原理和Agent实现Policy Gradients算法原理和Agent实现A2C、A3C算法原理和Agent实现一、什么是强...

2020-03-23 11:12:59 6348

原创 tensorflow使用DNN、CNN、RNN(lstm)分别实现识别mnist手写数字图片

本文只用全连接神经网络+batchNormlization_dropout实现mnist手写数字图片识别。import osimport structimport numpy as npimport tensorflow as tf#数据加载函数def load_mnist(path, kind='train'): """load mnist date Args: ...

2020-03-20 22:11:12 1018 3

原创迁移学习与代码举例

迁移学习出现背景在有监督的机器学习和尤其是深度学习的场景应用中，需要大量的标注数据。标注数据是一项枯燥无味且花费巨大的任务，关键是现实场景中，往往无法标注足够的数据。而且模型的训练是极其耗时的。因此迁移学习营运而生。传统机器学习(主要指监督学习)基于同分布假设需要大量标注数据然而实际使用过程中不同数据集可能存在一些问题，比如数据分布差异标注数据过期训练数据过期，也就是好不容易标定...

2020-03-18 16:40:34 13759 4

原创 Seq2Seq与Attention

一、seq2seq对于序列数据常用的深度学习结构是RNN，但是普通RNN的结构存在缺陷，比如梯度消失，输入序列与输出序列要求等长等问题。这在许多情况下，比如翻译、生成总结等，RNN没有很好的效果。为了解决RNN梯度消失问题，提出了lstn结构，但是仍没有解决输入序列与输出序列要求等长的问题。Sequence-to-sequence（seq2seq）解除了输入和输出序列等长和长度固定的问题。一个...

2020-03-16 16:16:49 506

原创 Batch Normalization原理理解与Tensorflow实现

一、原始神经网络层和Internal Covariate Shift问题在原始DNN中，隐藏层（HiddenLayer）将输入x通过系数矩阵W相乘得到线性组合z=Wx，再通过激活函数a=f(z)，得到隐藏层的输出a（X可以为输入层输入或者上一个隐藏层的输出）,具体结构如下：图中为一个批次(batch)的样本在隐藏层的传播过程。由于批次的不断传入和训练，DNN内部参数在不断改变，导致每一次隐藏...

2020-03-14 20:27:38 1363

原创 FM、DeepFM原理和Tensorflow代码解读

本文主要讲述FM的推导，DeepFM结构与DeepFM的tensorflow代码解读FM算法当我们在使用LR（多元线性回归时）并没有考虑特征交叉项对目标的影响。当我们加入交叉项时，多元线性回归变为以下形式：（注，在计量中，上面形式仍为线性回归，最小二乘依然是有效的）这样做的好处考虑的特征之间的相互效应，模型的精度会上升。但代价是模型参数量大量增加（算法由O(n)变为O(n^2)。对此，可...

2020-03-12 20:40:54 859

数据库图书管理系统ppt

空空如也