自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (1)
  • 收藏
  • 关注

原创 AB实验

AB实验是将测试对象随机分为A、B两组,然后比较两组之间差异的验证方法。 有的企业会在同一时间开展多个AB实验,彼此之间可能存在相互干扰。错误案例:(1)所有的AB实验都采用相同的分组方法。就算两组的表现有所差异,也不可能知道差异到底是由哪个测试引起的;(2)各组中参与其他测试的用户比例不同。会出现测试项目以外的条件性差异,这种情况下,需要事先考虑分组时如何才能不包含已参与其他测试...

2018-11-25 17:39:46 4064

原创 竞品分析

一、为什么要进行竞品分析竞品分析的好处1、为企业战略布局提供了客观的参考依据如大公司构建生态圈,小米入股美的,进军智能家居。2、了解竞争对手的产品、市场动态、战略意图和调整方向如京东上线图书,竞争当当。 竞品分析的目标做好产品的同时,通过竞品分析来提高产品的竞争力。 二、界定竞争对手从哪些角度界定竞争对手1、竞争深度顾客导向、资源导向、营销导向、地理区...

2018-11-25 12:08:23 2351

原创 《大数据技术原理与应用》笔记

一、大数据概述大数据的特征(4V):1、Volume,数据量大2、Variety,数据类型多大数据由结构化和非结构化数据组成:10%的结构化数据,存储在数据库中;90%的非结构化数据,与人类信息密切相关。3、Velocity,处理速度快4、Value,价值密度低 大数据的关键技术:1、分布式存储分布式数据库分布式文件系统2、分布式处理分布...

2018-11-25 12:06:59 14556 2

原创 电商数据分析方法和指标整理

对于电商行业来说,数据分析的核心公式是:销售额 = 流量*转化率*客单价。因此,分析可以从流量、转化率和客单价这三个维度进行:1、流量流量分析,可以从中发现用户访问网站的规律,并根据这些规律改进网站设计或营销策略。类别 指标 备注 流量数量 UV,独立访客数     PV,访问量   流量质量 平均访问深度     ...

2018-11-25 12:06:14 53904 5

原创 用户运营

概念知识1、用户运营是以用户为中心,遵循用户的需求,设置运营活动与规则,制定运营战略与运营目标,严格控制实施过程与结果,已达到预期所设置的运营目标与任务。简单地说,用户运营就是通过一定方式,让用户去完成你的产品目标。2、用户分类用户分类 描述 种子用户 一方面是产品的忠实用户,另一方面可以凭借自己的影响力来吸引更多的目标用户。 尽量选择影响力大且活跃度高...

2018-11-18 22:50:17 1063

原创 用户画像

用户画像是对一个群体的共性特征的提炼,就是给用户打标签。构建用户画像的目的是为了充分了解用户,进而为产品设计和运营提供参考。因此新接触一个产品的时候用户画像是我们了解用户的最好方式。另外用户画像的构建不是单纯对用户进行分类,二是要为我们的运营规划、运营策略制定而服务的,如果我们做出来的用户画像无法指导我们的产品设计或者运营规划及策略制定提供参考的话,那么这个用户画像一定是失败的。像“20~...

2018-11-06 16:41:23 1775

原创 《增长黑客》笔记

前言增长黑客的精髓在于通过快节奏测试和迭代,以极低甚至零成本获取并留存客户。通过迅速测试新想法、新思路(“最小可行测试”,minimum viable test,MVT),并根据计划指标对结果进行评估,帮助企业更快地找到有效的做法。具体实践方法:1、设立一个跨职能团队或几个团队,打破营销和产品开发部门之间传统的筒仓,凝聚公司人才;2、进行定性研究和定量数据分析,深入了解用户行为与喜...

2018-11-05 14:54:03 2389

原创 统计学笔记

1、卡方检验两个用途:(1)检验拟合优度,检验一组给定的数据与指定分布的吻合程度。例如,检验老虎机收益的观察频率与我们所期望的分布的吻合程度;(2)检验两个变量的独立性,检查变量之间是否存在某种关联。检验统计量: ()中是自由度,=(组数)-(限制数)比较检验统计量与()的大小,检验统计量大于(),拒绝原假设。2、随机现象是在个别试验中其结果呈现不确定性,但在大...

2018-10-29 21:00:11 455

原创 数据指标的权重确定

分为三类:主观赋权法、客观赋权法和组合赋权法。(1)主观赋权法:根据决策者(专家)主观上对各属性的重视程度来确定属性权重的方法,其原始数据由专家根据经验主观判断得到。包括专家调查法(Delphi法)、层次分析法(AHP)、二项系数法、环比评分法、最小平方法等。主观赋权法的优点是专家可以根据实际的决策问题和专家自身的知识经验合理地确定各属性权重的排序,不至于出现属性权重与属性实际重要程度...

2018-10-14 16:30:56 26760

原创 用户分析(AARRR)

AARRR模型:用户分析模型,反应出不同阶段中用户参与行为的深度和类型,是一个典型的漏斗结构。用户被导入第一层之后,会在接下来的步骤中层层流失,最终实现转化。AARRR模型描述了用户/客户/访客需经历的五个环节,以便企业获取价值。价值不仅直接源于客户购买行为(获取营收),还来自客户作为推销者(自传播)和内容产生者(留存率)所带来的营收。AARRR模型,对于成熟产品,获取新用户基本没有问题或...

2018-10-12 14:55:16 6789

原创 数据指标种类

1、定性指标与定量指标(1)定性指标通常是非结构化的、经验性的、揭示性的、难以归类的。定性数据吸纳主观因素。(2)定量指标涉及很多数值和统计数据,提供可靠的量化结果,但缺乏直观的观察。定量数据排斥主观因素。 2、虚荣指标与可付诸实施的指标(1)虚荣指标看上去很美,让你感觉良好,却不能为你的公司带来丝毫的改变。如“总注册用户数”、“总活跃用户数”如果你有一个数据,却不...

2018-10-11 22:23:15 10712

原创 参数检验和非参数检验的区别

1、参数检验是针对参数做的假设;非参数检验是针对总体分布情况做的假设,这是区分的一个重要特征;2、根本区别在于,参数检验要利用到总体的信息(总体的分布、总体的一些参数特征,如方差),以总体分布和样本信息对总体参数做出推断;非参数检验不需要利用总体信息,以样本信息对总体分布做出推断;3、正态分布用参数检验,非正态分布用非参数检验。...

2018-10-11 16:46:47 35214 2

原创 数据分析常用方法总结

1、细分对比分析细分对比分析是数据分析的基础。2、分布,占比3、时间趋势4、象限5、同期群分析,属于纵向分析同期群分析是指将用户进行同期群划分以后,分析和对比不同同期群组用户的相同指标,这套分析方法就是同期群分析。也就是沿时间线比较相似群体。同期群按用户的新增时间将用户分群,得到的每个群叫一个同期群。通过比较不同的同期群,可以从总体上看到,应用的表现是否越来越好了。...

2018-10-06 14:25:35 1762

原创 Hive编程指南-学习笔记(四) 查询

一、SELECT ... FROM ...语句CREATE TABLE employees( name STRING,salary FLOAT,subordinates ARRAY<STRING>,deductions MAP<STRING,FLOAT>,address STRUCT<street:STRIN...

2018-10-05 22:33:00 387

原创 Hive编程指南-学习笔记(五) 查询内置函数

1、数学函数2、聚合函数可以通过设置属性值来提高聚合的性能,需要更多的内存。SET hive.map.aggr=true;3、表生成函数表生成函数,与聚合函数的过程相反,将单列扩展成多列或者多行。举例:hive> SELECT explode(subordinates) AS sub FROM employees; #使用表生成函数时,...

2018-10-05 20:06:15 256

原创 Hive编程指南-学习笔记(三) 数据操作

一、向管理表中装载数据Hive没有行级别的数据插入、更新和删除操作,往表中装载数据的唯一途径就是使用一种“大量”的数据装载操作。LOAD:向表中装载数据(1)把目录‘/usr/local/data’下的数据文件中的数据装载进usr表,并覆盖原有数据:LOAD DATA LOCAL INPATH ‘/usr/local/data’ OVERWRITE INTO TABLE usr;(...

2018-10-05 17:46:43 462

原创 Hive编程指南-学习笔记(二) 数据定义

一、数据库1、创建数据库:CREATE DATABASE hive;如果已经存在,会抛出异常,下面的语句不抛出异常:CREATE DATABASE IF NOT EXISTS hive;数据库的默认位置是hdfs上:/user/hive/warehouse,修改默认位置:CREATE DATABASE financial LOCATION '/my/preferred';(访问目录:/...

2018-10-05 16:12:37 374

原创 Hive编程指南-学习笔记(一) 数据类型和分隔符

一、Hive概述Hive定义了类似SQL的查询语言——HiveQL,用户编写HiveQL语句运行MapReduce任务,查询存储在Hadoop集群中的数据。HiveQL与MySQL最接近,但还是有显著性差异的。Hive不支持行级插入、更新操作和删除操作。Hive不支持事务。HiveQL并不符合ANSI SQL标准。 HiveQL实现词频统计算法(Word Count):CRE...

2018-10-05 14:52:57 869

原创 数据挖掘相关概念

数据挖掘任务分为两大类:1、预测任务根据其他属性的值,预测特定属性的值。有两类预测建模任务:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。2、描述任务概况数据中潜在联系的模式,如相关、趋势、聚类、轨迹和异常等。描述性数据挖掘任务通常是探查性的,常常需要后处理技术验证和解释结果。 数据集可以看做是数...

2018-10-03 09:41:56 956

原创 Linux系统常用命令

命令 解释 cd /home/hadoop 把/home/hadoop设置为当前目录 cd .. 返回上一级目录 cd ~ 进入到当前Linux系统登录用户的主目录(或主文件夹)。~代表的是用户的主文件夹,即“/home/用户名”这个目录,如果当前登录用户名为hadoop,则~代表“/home/hadoop/” ls 查看当前目录中的文件 ls -...

2018-09-22 21:56:32 238

原创 分类模型的评价

1、二分类模型指标 计算 备注 精准率(Precision) Precision=TP / (TP+FP) 在所有被预测为阳性的测试数据中,真正是阳性的比率。 越大越好 召回率(Recall) Recall=TP / (TP+FN) 在所有实际为阳性的测试数据中,真正是阳性的比率。 越大越好 F...

2018-09-21 17:46:29 266

原创 SQL SERVER 查询每日新增用户数量、次留数量

1、创建用户新增表和登录日志表:--用户新增表create table new_user(id int identity(1,1),uid varchar(20),regist_time datetime)insert into new_user(uid,regist_time) values('18-1104','2018-03-05 03:46:53'),('18-110...

2018-09-14 16:25:21 19241

原创 SQL SERVER获取某月、本周和本季度的第一天/最后一天

获取某月的第一天:select dateadd(month,datediff(month,0,'2009-03-18'),0)获取本周的第一天:select dateadd(wk,datediff(wk,0,getdate()),0)获取本季度的第一天:select dateadd(qq,datediff(qq,0,getdate()),0) 获取最后一天:...

2018-09-12 14:28:50 2768

原创 SQL SERVER 查询日期与下一个最近日期的间隔

数据表如下所示:select x.* ,datediff(day,x.日期,x.下一个日期) 两次日期的间隔from(select a.书号 ,a.书名 ,a.日期 ,(select min(b.日期) from [dbo].[tb_BookSell] b where b.日期 > a.日期) 下一个日期 #选择表中大于当前日期值的最小日期值from [dbo].[...

2018-09-12 13:33:26 1091

原创 数据报表的美化

1、表格的行与列,分别用相同色系,但色差相邻的两个颜色填充,可以达到立体化的视觉效果。关于色系的选择,在销售类报表中建议使用暖色调的色系;在退货或成本相关的报表中,建议使用冷色调的色系。2、表格的字体:标题用宋体11号字体;其他汉字及数字用微软雅黑9号字体。3、关于数字的处理:所有数字,使用千分位计数法,同时过大的数字无须保留小数位,过小的数字保留1~2位小数。表格中数字的单位要备...

2018-09-09 21:50:53 1256

原创 Python连接Mysql数据库操作方法

Python链接数据库的方式有几种,但是原理都是一样的,总共可以分为两个步骤,第一步是与数据库建立链接,第二步执行sql查询语句。两种方法,第一个是pymysql.connect1、连接数据库import pymysql #先安装好pymysql包db = pymysql.connect(host='localhost',user='root',password='mysql',...

2018-09-06 23:00:10 670

原创 python分类预测模型总结

常见的模型评价和在Python中的实现 模型 模型特点 所属库 逻辑回归 线性分类模型 sklearn.linear_model SVM 用来回归、预测、分类等。模型可以是线性的/非线性的 sklearn.svm 决策树 基于“分类讨论、逐步细化”思想的分类模型,直观易解释 sklearn.tree 随机森林 思想跟决策树类似...

2018-08-27 14:15:57 15422

原创 数据挖掘之人工神经网络

人工神经网络(Artificial Neural Networks, ANN)是模拟生物神经网络进行信息处理的一种数学模型。人工神经元模型激活函数主要分为域值函数(阶梯函数)、分段线性函数、非线性转移函数、Relu函数(计算简单、效果佳)。人工神经网络的学习也称为训练,指神经网络在收到外部环境的刺激下调整神经网络的参数,使神经网络以一种新的方式对外部环境做出反应的过程。目前,已有多种人...

2018-08-27 10:52:19 4237

原创 数据挖掘之决策树

决策树是一个树状结构,它的每一个叶节点对应着一个分类,非叶节点对应在某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本进行拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下、分而治之的过程。决策树算法的分类决策树算法 算法描述 ID3算法 核心是在决策树的各级节点上,使用...

2018-08-24 23:23:40 2937

原创 python中常用统计、作图函数

1、基本统计函数函数 功能 所属库 sum() 总和(按列计算) Pandas mean() 算术平均数 var() 方差 std() 标准差 corr() 相关系数 cov() 协方差矩阵 skew() 偏度(三阶矩) kurt() 峰度(四阶矩) describe() 基本描述(基本...

2018-08-23 16:59:06 4627

原创 python数据挖掘相关扩展库

 扩展库 简介 Numpy 提供数组支持,以及相应的高效处理函数。 Scipy、Matplotlib、Pandas等库都依赖于它。 Scipy 提供矩阵支持,以及矩阵相关的数值计算模块\ 包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。 ...

2018-08-22 13:50:46 1901 1

原创 Python函数式编程——lambda()、map()、reduce()、filter()

函数式编程(Functional Programming),又称泛函编程,是一种编程范式,将计算机运算视为数学上的函数计算。使用函数式编程,兼顾简洁和效率,循环速度比Python内置的for或while循环要快得多。在Python中,函数式编程主要由几个函数的使用构成:lambda()、map()、reduce()、filter()1、lambda()用来定义“行内函数”。2、...

2018-08-22 11:26:07 275

原创 Python学习笔记

1、如果脚本中有中文(中文字符串前面加u),需要在文件头注明编码:# -*- coding: UTF-8 -*-并且将脚本保存为UTF-8编码格式。2、python中进行数学运算,可以导入数学相关的math库import mathmath.sin(1)math.exp(1)math.pi3、python2中print是作为一个语句出现,python3中print是作为...

2018-08-22 10:31:30 136

原创 基于关联规则的足球比赛数据分析

1、明确分析的目的和思路目的:目前,足球比赛作为大众娱乐项目的一种,越来越受到大家的喜爱,其中不乏一些球队死忠、球星铁粉以及“赌球狗”,而希望自己支持的球队获胜也是足球比赛中的一大关注点。针对这种情况,本文通过足球比赛中产生的数据,比如射门次数、控球率、传球成功率等,运用关联规则算法进行建模、分析,探索足球比赛的胜负与哪些关键指标的关系密切。思路:以本赛季的中超联赛(目前进行到第18轮)为...

2018-08-19 00:48:27 14257 11

原创 数据分析/挖掘的六个步骤

1、明确分析的目的和思路目的:解决什么问题思路:搭建分析框架,把分析目的分解成若干个不同的分析要点,即从哪几个角度进行分析,采用哪些分析指标等。(数据分析方法论)2、数据收集3、数据处理数据清洗:处理原始数据中的异常值和缺失值;聚集:将两个或多个对象合并成单个对象。比如将每日的数据聚集成每月的数据;维规约:将数量众多的特征通过规约得到少量的特征,可采用主成分分析(PCA...

2018-08-18 21:28:10 9187

原创 实例:水质评价分类-支持向量机

1、数据划分。对样本进行抽样,抽取80%作为训练样本,剩下的20%作为测试样本。2、建模R语言实现:traindata = read.csv("trainData.csv")head(traindata)输出结果如下:traindata = transform(traindata,class = as.factor(class)) #将class列转换为fact...

2018-08-14 16:47:19 1579 1

原创 实例:电力窃漏电用户自动识别-神经网络和决策树

1、数据划分R语言实现:将专家样本划分为测试样本和训练样本,随机选取20%为测试样本,剩下来的作为训练样本。data = read.csv(file="model.csv")colnames(data) = c("time","userid","ele_ind","loss_ind","alarm_ind","class") #数据命名head(d

2018-08-14 11:43:29 3461 6

原创 利用Python爬虫和Tableau分析链家网二手房信息

1、明确分析的目标和思路目的:近年来,房价时时刻刻牵动着广大老百姓的心,尤其是急需买房的刚需族和二胎家庭的置换族。本文希望通过对上海市中心城区二手房信息的分析,能够对房价和地理位置、房龄等因素的关系有一定的掌握。分析思路:通过python爬取链家网二手房信息,经过数据清洗、规约等处理后,导入Tableau软件,进行可视化分析,得出结论。 2、爬取链家网二手房信息以上海市中心城区...

2018-08-13 16:14:51 4499 5

原创 数据挖掘之时间序列分析

按时间顺序排列的一组随机变量X1,X2,…,Xt表示一个随机事件的时间序列。时间序列分析的目的是给定一个已被观测了的时间序列,预测该序列的未来值。表1 常用的时间序列模型 模型名称 描述 平滑法 常用于趋势分析和预测,利用修匀技术,削弱短期随机波动对序列的影响,使序列平滑化。 根据所用平滑技术的不同,可分为移动平均法和指数平滑法。 趋势拟合法...

2018-08-12 23:45:16 60166 3

原创 数据挖掘之关联规则分析

关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。用于寻找数据集中各项之间的关联关系。根据所挖掘的关联关系,可以从一个属性的信息来推断另一个属性的信息。当置信度达到某一阈值时,可以认为规则成立。常用的关联规则算法算法名称 算法描述 Apriori 关联规则最常用、最经典的挖掘频繁项集的算法,核心思想是通过连接产生候选项及其支持...

2018-08-12 14:01:18 24568 1

Apriori算法代码-Python

Aprior算法的Python代码实现,其中定义了python实现关联规则算法的函数。

2018-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除