自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

nono的博客

希望分享的内容能够帮助大家解决问题~

  • 博客(23)
  • 收藏
  • 关注

原创 置信度和置信区间

置信度:这个数值存在于我们计算出的这个范围的可信程度,如果置信度是95%,则表示95%的概率真正的数值会在我们所计算的范围内。置信区间:根据95%的置信度计算出数值所在的区间。计算过程:①确定置信度=1-显著性水平,一般显著性水平选0.05,所以置信度为95%②根据①得到区间外的概率一共为5%,由于正态分布对称,所以分别为p=2.5%③根据②的概率去标准正态分布表格里查找 对应的标准分z值,得到为-1.96,由于左右对称,所以-1.96 和 1.96④计算区间:[A,B]A =

2022-03-31 15:12:28 9934

原创 【辛普森悖论】分析一下有没有可能出现“两个投放方案的转化率都在上升,但两者的综合转化率却对比下降”的可能?

数据分析中常遇见的辛普森悖论举例:分析一下有没有可能出现“两个投放方案的转化率都在上升,但两者的综合转化率却对比下降”的可能?答:有,存在基数即分母问题。转化率有较大差异 和 低点击率群体占比增大比如原先A方案 20人,转化1人,B方案100人,转化99人,总转化率 100/120现在A方案100人,转化6人,B方案20人,转化20人,总转化率 26/120。其他举例:男生点击率增加,女生点击率增加,总体为何减少因为男女的点击率可能有较大差异,同时低点击率群体的占比增大。如原

2022-03-31 15:00:56 853

原创 经常说的ROI是什么,怎么计算

衡量广告效果的一个最重要的指标,投资回报率(Return On Investment),即一定周期内,广告主通过广告投放收回的价值占广告投入的百分比。投资回报率(ROI)=产出(销售收入)/ 投入(成本)举例:如某电商在5月份投放了100万的广告费用,获取了价值200万的有效订单金额(利润50w),则ROI为200/100=2。当然也可以定义为是利润/成本 = 50/100。...

2022-03-31 14:55:08 26796

原创 HIVE基础创建表和导入、删除语句

一、创建表create table if not exists tmp(date_stat_date datetime comment '统计日期_日期格式',platform string comment '端口',expose_uv bigint comment '曝光uv',avg_e

2022-03-29 19:30:50 2550

原创 HIVE 行转列、列转行sql

一、hive 多列转多行-----hive 多列转多行SELECT distinct ds ,channel ,rank , name FROM ( SELECT ds ,channel ,MAP( '1' ,prev_n

2022-03-29 19:25:55 2243

原创 HIVE udf、udaf、udtf函数定义与用法(最全!!!!!)

一、定义1、hive udf、udaf、udtf函数定义与用法(1)UDF(user-defined function)作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)(2)UDAF(用户定义聚集函数 User- Defined Aggregation Funcation):接收多个输入数据行,并产生一个输出数据行。(count,max)(3)UDTF(表格生成函数 User-Defined Table Functions):接收一行输入,输出(explode)总结:

2021-02-08 11:37:20 5278

原创 HIVE 计算连续n天登陆的用户

----用户连续n天登陆天数SELECT device_id ,diff_date --根据连续登陆的起始日期计算连续登陆天数 ,COUNT(ds)FROM ( SELECT device_id ,ds ,ROW_NUMBER() OVER (PARTITION BY device_id ORDER BY ds ) rnk ---计算当前日期 在 统计时间.

2021-02-08 10:58:39 732 1

原创 客户价值分析和精准营销

整理中...参考链接:(1)https://blog.csdn.net/wanglingli95/article/details/79444432

2020-04-14 11:18:09 399

原创 用户生命周期如何判断

整理中....

2020-04-14 11:15:58 812

原创 ks曲线、混淆矩阵、ROC曲线、AUC面积等指标定义和关系

2020-04-13 16:36:14 602

原创 常见的风险欺诈方式(仅供参考,未完待续)

整理中...

2020-04-13 15:48:33 447 1

原创 流失用户分析相关研究专题(包括如何定义和召回)

整理中...

2020-04-13 15:46:08 375

原创 spark-sql跑数据Failed with exception java.io.IOException:org.apache.parquet.io.ParquetDecodingExceptio

错误信息:Failed with exception java.io.IOException:org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file oss:/xxxxxxxxxx.snappy.parquet修改方式:在运行spark-sql前 添加这样...

2019-03-15 14:50:47 1206

原创 Mac 解压rar 文件

Mac 解压rar 文件第一种方法:下载下面链接中的软件,安装好就可以直接用了。http://baijiahao.baidu.com/s?id=1604390455412644388&wfr=spider&for=pc安装过程中,一直点击下一步即可第二种方法:https://blog.csdn.net/weixin_41935140/article/d...

2019-03-02 19:44:09 2949

原创 特征处理过程 中的 独热编码(onehot)与哑变量及python 代码实现

为什么要用onehot:二. 为什么使用one-hot编码来处理离散型特征?1.使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。2.将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余...

2019-03-02 19:37:18 4966 2

原创 机器学习特征工程--标准化和归一化

关于归一化和标准化1.标准化使用条件(1)不需要对特征进行归一化:基于树模型的方法举例: 随机森林/bagging/boosting/xgboost需要标准化的(基于距离的模型):回归分析(逻辑回归)/神经网络 / svm2.相关定义什么叫归一化(标准化):归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。为什么要归一化(标准化):...

2019-03-02 19:32:14 4244

原创 Kmeans聚类原理及python实现代码

kmeans 原理:(1)首先,随机确定k个初始点的质心;(2)然后将数据集中的每一个点分配到一个簇中,即为每一个点找到距其最近的质心,并将其分配给该质心所对应的簇;(3)对每一个簇,计算簇中所有点的均值并将均值作为质心(例:在三维空间里,计算各个点的x的均值得到x1,y的均值得到y1,z的均值得到z1,以此得到新的坐标点 x1,y1,z1,然后重新计算各个点距离最近的族)(4)重...

2019-03-02 19:14:43 2947

原创 Mac Kettle安装教程

第一步:先安装jdkhttp://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载mac版的,下载好后,直接安装,直到最后一步就可以了打开终端,输入 java -version,查看是否安装成功,如图为安装成功的图第二步:下载kettlehttps://community.hds.com/d...

2018-04-23 19:06:11 10105 11

原创 MAC 安装mysql 连接驱动ODBC时安装错误

应用场景:使用tableau连接时mysql时,提示需要安装驱动,如下图然后需要安装连接驱动,odbc下载地址:https://dev.mysql.com/downloads/connector/odbc/原因:未安装odbc管理器下载地址:http://www.odbcmanager.net/ 下载好后,直接安装,显示安装成功,不用像教程那样改配置,然后再去安装mysql 5.3.10 显示成功...

2018-04-23 18:49:17 5473

原创 ks(洛伦兹曲线)指标理解

KS(Kolmogorov-Smirnov)值越大,表示模型能够将正、负客户区分开的程度越大。KS值的取值范围是[0,1]通常来讲,KS>0.2即表示模型有较好的预测准确性。ks求解方法:ks需要TPR和FPR两个值:真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+FN),刻画的是分类器所识别出的 正实例占所有正实例的比例...

2018-04-20 16:39:49 47836 7

原创 python corr函数求相关系数时发现某个维度的数据无法求

错误代码❌展示如下:结果:所以是为什么呢?上图已用黄色标出,因为数据类型的问题,所以我们只需要这样改就可以:新增红色箭头的代码就可以了...

2018-04-20 14:04:44 3669

原创 数据挖掘分析相关面试题(亲身经历),持续更新中(最新一次为20210209)

以下大多数都是博主或者博主同事经历过的面试题哟~关于工作内容的就不写啦,一些基础面试题跟大家分享下多看看面试题也能够让你快速了解自己的能力和短缺的地方哦~本篇博客会持续更新,也希望大家多多提供一些面试题哦~1、基础面试(1)自我介绍:emmm这个就不多讲啦,把大概背景讲清楚就可以(2)自己做过的项目介绍:大家可以选择最能够体现自己能力的项目。可以从以下几个方面来讲:a、简...

2018-04-13 17:50:20 21549 6

原创 mysql安装教程及踩过的坑

安装mysql 5.6及踩过的坑解释:由于5.7版本更新了较多语法,安装也有所不同,没有mysql_default.ini文件,具体怎么安装还没试过。所以博主暂时只安装了5.6版本。安装环境:win7+64下载地址:https://dev.mysql.com/downloads/mysql/第一步:下载完以后解压,然后开始改配置文件,找到my-default.ini 将其名字改为my.ini,并在...

2018-04-13 16:01:50 419

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除