自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(103)
  • 资源 (2)
  • 收藏
  • 关注

原创 高级数据分析师实战-流量分析

Part1:流量分析基础知识2、流量分析的重点内容运营位核心的流程商品详情页part2 : 流量分析的案例以淘宝业务的飞猪app为例:1. 业务流量入口分析:2. 业务流量引流漏斗业务流量要去哪3. 流量带来了什么样的用户7日留存 可以理解为第一天用户有使用, 七天内有没有再次使用4. 引留策略5、流量时间差异6、流量分层...

2020-10-12 21:00:19 654

原创 用户分析-都市熟女图鉴分析报告

学会从图里面提取结论这种图是用了两个横向的条形图进行了拼接

2020-10-12 17:07:01 1945

原创 高级数据分析师实战--用户分析

Part1:用户画像2、用户画像的作用3. 用户画像的内容4、用户画像的案例(一)如何画出这些图?iconfont 矢量图https://www.iconfont.cn/画法:EXCEL 先画出一饼图ppt 里面 插入一个圆环 ,设置线的种类,置于底层 ,控制好填充再插入几个小圆环,颜色可以用取色器很方便的使用这个是通过完全相同的两列一个绘制 柱形图,一个绘制折线图出来的灵活利用好iconfont 让图片更加的美观这里介绍一个堆叠图利用图片

2020-10-12 16:34:52 285

原创 高级数据分析师实战-产品分析

Part1:产品的基础知识Part2:数据分析师如何辅助产品团队Part3:通过数据埋点获取行为数据1、什么是埋点2 、埋点的类型:客户端埋点服务端埋点3、埋点案例以大众点评APP增加【拍视频】功能为例:第一步:,明确产品的形态,梳理使用需求:第二步:数据需求转化为指标&埋点,并与开发进行讨论第三步:新版本上线按照预期进行数据分析,产品迭代复盘。数据分析过程,注意查看是否与预期相符,是否有优化点。Part4:竞品产品功能对⽐案例1、搜索结果列表页2、

2020-10-12 15:09:15 261

原创 同学报告点评

可以考虑分为不同品类之间进行区分折扣正常和数量之间应该是正相关,是不是需要往下去划分折扣之间不存在构成的作用用户的划分RFM模型对顾客进行分类这页做的不错

2020-10-12 14:06:21 103

原创 RFM模型实战手册:用RFM模型做行为细分

详细阐述如何在项目中运用RFM模型进行行为细分,从而为产品、市场营销和支持投资提供信息。策略:R-F-M (Recency-Frequency-Monetary Value)如何理解RFM 模型:实战:电商行业的RFM 模型:R值F值M值1. 基于RFM模型进行客户细分2. 通过RFM模型评分后输出目标用户就是基于整体的分数组合进行分组...

2020-10-12 13:52:34 334

原创 高级数据分析师--运营分析

第三节——运营分析Part1:运营的基础知识Part2:数据分析师如何辅助运营团队Part3:如何进行运营数据监控2、运营位数据监控3、流量量来源监控4、转化情况监控漏⽃分析:通过转化率的情况,来判断每个环节的跳出率是否合理,以及不运营活动的效率5、重点活动监控**万一让你设计指标,你该怎么做,一定不要diu diu diu 的丢出来要有结构化的思维**拼团活动详情:Part5:如何进行活动效果分析4、案例解析...

2020-10-11 21:03:04 383

原创 高级数据分析师实战--行业分析

Part3:旅游行行业分析报告案例分析报告详解:第一部分内容1.2.类似这样的趋势线可以看出是稳步增长3.标题这里正常网名用户的量是不断增长的,所以直接说先增长后下降这个结论过于武断,至少圈定一个范围来说,比如年限45.说结构就说结构,不要扯到发展增速6.第二部分内容这张不错下面这张不错,加的这一条占比线很好说明问题.除非公司在上下半年差异很大看构成性东西 不能单一去看,有可能寻找图上较差的涨幅也不错,只是那个好的更好,所有需要全面分析

2020-10-10 14:00:02 182

原创 环比增长和同比增长

同比增长和环比增长有什么区别

2020-10-09 21:15:55 389

原创 高级数据分析师实战-交易分析

1.各种常见核心指标Part2:分析报告编写的总体要求Part4:Bad case剖析Part5:如何搭建分析报告的框架矩阵分析法如何做好交易分析2、交易易分析案例例解析**在线poi 数 (就是在线的商户 )动销率 (就是被购买的商家比率)单门店GMV 那就是总的交易额很多方面去分析,很多个业务指标...

2020-10-09 20:03:42 282

原创 分类问题的评价指标

https://blog.csdn.net/u011630575/article/details/79645814

2020-10-08 21:31:09 136

原创 Python-sklearn包中StratifiedKFold和KFold生成交叉验证数据集的区别

知识点回顾

2020-10-08 21:30:27 527

原创 GBDT与xgboost :流失预测 shap解释 调参 保存调参好的模型

集成学习集成学习的方式分为两类:个体的学习器之间存在强依赖关系,必须串行生成序列化方法,代表Boosting;个体学习器之间不存在强依赖关系,可同时生成并行化方法,代表是Bagging和随机森林。baggingboostingstacking2)点击率预估使用GBDT+LR进行点击率(CTR)预估。https://blog.csdn.net/Snoopy_Yuan/article/details/80703175?depth_1-utm_source=distribute.p

2020-10-08 21:06:40 2386 7

原创 利用SHAP解释Xgboost模型

Xgboost相对于线性模型在进行预测时往往有更好的精度,但是同时也失去了线性模型的可解释性。所以Xgboost通常被认为是黑箱模型。2017年,Lundberg和Lee的论文提出了SHAP值这一广泛适用的方法用来解释各种模型(分类以及回归),其中最大的受益者莫过于之前难以被理解的黑箱模型,如xgboost和神经网络模型。本教程中,我们在真实数据集上进行实操,利用SHAP来解释Xgboost模型。预计学习用时:30分钟。本教程基于Python 3.6版本、Xgboost 0.82版本以及shap 0

2020-10-08 20:06:31 9096 7

原创 聚类:用户画像

用户画像的应用场景产品层面的宏观分析维度用户画像标签类型聚类和分类q:聚类的距离:3.2 K-means算法原理模型评估:误差平方和Q1:K值得确定:肘部法则Q2: 聚类效果如何评估??:轮廓系数3.3 K-means算法的优缺点3.4 使用Pyhton做K-means算法的步骤4. 用户画像5.使用K-means做用户画像(1)数据解释本节对互联网行业用户进行聚类分析,根据获取到用户的10个维度进行聚类分析,10维度涵盖了用户的观看

2020-10-06 14:36:53 6064 1

原创 决策树算法:用户分层:

1.决策树概念及应用场景决策树概念决策树是一种以树型结构形式表达的预测分析模型,一般一棵决策树包含一个根节点、若干个内部节点和叶节点;叶节点对应决策结果,其他每个节点对应于一个属性;每个节点包含的样本集合根据属性测试被划分到子节点中;根节点包含样本全集,从根节点到每个叶节点的路径对应了一个判定测试序列。决策树种类有两种:分类树–对离散变量做决策树;回归树–对连续变量做决策树。 决策树常常用来解决分类和回归问题,在实际工作中基本应用于给人群分类,最好的应用场景是要把人群分为互斥的两类,并找到两类人群的

2020-10-05 19:54:57 2389 1

原创 营收与预测:线性回归建立预测收入水平的线性回归模型。

获取数据特征含义、## 获取数据from sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_scoreimport statsmodels.api as sm #是 Python 中一个强大的统计分析包,包含了回归分析、时间序列分析、假设检验等等的功能import numpy as np import pandas as pd import matplotlib.pyplot as pltd

2020-10-05 10:28:52 4266

原创 模型评价:MSE(均方误差)函数和RMSE函数 以及交叉验证里面的score

cross_val_score的 scoring参数值解析线性回归模型取R^2交叉验证

2020-10-04 22:03:48 4856 1

原创 np.power()数据元素求n次方

2020-10-04 18:41:59 292

原创 缺失值填充imputer fillna dropna

2020-10-04 18:10:30 296

原创 文章推荐系统

1.以用户为基础的协同过滤基于用户对某些商品进行打分*1.1相似度运算:1.1.1欧几里得距离评价1.1.2皮尔逊相关度评价依旧对商品进行打分1.1为用户推荐商品 (加权排序推荐)1.2算法缺点2.基于物品的协同过滤算法2.1基于物品对用户进行打分2.1 相似度评价皮尔逊相关度评价通过计算可以发现,商品1&2,商品3&4&5的相似度较⾼。下⼀步我们可以依据这些商品间的相关度对⽤户进⾏商品推荐。2.2 为⽤户提供基于相似物品的推荐

2020-10-04 15:57:10 2378 6

原创 rename 更改列名: rename()函数(包含更改索引列列名的方法)

rename 更改列名:rename()函数(包含更改索引列列名的方法)1 rename()可以更换列名和行名,必须写上columns或index,否则无效

2020-10-04 14:04:38 3074

原创 np.dot()函数主要有两个功能,向量点积和矩阵乘法

如果np.dot(a, b)⾥,a和b都是矩阵,那么进⾏的就是矩阵乘法np.matmul(a, b) 也可以进⾏矩阵相乘all_user_predicted_ratings = np.dot(np.dot(U, sigma), Vt)test=np.matmul(np.matmul(U, sigma), Vt)np.array_equal(test, all_user_predicted_ratings) # 判断两个array是否相同的⽅法...

2020-10-04 13:58:32 556

原创 集中特殊的矩阵:对角阵 单位阵 各个元素全为某个数

2020-10-04 13:49:23 163

原创 .as_matrix()的作用:将Dataframe转变成数组

https://blog.csdn.net/weixin_41884148/article/details/88783328

2020-10-04 13:34:18 1480

原创 argsort() +flatten

我们可以根据argsort(0),正常获得各个列的从小到大的排序数据。我们还可以利用flatten来减少矩阵的行,实现降维,然后将矩阵转化为数据,

2020-10-03 21:54:06 874

原创 sorted对字典进行排序 +zip()

sorted对字典进行排序https://blog.csdn.net/u013193903/article/details/81096367myprofile = user_profiles[-1479311724257856983]print(myprofile.shape)pd.DataFrame(sorted(zip(tfidf_feature_names,user_profiles[-1479311724257856983].flatten().tolist()), key=lambda

2020-10-03 21:25:00 223

原创 关于np.multiply()

a1 = np.array([[1,2,3],[4,5,6]])b1 = np.array([1,2,3])np.multiply(a1, b1) #对应元素相乘

2020-10-03 20:49:31 564

原创 基于无监督学习的实体商店顾客偏好分析(自己)表结合之后降维,聚类

数据处理与转化:import numpy as npimport pandas as pdfrom sklearn.decomposition import PCAimport matplotlib.pyplot as plt#C:\Users\lb\Desktop\test# ⽤户订单信息,order_id唯⼀标识orders = pd.read_csv('C:/Users/lb/Desktop/test/2.0orders.csv')orders.head()# pd.Ser..

2020-09-30 10:46:40 558

原创 关于axis = 0或者1 的误区

axis = 0 表示先沿着垂直方向 然后再沿着列方向axis = 1 表示先沿着列方向,然后再沿着行方向对于这样的一个表axis= 0就是按列求和cluster_means.sum(axis=0)axis =1 按行求和cluster_means.sum(axis=1)这里又不太明白了:计算其中每一个数与一行的累加之和的比例cluster_perc = cluster_means.apply(lambda x:(x/x.sum(axis=0) )*100,axis=1).

2020-09-30 10:39:49 539

原创 1. 智能设备采集的⽤户⾏为数据的分析(自己)

使⽤数据降维和聚类的⽅法,基于智能设备,包括智能⼿机与⼿环,所采集的⽤户⾏为与动作数据,进⾏深⼊的探究与分析。.本节代码实践课主要是教给学⽣数据降维PCA和聚类K-Means的应⽤场景,以及Python的代码实现。from sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import PCAfrom sklearn.cluster import KMeans, AgglomerativeClusterin

2020-09-28 16:58:57 254

原创 求行列最大值

最大值

2020-09-28 16:08:18 199

原创 df.groupby

for 循环遍历分组# 分组import pandas as pdimport numpy as npdf=pd.DataFrame({'name':['BOSS','Lilei','Lilei','Han','BOSS','BOSS','Han','BOSS'],'Year':[2016,2016,2016,2016,2017,2017,2017,2017],'Salary':[999999,20000,25000,3000,9999999,999999,3500,999999],'Bon

2020-09-28 15:19:56 2264

原创 pd.merge() pd.join

使用join合并,着重关注的是⾏行行的合并import pandas as pddf3=pd.DataFrame({'Red':[1,3,5],'Green':[5,0,3]},index=list('abc'))df4=pd.DataFrame({'Blue':[1,9,8],'Yellow':[6,6,7]},index=list('cde'))print(df3)print(df4)# 简单合并(默认是left左连接,以左侧df3为基础)df3.join(df4,how='left'

2020-09-28 14:40:58 4712 1

原创 np.vstack() np.hstack np.concatenate()

np,vstack() np.hstack()import numpy as npa=np.array([[ 8., 8.],[ 0., 0.]])b=np.array([[ 1., 3.], [ 6., 4.]])print (np.vstack((a,b))) #将两个数组按行放到一起print("*"*20)print ( np.hstack((a,b))) # 将两个数组按列放到一起# np.vstack:按垂直⽅向(⾏顺序)堆叠数组构成⼀个新的数组a = np.arr

2020-09-28 14:22:02 499

原创 xgboost 实现鸢尾花红酒数据集的多分类问题

np.split()的用法np.split(m , (3,) ,axis = 1)鸢尾花数据集概览:逗号隔开import xgboost as xgbimport numpy as npfrom sklearn.model_selection import train_test_split # cross_validationdef iris_type(s): it = {b'Iris-setosa': 0, b'Iris-versicolor': 1

2020-09-16 21:10:07 1330

原创 文本数据模型

from sklearn.feature_extraction.text import TfidfVectorizertfidf = TfidfVectorizer(stop_words=stopWord_list, min_df=40, max_df=0.3)train_df.columns = ["类别","文章"]# print('词表大小:', len(tfidf.vocabulary_)) #量化的维数,即特征的维数# X = tfidf.fit_transform(t.

2020-09-16 15:39:07 502

原创 TF-IDF +多分类逻辑回归问题文本预处理部分

语法积累:以下实例展示了strip()函数的使用方法:jieba.cut () 出来的都是都是单个的词" ",join() 可以将单个词连接在一起import pandas as pdimport numpy as np读取的注意没有列索引影响的情况train_df = pd.read_csv('3.0text_train.txt', sep='\t', header=None)# header=None,告诉函数读取的原始文件数据没有列索引;否则会把数据的第一行默认为字段名标

2020-09-15 21:37:42 498 1

原创 TF -IDF的 算法原理初步熟悉

TF:统计文本中每个词的出现频率IDF:逆文本评率,这个权重调整参数就是“逆⽂本频率”(IDF),它的⼤⼩与⼀个词的常⻅程度成反⽐。举个例子:利用scikit-learn 进行TF-IDF处理from sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizercorpus=["I come to China to t

2020-09-15 14:42:14 174

原创 1485 按照日期分组销售产品 group_concat() 列抓行(没写出来)

Create table If Not Exists Activities (sell_date date, product varchar(20))Truncate table Activitiesinsert into Activities (sell_date, product) values ('2020-05-30', 'Headphone')insert into Activities (sell_date, product) values ('2020-06-01', 'Pencil')

2020-09-15 12:44:42 91

KNN 算法的实现,手写数字识别

利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别; 先验数据(训练数据)集: ♦数据维度比较大,样本数比较多。 ♦ 数据集包括数字0-9的手写体。 ♦每个数字大约有200个样本。 ♦每个样本保持在一个txt文件中。 ♦手写体图像本身的大小是32x32的二值图,转换到txt文件保存后,内容也是32x32个数字,0或者1,如下

2020-08-31

朴素贝叶斯文本分类数据集

朴素贝叶斯 分类算法数据集文本挖掘(Text Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前,在机器学习模型的帮助下,包括情绪分析,文件分类,话题分类,文本总结,机器翻译等在内的诸多文本挖掘应用都已经实现了自动化。   在这些应用中,垃圾邮件过滤算是初学者实践文件分类的一个很不错的开始,例如 Gmail 账户里的“垃圾邮箱”就是一个垃圾邮件过滤的现实应用。下面我们将基于一份公开的邮件数据集 Ling-spam,编写一个垃圾邮件的过滤器。Ling-spam 数

2020-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除