紫雪凝香-CSDN博客

原创评价模型中熵值法Excel和Python实现

因为项目需要，要用分数的形式评价用户对某个产品的喜好程度，其中的指标权重确定用熵值法计算。在网上搜集了些资料，再自己捣腾了一下分别用Excel和Python的方法来实现。目录一、熵值法介绍二、计算步骤1.数据标准化2.计算第j项指标下第i个记录所占比重3.计算第j项指标的熵值4.计算第j项指标的差异系数5.计算第j项指标的权重三、Python实现四、Excel实现1.数据标准化2.计算第j项指标下第i个记录所占比重3.计算第j项指标的熵值4.计算第j项指标的权重5.重新评分一、熵值法介绍熵值法

2020-10-19 15:24:21 6519 10

原创【数据分析】用RFM模型分析用户

RFM模型RFM模型根据客户活跃程度和交易金额的贡献，进行客户价值细分的一种方法。R（Recency）——最近一次交易时间间隔。基于最近一次交易日期计算的得分，距离当前日期越近，得分越高。如5分制。反映客户交易活跃度。F（Frequency）——客户在最近一段时间内交易次数。基于交易频率计算的得分，交易频率越高，得分越高。如5分制。反映客户交易活跃度。M（Monetray）——客户最近...

2020-09-16 10:58:36 994

原创【数据预处理】Python数据预处理常见操作

文章总结了拿到原始数据后，做数据预处理的常见操作。后续会根据总结不断更新。目录一、数据查看二、数据转换三、数据清洗1.异常值2.重复值3.缺失值四、数据获取五、数据合并1.join，基于index连接DataFrame的列2.merge，基于column连接，类似SQL的join3.concat，合并相同的Excel或给DataFrame添加行或列时使用六、其他操作1.数据分组聚合2.列表生...

2020-04-30 22:26:44 3995 1

原创【数据分析框架】AARRR模型的数据指标体系

AARRR模型是运营里面一个非常有名的用户分析模型，也是一个典型的漏斗模型，这个模型也可以作为数据分析的框架，这里总结了模型中会用到的数据指标。

2020-04-18 16:32:09 1912

原创【Python数据分析】文本情感分析——电影评论分析（二）

接上一篇《【Python数据分析】文本情感分析——电影评论分析（一）》。目录文本向量化词袋模型文本向量化文本要进行模型训练，进而判断文本是积极的还是消极，而此时的文本依然是字符串形式，机器学习只能进行数值类型数据的计算，不能完成非数值类型的计算。所以需要把文本转化成数值类型，才能让模型训练学习，而把文本转化为数值的形式就是文本向量化。词袋模型...

2020-04-12 20:04:05 8564 1

原创【MySQL学习笔记】MySQL高级应用学习笔记，包含索引、视图、SQL优化

关于MySQL的索引、视图等方面的总结。

2020-04-12 13:15:23 230

原创【统计学】推断统计分析——根据样本统计量推断总体参数

推断统计研究的是如何根据样本数据去推测总体特征的方法。进行推断的原因是在实际生产中，获取总体数据通常比较困难，甚至不可能完成，因此需要对总体进行抽样，通过样本统计量去估计总体参数。

2020-04-06 22:13:22 11581

原创【数据分析】数据分析在电商精准营销及效果评估中的应用

本文总结了数据分析在电商精准营销中的常用方法，同时总结了营销活动效果评估的常用指标，提供了分析思路。

2020-04-01 16:04:42 2964

原创【Python数据分析】文本情感分析——电影评论分析（一）

情感分析：文本分类的一种，从一段话分析出褒义还是贬义。使用场景，商品、服务客户的反馈，分析顾客评价。适用于一般文本分类：垃圾邮件分类、新闻分类。

2020-03-31 22:00:21 22447 16

原创【MySQL学习笔记】什么情况下会出现笛卡尔积

在学习MySQL的表连接时，笛卡尔积是必须知道的一个概念。在没有任何限制条件的情况下，两表连接必然会形成笛卡尔积。笛卡尔积如果表1有m行a列，表2有n行b列，两表无条件连接时会将两表里所有行两两组合到一起，所形成的表就有m*n行，a+b列。如果表1或表2的记录数很多时，连接后会形成一张非常大的表，在这种大表里查询效率特别低，所以在数据库查询时，应尽量避免笛卡尔积的出现。在Hive...

2020-03-25 17:01:18 8403 2

原创【Hive学习笔记】Hive与传统关系型数据库的区别

1、查询语言：Hive用的是HQL，关系型数据库用的是SQL。2、数据存储位置：Hive把数据存储在HDFS中。关系型数据库将数据存在块设备或本地文件系统中。3、数据格式：Hive没有定义专门的数据格式，可由用户可以自定义，在自定义的时候需要指定三个属性：列分隔符，行分隔符，以及读取文件数据的方法。关系型数据库在建立时会指定或默认有存储引擎，存储引擎定义了自己的数据格式，所有数据都会按照一...

2020-03-21 23:12:51 968

原创【数据分析】2019北京积分落户数据分析

一文了解2019年北京落户形式如何，怎样的年龄、怎样的积分值、什么样的工作单位落户成功率较高，希望对想要通过积分落户的朋友形成指导，大概几年能达到积分落户要求，也希望对准备在2020年申请积分落户的朋友有些许帮助。

2020-03-18 15:03:03 6661

原创 Anaconda 安装jieba、wordcloud失败解决办法

成功解决Anaconda 安装jieba、wordcloud提示Traceback（most recent call last）：...... 超时等问题。

2020-03-12 22:04:48 433

原创【Python数据可视化】用Matplotlib绘制常见统计图，中文显示字体任意设置

本文主要总结了Matplotlib绘图中的一些常用方法，把用Matplotlib绘制常见统计图做一个汇总，解决了中文字符无法正常显示问题，并可以根据需要一张图显示不同字体。

2020-03-10 21:11:12 4615 1

原创【机器学习算法】手动Python实现KNN分类算法，并用iris数据集检验模型效果

KNN原理很简单，就是“少数服从多数”，为了更好的理解KNN实现原理，给电影分类这个简单的例子，自己手写Python代码实现KNN，并用著名的iris数据集验证模型。

2020-03-09 18:04:05 2058

WANG_hl的博客