自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Tableau-帕累托图制作

帕累托图是“二八法则”的可视化体现,在实际工作场景中运用很广泛。下面来聊聊Tableau中怎么来制作帕累托图。步骤:1、做出如下直方图,对产品系列按销售额汇总降序排列。2、按住键盘Ctrl键+鼠标左键,对行中的销售额再拖拽一个出来。3、将第二个直方图改为线形图。然后对行中的第二个销售额右键点击添加表计算,按如下方式添加。4、然后在第二个图的y周右键点击双轴。再调整细节即可。...

2021-01-09 21:05:25 3802 1

原创 Tableau小知识-如何将除了Top10以外的数据显示为其它

针对一些分析场景,我们需要查看Top10的分类的时候,想把排名10之后的都归为其它类,Tableau对此怎么操作呢?(如下图24%对应的为其它)步骤:1、针对要分类的维度:[产品系列],右键创建集,写个名称。然后点击顶部–按字段–顶部–10–销售额–总计,点击确定。2、创建字段,起个名称。内容写为:iif([TOP10-产品系列],[产品系列-计算],“其它”)。说明:集的返回值是True or False3、只需要按照正常做饼图的顺序就可以完成一个包含“其它”的饼图了。...

2021-01-09 20:49:09 4060

转载 数据库设计三大范式

为了建立冗余较小、结构合理的数据库,设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库,必须满足一定的范式。在实际开发中最为常见的设计范式有三个:1.第一范式(确保每列保持原子性)第一范式是最基本的范式。如果数据库表中的所有字段值都是不可分解的原子值,就说明该数据库表满足了第一范式。第一范式的合理遵循需要根据系统的实际需求来定。比如某些数据库系统中需要用到“地址”这个属性,本来直接将“地址”属性设计成一个数据库表的字

2020-08-18 14:34:40 1937

原创 机器学习集成算法之Adaboost原理详细解读(推导填坑必看)

本文是基于刘建平老师的关于Adaboost的博文为模板,就其中损失函数的推导部分加以细化。网上基本所有关于Adaboost推导过程中都有假设: wki’=wkiw_{ki}^{’} =w_{ki}wki’​=wki​,个人之前在看到这一步的时候总是理解不了这个假设的由来,网上也一直找不到相关的解释。本文的推导过程就舍弃这个假设,并详细推导了两者之间到底是什么关系。如果对基本原理比较熟悉的同鞋,可以直接跳到本文第3部分了解详细推导过程。集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学

2020-06-05 23:21:15 864

原创 「二分类算法」提供银行精准营销解决方案(样本不平衡问题)

项目背景项目来源于Kesci平台:提供银行精准营销解决方案项目简介本练习赛的数据,选自UCI机器学习库中的「银行营销数据集(Bank Marketing Data Set)」这些数据与葡萄牙银行机构的营销活动相关。这些营销活动以电话为基础,一般,银行的客服人员需要联系客户至少一次,以此确认客户是否将认购该银行的产品(定期存款)。因此,与该数据集对应的任务是「分类任务」,「分类目标」是预测客户是(’ 1 ‘)或者否(’ 0 ')购买该银行的产品。数据字段说明本次测评算法为: AUC(Area

2020-05-30 22:50:02 5247 1

原创 电商用户行为分析案例--天池数据集User Behavior Data from Taobao(python环境MySQL操作+Pyecharts可视化)

项目的背景及数据预处理过程,本文不再进行介绍。可以参考上一篇博文:电商用户行为分析案例–天池数据集User Behavior Data from Taobao本文基于上文已经预处理并导入MySQL的数据,在Python环境下,连接数据库进行取数。Python环境下,MySQL数据库的操作,可以参考博文:Python环境下MySQL数据库的操作分析的思路及角度,也可以参见上篇博文,本文不再赘述。本文重点介绍两个方面:1.Python环境下,连接MySQL并进行取数操作;2.运用python强

2020-05-17 01:42:06 6566 2

原创 电商用户行为分析案例--天池数据集User Behavior Data from Taobao

用户行为分析过程说明本次数据分析基于阿里云天池数据集(用户行为数据集),使用转化漏斗,对常见电商分析指标,包括转化率,PV,UV,复购率等进行分析,分析过程中使用Python进行数据的清洗,清洗后的数据导入MySQL数据库,运用MySQL进行数据提取,使用Excel进行数据可视化。一、数据集该数据集记录用户在淘宝网站浏览商品产生的行为数据。二、提出问题1、整体用户的购物情况PV(总访问量)、日均访问量、UV(用户总数)、有购买行为的用户数量、用户的购物情况、复购率分别是多少?2、用户行为转

2020-05-13 23:45:18 19921 84

原创 京东商品评论分析(爬虫+分词+词云图)

项目背景:本文通过抓取京东某笔记本的评论数据,简单从几个维度进行分析,并制作用户评论的词云图。爬取数据:商品链接通过对商品评论页面进行探索,发现评论数据是通过发送请求,然后从数据库调取此商品的评论数据,返回的评论数据是Json格式。可以点击下一页,抓到发送请求的链接:https://club.jd.com/comment/productPageComments.action?callba...

2020-05-05 14:59:18 11976 24

原创 天池o2o优惠券使用预测-第一名思路及代码解读

赛题回顾本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内是否核销。评测指标采用AUC,先对每个优惠券单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。大赛地址解决方案概述本赛题提供了用户线下消费和优惠券领取核销行为的纪录表,用户线上点击/消费和优惠券领取核销行为的纪录表,记录的时间区...

2020-04-23 23:12:00 6174 1

原创 逻辑回归制作金融申请评分卡

本文以个人消费类贷款数据,来简单介绍金融申请评分卡的建模和制作流程。1.1导库,获取数据#导库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.linear_model import LogisticRegression as LR#...

2020-04-12 00:10:47 502 10

原创 用Python对numpy数组进行变形

在用numpy时候,经常需要对数组进行维度的转换、变形,本文简单聊下numpy如何重塑多维数组。numpy.reshape()方法如何重整数组?创建一个Python numpy数组使用np.arange()生成一个numpy数组,其中包含从1到12的数字序列:import numpy as npa1 = np.arange(1, 13) # numbers 1 to 12prin...

2020-01-01 00:23:58 2634

原创 Python环境下MySQL数据库的操作

在Python环境下连接MySQL数据库,一般有两种方式:1、在Python环境中连接MySQL数据库后,实际提取数据用的还是SQL语句。常用的有:pymysql库;这种编程语言在不同的数据库间一般不具有通用性,如果换个数据库,又得把代码全部重新写。2、运用ORM框架,构建关系数据库的表结构到对象上的映射,常用的实现ORM框架有SQLAlchemy库。ORM框架在数据库间的迁移比较方便,框...

2019-12-29 21:39:57 465

原创 零售行业数据分析运用

随着移动互联网十年红利期的结束,线上流量成本越来越贵,许多企业纷纷将目光又从线上业务转移至线下,传统零售行业面临着激烈的竞争,而以往的粗犷式运营,已不能满足现阶段市场环境及商业竞争的要求,精细化运营势在必行。在此背景下,运用计算机及互联网技术为企业进行数字化、智慧化赋能是所有企业都必须考虑的问题。本文从数据分析的角度,简单谈谈数据在零售业经营过程中的重要性及简单运用。一、数据分析的重要性在信...

2019-12-29 16:54:14 6765

原创 数据分析必会的六大实用模型

对于刚刚接触数据分析的人来说,经常会有这样的困惑和疑问:数据分析究竟难不难?难的话难在哪?为什么有时候作分析不知道从何下手,只能眉毛胡子一把抓?其实就连我这种已经在数据分析行业浸淫十几年的老油条,有时候做起分析来也会手忙脚乱,根本原因就在于没有抓住数据分析的本质,我们是为了用大量数据去分析、解释和预测基于数据的事实,你首先要明白自己做数据分析的目的是什么,是为了描述事件分析?还是为了预测?又或者...

2019-12-08 13:07:55 434

原创 Python3爬取豆瓣图书Top250并存入csv文件中

本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取。下面先导入相关的包,并伪装成浏览器访问:import requestsfrom lxml import etreeimport reheader={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, ...

2019-11-30 18:04:14 5308 3

原创 Kaggle - Home Depot Product Search Relevance关键词搜索

背景介绍Home Depot 产品相关性预测 kaggle竞赛:https://www.kaggle.com/c/home-depot-product-search-relevance HomeDepot是美国一家家具建材商品网站,用户通过在搜索框中输入关键词,得到相关商品和服务,如输入floor,得到不同材料的地板商品、地板清洗商品、地板安装服务等。kaggle竞赛目的是通过设计一种模型,能够...

2019-11-17 10:35:17 435

原创 文本挖掘(Word2Vec)小案例《每日新闻预测金融市场变化》

数据简介本案例用到的原始数据是一个简单的数据集,其中包括从国外某网站捞取的每日新闻排序(25条),然后以当日的股票市场涨跌作为Label。从而根据对新闻的挖掘,来判断当日股票涨跌。数据集大致长这样(部分截图):Date:日期数据,本案例文本分析就不用这个数据了。Label:当日股票市场情况,1代表上涨,0代表下跌。Top*:共25列,表示当日的相关新闻。下面利用Word2Vec简单的...

2019-11-16 11:45:29 1090

原创 Python编码问题及中文解决方案

一.各种编码的由来为什么会出现多种编码?相信计算机专业的都知道,所有的数据(文本,音频,视频等等)在计算机内部都是以二进制形式来表示的。而计算机内部为什么采用二进制则是由硬件决定的(计算机采用了具有两种稳定状态的二值电路)。这样,就引出一个问题:我们人类不适合直接看二进制。因此,需要用一种方法,将二进制转为我们能看懂的东西。编码就应运而生了。编码发展历史第一阶段:在计算机中,所有的数据...

2019-11-14 19:52:04 746

原创 文本挖掘(TF-IDF)小案例《每日新闻预测金融市场变化》

数据简介本案例用到的原始数据是一个简单的数据集,其中包括从国外某网站捞取的每日新闻排序(25条),然后以当日的股票市场涨跌作为Label。从而根据对新闻的挖掘,来判断当日股票涨跌。数据集大致长这样(部分截图):Date:日期数据,本案例文本分析就不用这个数据了。Label:当日股票市场情况,1代表上涨,0代表下跌。Top*:共25列,表示当日的相关新闻。下面利用TF-IDF简单的跑一...

2019-11-13 21:35:52 824

原创 Kaggle 便利店销量预测(xgboost附完整详细代码)

项目背景介绍Forecast sales using store, promotion, and competitor dataRossmann operates over 3,000 drug stores in 7 European countries. Currently,Rossmann store managers are tasked with predicting their ...

2019-10-29 23:32:37 20280 20

原创 Kaggle_Titanic生存预测

泰坦尼克号数据介绍与分析数据介绍作为当前机器学习最出名的几个入门kaggle项目,背景就无需多做介绍了。数据出处如下:https://www.kaggle.com/c/titanic/data数据中相关数据标签含义如下:从这里,我们大致了解了关于这份数据的存在形式,于是我们便可以进行python的使用与分析了,在此之前,导入基本我们需要使用的第三方库与数据:import numpy ...

2019-10-27 18:47:28 406

原创 Kaggle Event Recommendation Engine Challenge活动推荐(协同过滤推荐系统)

这里写自定义目录标题赛题介绍数据集一 处理user和event基础数据二 构建用户相似度矩阵三 用户社交关系挖掘四 event相似度矩阵五 event热度数据六 特征构建七 模型构建赛题介绍根据用户信息与活动(event)信息,预测用户将对哪些活动感兴趣。数据集共有六个文件:train.csv,test.csv, users.csv,user_friends.csv,events.csv和...

2019-10-19 20:13:36 809 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除