2 单车哥哥

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 48w+

K-Means算法详解

2020-10-07 17:07:59

新闻分类(朴素贝叶斯)

2020-09-03 09:57:19

时间序列(啤酒销量预测)

2020-09-06 15:04:33

统计推断之参数估计

补充:当分布已知(如:服从正太分布,那么样本容量就可以不限制为>=30)

2020-09-08 19:42:06

推断统计之假设检验

作业:1.假设检验中,阿尔法的取值会影响到什么?答:它的取值越大,原假设为真而被否定的风险也愈大(去真)。它的取值越小,原假设为假而被肯定的风险也越大(存伪)通常α取值为0.05.这也是对假设检验中的两类错误的权衡。2.某公司要求,平均日投诉量均值不得超过1%,现检查一个部门的服务情况.在该部门维护的一个500人客户群中,近7天的投诉量分别为5,6,8,4,4,7,0.请问该部门是否达标#原假设:平均日投诉量均值不超过1%import numpy as nparr=np.array.

2020-09-09 09:38:49

线性回归及程序演示

import numpy as npimport pandas as pdfrom sklearn.linear_model import LinearRegression # 线性回归的类from sklearn.model_selection import train_test_split # 数据划分的类from sklearn.datasets import load_bostonfrom sklearn.datasets import load_irisnp.set_printopt.

2020-09-15 15:06:12

分类评估模型

2020-09-20 16:42:35

逻辑回归(广义线性回归)

2020-09-20 16:42:03

数据分析师之Hive的安装

Hadoop学习:1.完成hadoop的部署和安装正常启动/关闭Hadoop集群,并完成基准测试3.理解分布式文件系统的设计思想4.熟练操作hadoop集群创建用户:root下:useradd 用户名设置密码:passwd 用户名1.区别:完全分布式:节点超过1(虚拟机台数超过通常是3个以上)hadoop除了运行hive,还有zookeeper(通常要求节点数为奇数),hbase,spark,kylin伪分布式:用一个虚拟机,安装并启动hadoop,所有服务都在这一台虚拟机上hiv

2020-08-01 17:33:33

业务指标

业务指标1.如何理解数据2.常用的业务指标有哪些?3.如何选择指标?1.如何理解数据每一列的含义数据分析:用户数据:用户的属性【性别、年龄、地区等】行为数据:用户做了什么【点击菜单的次数、分享量、收藏次数等】产品数据:我是卖什么的【文章标题、日期、阅读量等】2.常用的业务指标有哪些?用户数据指标行为数据指标产品数据指标2.2 行为数据指标2.3产品数据指标...

2020-08-04 00:04:36

电商销售数据分析

1.背景与目标2.数据准备3.数据清洗4.具体目标分析5.案例结论1.背景与目标对一家全球超市4年(2011年-2014年)的零售数据进行数据分析数据分析的目标:* 分析每年销售额增长率* 各个地区分店的销售额* 销售淡旺季* 新老客户数* 利用RFM模型标记用户价值2.数据准备数据来源于数据科学竞赛平台Kaggle-https://www.kaggle.com/jr2ngb/superstore-data,总共51290条数据,24个字段。导入数据import pand

2020-09-01 15:08:39

描述统计分析

描述数据常用的4个指标平均值四分位数标准差标准分平均数缺点:对异常数据的不敏感。即:不能用平均收入来衡量各个行业的收入【马云的工资】四分位数:位置优点:从整体上描述出数据集的分布状态缺点:不能告知数据集的波动有多大从小到大排列下四分位数的位置Q1=(n+1)/ 4中位数的位置Q2=(n+1)/ 4上四分位数的位置Q3=(n+1)/ 4箱线图:上界、上四分位数、中位数、下四分位数、下界解读:看中位数的位置,离哪个近(上下四分位数),表明数据集集中在哪个区间应用:1.常常用来

2020-08-09 16:35:26

银行客户逾期还款业务(逻辑回归)

业务描述:(P2P平台)预测贷款申请是否会违约,从而决定是否向申请人发放贷款 (39522,52)逻辑回归模型的一般步骤一.数据的整理1.根据业务对字段进行删除、清洗等预处理2.构建数据集:Y的属性—>【违约,不违约,不清楚】用于建模的数据集:违约和不违约【70%为训练集】用于测试的数据集:违约和不违约【30%为测试集】3.解释变量的筛选(X): statsmodels 向前逐步法,以aic作为筛选的标准(越小越好)二.建立模型三.模型的检验用测试集进行检验,画ROC曲线,求AU

2020-08-06 14:18:08

SQL练习(业务级别)

1.统计每个班同学各科成绩平均分大于80分的人数和人数占比思路:1.每个同学的平均分【临时表】select 学号,avg(分数) 平均成绩from 成绩表group by 学号;2.各科平均成绩大于80分的人数select sum(case when a.平均成绩>80 then 1 else 0 end) 人数 from (select 学号,avg(分数) 平均成绩from 成绩表group by 学号) a;3.各科平均成绩大于80分的人数的占比selec

2020-08-04 20:17:10

HiveSQL高频窗口函数企业案例

课堂目标掌握sum(),avg()用于累计计算的窗口函数掌握row_number(),rank()用于排序的窗口函数【最高频※※※】掌握ntile()用于分组查询的窗口函数【很低频】掌握lag(),lead()偏移分析窗口函数【很低频】1.2018年每月的支付总额和当年累计支付总额'''sum后面加需要累计求和的字段over后面是按照月份的升序进行的【排到某月份前面的所有都进行汇总】'''select a.month,a.pay_amount,sum(a.pay_amount)

2020-08-01 17:27:19

Hive查询练习二

目标inner joinleft joinfull joinunion all综合练习表结构inner join1.在2019年购买后又退款的用户'''※【注意去重】去重31条,没有去重61条尽量在做表连接之前去重,这样效率才高'''select a.user_namefrom (select distinct user_namefrom user_trade where year(dt)='2019') ajoin (select distinct

2020-08-01 17:24:21

Hive查询练习一

目标基础语法1.select…from…where…2.Group by3.order by4.执行顺序###常用函数1.如何把时间戳转换为日期2.如何计算时间间隔3.条件函数4.字符串函数5.聚合统计函数综合练习HiveSQL与传统SQL的对比:表结构练习1.2019年一月到四月,每个品类有多少人购买,累计金额是多少select goods_category, count(distinct user_name) user_num, sum(pay_a

2020-08-01 17:20:01

客户价值分析(聚类)--【Excel+SPSS】和python实现

分类:已知当前所研究的问题的类别数目及各类特征,将一些未知类别的个体正确地归属于其中某一类。例如,在大学,学校根据院系、专业,将学员分类不同的类别,有学计算机的,有学金融,有学数学等,这个过程就是分类,一开始就知道类别数目、类别特征聚类:事先不知道所研究的问题应分为几类,也不知道观测到的个体的具体分类情况,需要按照性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生分类结果例如,在大学,同学之间根据兴趣爱好、性格、家乡等,自发地聚集成不同的圈子,这个过程就是聚类,一开始不知道类别数目及细节多

2020-08-01 17:15:55

滴滴面试题---Mysql业务取数

业务需求:【时间、数据均为面试之用】数据源: 链接:https://pan.baidu.com/s/1hcH5lw8uDccbpCg85Qorag 提取码:86k2提取2020年8月各城市每天的快车司机数、快车订单量和快车流水数据。提取2020年8月和9月,每个月的北京市新老司机(首单日期在当月为新司机)的司机数、在线时长和TPH(订单量/在线时长)数据。分别提取司机数大于20,司机总在线时长大于2小时,订单量大于1的城市名称数据。现有四张表,分别是“司机数据”表,“订单数据”表,“在线时

2020-08-01 17:12:20

数据分析---电商RFM模型

数据分析的流程:1、明确分析目的和思路/提出假设2、数据收集3、数据处理/整理4、数据分析/验证假设5、数据展现/可视化图表6、报告撰写1.分析背景2019年,平台经过一年的发展,销售体量、客户群体、平台规模达到新的高度。现对平台2019年销售数据进行分析。分析数据:(10万+)2019-01-01-00:00:00 — 2019-12-31-23:59:592.分析思路2.1.整体运营2.2.用户行为2.3.销售2.4.渠道流量3.分析过程3.1.整体运

2020-08-01 16:55:30
勋章 我的勋章
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。