单车哥哥-CSDN博客

原创将txt文件写进excel中、写进sqlserver中

【代码】将txt文件写进excel中、写进sqlserver中。

2023-10-19 15:07:49 61

原创更新数据库中的部分字段

实习生的数据更新原有FAreport中的数据。

2023-10-17 10:17:38 104

原创 ajax的回调

1.promise回调地狱2.promise链式规则3.async和await

2023-07-20 10:12:52 30

原创统计推断之参数估计

补充：当分布已知（如：服从正太分布，那么样本容量就可以不限制为>=30）

2020-10-07 17:00:25 143

作业：1.假设检验中，阿尔法的取值会影响到什么?答：它的取值越大，原假设为真而被否定的风险也愈大（去真）。它的取值越小，原假设为假而被肯定的风险也越大（存伪）通常α取值为0.05.这也是对假设检验中的两类错误的权衡。2.某公司要求,平均日投诉量均值不得超过1%,现检查一个部门的服务情况.在该部门维护的一个500人客户群中,近7天的投诉量分别为5,6,8,4,4,7,0.请问该部门是否达标#原假设：平均日投诉量均值不超过1%import numpy as nparr=np.array.

2020-10-07 16:59:57 301

原创线性回归及程序演示

import numpy as npimport pandas as pdfrom sklearn.linear_model import LinearRegression # 线性回归的类from sklearn.model_selection import train_test_split # 数据划分的类from sklearn.datasets import load_bostonfrom sklearn.datasets import load_irisnp.set_printopt.

2020-10-07 16:59:25 403

原创分类评估模型

2020-10-07 16:58:58 111

原创逻辑回归（广义线性回归）

2020-10-07 16:58:19 261

原创 Pandas笔记2.0

写在前面：1.生成一个series:df = pd.Series(data=[1,2,3,4], index=["a", "b", "c", "d"])display(df)print(type(df)) #Seriesprint(df.loc["b"]) #索引 2print(df.iloc[1]) #位置 22.生成一个DataFrame:df = pd.DataFrame(np.random.rand(5, 6), index=["地区1

2020-09-22 10:33:29 173

原创 pandas笔记1.0

数据分析常见方式方法数据读写数据去重数据缺失值数据过滤数据转换数据排序数据组合/分割数据分组聚合数据分析的步骤：1.数据加载2.数据提取（根据业务）3.数据清洗（代码能力，pandas）4.数据分析（商业指标，数据透视表，建模等）Series有两个基本属性：index和values【是一个定长的字典】X1=Series([1,2,3,4]) #index默认0123X2=Series(data=[1,2,3,4],index=['a','b','c','d'])pri

2020-09-19 10:50:33 76

原创数据分析师之Hive的安装

Hadoop学习：1.完成hadoop的部署和安装正常启动/关闭Hadoop集群，并完成基准测试3.理解分布式文件系统的设计思想4.熟练操作hadoop集群创建用户：root下：useradd 用户名设置密码：passwd 用户名1.区别：完全分布式：节点超过1（虚拟机台数超过通常是3个以上）hadoop除了运行hive，还有zookeeper(通常要求节点数为奇数)，hbase,spark,kylin伪分布式：用一个虚拟机，安装并启动hadoop，所有服务都在这一台虚拟机上hiv

2020-09-01 21:38:28 221

原创业务指标

业务指标1.如何理解数据2.常用的业务指标有哪些？3.如何选择指标？1.如何理解数据每一列的含义数据分析：用户数据：用户的属性【性别、年龄、地区等】行为数据：用户做了什么【点击菜单的次数、分享量、收藏次数等】产品数据：我是卖什么的【文章标题、日期、阅读量等】2.常用的业务指标有哪些？用户数据指标行为数据指标产品数据指标2.2 行为数据指标2.3产品数据指标...

2020-09-01 21:37:23 592

原创电商销售数据分析

1.背景与目标2.数据准备3.数据清洗4.具体目标分析5.案例结论1.背景与目标对一家全球超市4年（2011年-2014年）的零售数据进行数据分析数据分析的目标：* 分析每年销售额增长率* 各个地区分店的销售额* 销售淡旺季* 新老客户数* 利用RFM模型标记用户价值2.数据准备数据来源于数据科学竞赛平台Kaggle-https://www.kaggle.com/jr2ngb/superstore-data，总共51290条数据，24个字段。导入数据import pand

2020-09-01 15:08:39 8666 6

原创描述统计分析

描述数据常用的4个指标平均值四分位数标准差标准分平均数缺点：对异常数据的不敏感。即：不能用平均收入来衡量各个行业的收入【马云的工资】四分位数：位置优点：从整体上描述出数据集的分布状态缺点：不能告知数据集的波动有多大从小到大排列下四分位数的位置Q1=（n+1）/ 4中位数的位置Q2=（n+1）/ 4上四分位数的位置Q3=（n+1）/ 4箱线图：上界、上四分位数、中位数、下四分位数、下界解读：看中位数的位置，离哪个近（上下四分位数），表明数据集集中在哪个区间应用：1.常常用来

2020-08-09 16:35:26 454

原创 SQL练习(业务级别)

1.统计每个班同学各科成绩平均分大于80分的人数和人数占比思路：1.每个同学的平均分【临时表】select 学号,avg(分数) 平均成绩from 成绩表group by 学号;2.各科平均成绩大于80分的人数select sum(case when a.平均成绩>80 then 1 else 0 end) 人数 from (select 学号,avg(分数) 平均成绩from 成绩表group by 学号) a;3.各科平均成绩大于80分的人数的占比selec

2020-08-04 20:17:10 1533

原创 Matplotlib画图---直接怼案例

import pandas as pdfrom matplotlib import pyplot as plt# 设置matplolib有关参数plt.rcParams["font.sans-serif"]=["SimHei"] #用来正常显示中文标签plt.rcParams["axes.unicode_minus"] = False #用来正常显示负号plt.style.use("ggplot")%matplotlib inline折线图df_target=pd.read

2020-08-01 22:18:16 38

原创 HiveSQL高频窗口函数企业案例

课堂目标掌握sum()，avg()用于累计计算的窗口函数掌握row_number()，rank()用于排序的窗口函数【最高频※※※】掌握ntile()用于分组查询的窗口函数【很低频】掌握lag()，lead()偏移分析窗口函数【很低频】1.2018年每月的支付总额和当年累计支付总额'''sum后面加需要累计求和的字段over后面是按照月份的升序进行的【排到某月份前面的所有都进行汇总】'''select a.month,a.pay_amount,sum(a.pay_amount)

2020-08-01 17:27:19 596

原创 Hive查询练习二

目标inner joinleft joinfull joinunion all综合练习表结构inner join1.在2019年购买后又退款的用户'''※【注意去重】去重31条，没有去重61条尽量在做表连接之前去重，这样效率才高'''select a.user_namefrom (select distinct user_namefrom user_trade where year(dt)='2019') ajoin (select distinct

2020-08-01 17:24:21 428

原创 Hive查询练习一

目标基础语法1.select…from…where…2.Group by3.order by4.执行顺序###常用函数1.如何把时间戳转换为日期2.如何计算时间间隔3.条件函数4.字符串函数5.聚合统计函数综合练习HiveSQL与传统SQL的对比：表结构练习1.2019年一月到四月，每个品类有多少人购买，累计金额是多少select goods_category, count(distinct user_name) user_num, sum(pay_a

2020-08-01 17:20:01 803

原创客户价值分析（聚类）--【Excel+SPSS】和python实现

分类：已知当前所研究的问题的类别数目及各类特征，将一些未知类别的个体正确地归属于其中某一类。例如，在大学，学校根据院系、专业，将学员分类不同的类别，有学计算机的，有学金融，有学数学等，这个过程就是分类，一开始就知道类别数目、类别特征聚类：事先不知道所研究的问题应分为几类，也不知道观测到的个体的具体分类情况，需要按照性质上的亲疏程度在没有先验知识的情况下进行自动分类，产生分类结果例如，在大学，同学之间根据兴趣爱好、性格、家乡等，自发地聚集成不同的圈子，这个过程就是聚类，一开始不知道类别数目及细节多

2020-08-01 17:15:55 2128 1

原创滴滴面试题---Mysql业务取数

业务需求：【时间、数据均为面试之用】数据源：链接:https://pan.baidu.com/s/1hcH5lw8uDccbpCg85Qorag 提取码:86k2提取2020年8月各城市每天的快车司机数、快车订单量和快车流水数据。提取2020年8月和9月，每个月的北京市新老司机（首单日期在当月为新司机）的司机数、在线时长和TPH（订单量/在线时长）数据。分别提取司机数大于20，司机总在线时长大于2小时，订单量大于1的城市名称数据。现有四张表，分别是“司机数据”表，“订单数据”表，“在线时

2020-08-01 17:12:20 840

原创数据分析---电商RFM模型

数据分析的流程：1、明确分析目的和思路/提出假设2、数据收集3、数据处理/整理4、数据分析/验证假设5、数据展现/可视化图表6、报告撰写1.分析背景2019年，平台经过一年的发展，销售体量、客户群体、平台规模达到新的高度。现对平台2019年销售数据进行分析。分析数据：(10万+)2019-01-01-00：00:00 — 2019-12-31-23:59:592.分析思路2.1.整体运营2.2.用户行为2.3.销售2.4.渠道流量3.分析过程3.1.整体运

2020-08-01 16:55:30 1704 1

qq_43432717的博客

原创将txt文件写进excel中、写进sqlserver中

原创更新数据库中的部分字段

原创 Sql的增删改查

原创 Sql注入

原创 ajax的回调

原创 Table案例-组件、插槽、自定义指令

原创 vue路由专题-用户管理案例

原创备忘录案例

原创实战个人博客

原创 vite组件传值（父传子，子传父）

原创实战用户管理【入门】

原创 K-Means算法详解

原创新闻分类（朴素贝叶斯）

原创时间序列（啤酒销量预测）