铁血阿张-CSDN博客

原创 sql常见面试题（未完待续）

1.长表转宽表原表结构为：SELECT year, max(case when month=1 then amount else null end) m1, max(case when month=2 then amount else null end) m2, max(case when month=3 then amount else null end) m3, max(case when month=4 then amount else null end)

2020-06-26 11:49:30 561 7

原创中国银联“银星计划”——大数据类实习生面试

一篇凉经：本以为会是数据分析类的实习，结果是大数据和产品这种问题很多，主要是两种问题：1.专业类、2.综合类问题，以下问题供大家参考，综合类的感觉我回答的都很水，就不献丑了T_T1.简要介绍Hadoop我是按照这个逻辑进行讲述的，感觉说的能有条理一些2.是否了解spark，简要介绍一下这个包含在第一个问题里面了，就不详细写了3.领导有个你能胜任的工作，但是没有人接手，你如何处理（都暗示到这种份上了我还能说些什么）我觉得我肯定会毛遂自荐，balabala4.用户反馈如何获取和处理5.用户需

2020-06-30 11:39:58 5281

原创 sql（数据分析群）

1.长表变宽表，使用case-when即可select username, max(case when sub = 'a' then per else null end) '英语', max(case when sub = 'b' then per else null end) '数学', max(case when sub = 'd' then per else null end) '化学', max(case when sub = 'e' then per el.

2020-06-17 12:10:43 260

原创 pandas-1

第1章 pandas基础import pandas as pdimport numpy as np一、文件读取与写入a = pd.read_table('123.txt',sep=' ',header=None)a.columns = ('col1','col2','col3')a col1 col2 col3 0 a 111 sdsa32

2020-06-16 20:12:22 234

原创 pandas可视化

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.style.use('ggplot')plt.rcParams['font.family'] = 'SimHei' # 解决不能输出中文的问题。不区分大小写，即SimHei’效果等价于‘simhei’，中括号可以不要plt.rcParams['figure.autolayout'] = True # 解决

2020-06-04 16:51:16 226

原创拼多多和猿辅导SQL题

以下SQL为本人手写，有些题目描述简单可能存在歧义，欢迎探讨交流一.case专题-商品订单数据数据表:订单表orders,大概字段有（order_id’订单号,'user_id‘用户编号’, order_pay‘订单金额’ ,order_time‘下单时间’,‘商品一级类目commodity_level_1’,‘商品二级类目commodity_level_2’）1. 求最近7天内每一个一级类目下成交总额排名前3的二级类目:select commodity_level_1,commodit.

2020-06-03 16:03:33 3331 10

原创用户购买CD消费行为分析

用户购买CD消费行为分析1.进行用户消费趋势的分析（按月）1.1每月的消费总金额1.2每月的消费次数1.3每月的产品购买量1.4每月的消费人数2.用户个体消费分析2.1用户消费金额、消费次数、产品购买量的描述性统计2.2用户消费金额和产品购买量的散点图2.3用户产品购买量的分布图2.4用户累计消费金额占比（百分之多少的用户占了百分之多少的消费额）3.用户行为分析3.1用户第一次消费3.2用户最后一次消费3.3新老客户消费比3.3.1多少客户仅消费了一次3.3.2每月新客占比3.4用户分层3.4.1RFM用户

2020-06-03 13:16:36 548

原创 SQL50题总结

SQL50题学生表Student课程表Course教师表Teacher成绩表Score练习题目1、查询课程编号为“01”的课程比“02”的课程成绩高的所有学生的学号（重点）2、查询平均成绩大于60分的学生的学号和平均成绩（简单，第二道重点）2.1、所有成绩小于60分的学生信息2.2、查询平均成绩小于60分的学生的学号和平均成绩，考虑没参加考试的情况3、查询所有学生的学号、姓名、选课数、总成绩（不重要）4、查询姓“猴”的老师的个数（不重要）5、查询没学过“张三”老师课的学生的学号、姓名（重点）6、查询学过“张

2020-05-15 15:04:19 804

原创携程数据分析笔试第一题

complaints_complaint表：bu_product表：要求：查出每个事业部每天的投诉人数select c.UID,c.PID,c.ORDERID,date(c.DATE) date,b.BUfrom bu_product bleft join Complaints_Complaint con b.PID=c.PID;错误点：这里不应该写成c.PID，因为c表中P...

2020-05-07 18:54:00 903

原创 SQL50题（7、10、11、12、17、18）

学生表： Student(s_id,s_name,s_birth,s_sex) – –学生编号,学生姓名, 出生年月,学生性别课程表：Course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号教师表： Teacher(t_id,t_name) – –教师编号,教师姓名成绩表： Score(s_id,c_id,s_s_score) – –学生编号,课程编号,分数...

2020-05-06 19:17:38 375

原创 MySQL七周数据分析

1.统计不同月份的下单人数SELECT date_format(paidTime,'%Y-%m'),count(distinct userID) FROM `orderinfo`where ispaid = '已支付'group by date_format(paidTime,'%Y-%m');2.统计用户三月份的回购率和复购率select count(*),count(if(c &...

2020-05-04 20:32:59 290

原创 MySQL的having和select顺序问题

我觉得可以看做select在having进行分组过滤前已经解析过，从而having可以使用select中的别名，下面这个例子可以明显看出。要求：从电子商务行业中，取出每个城市的数据相关职位数量超过50的城市和职位数量写法1：select city,count(*) from dataanalystwhere industryField like '%电子商务%'group by c...

2020-05-02 23:27:20 8824 11

原创 python中append和extend

append VS extendlist1.append(list2) 向列表1中添加一个列表对象list1.extend(list2) 把列表2的内容添加到列表1中

2020-04-30 16:13:30 228

原创 MySQL之窗口函数

窗口函数1 窗口函数定义1.1 语法结构1.2 特点2 窗口函数使用2.1 topN相关2.2 组内比较相关2.3 窗口函数的移动平均1 窗口函数定义窗口函数是OLAP(online analytical processing)，可以对数据库内的数据实时分析处理。换句话来说，就是group by的完整显示版。1.1 语法结构<窗口函数> over（partition by ...

2020-04-28 18:12:16 1088

原创淘宝用户行为分析

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlineimport warnings warnings.filterwarnings('ignore')df = pd.read_csv(r'C:\Users\zcy\Desk...

2020-04-19 22:47:16 676

原创 pd.melt和FacetGrid

1 pd.melt转换数据集，将宽数据集变成长数据集pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)参数解释：frame:要处理的数据集id_vars:不需要被转换的列名value_vars:需要转换的列名，如果剩下的列全部都要转换...

2020-04-19 12:41:21 765

原创 groupby()以及绘图

1.groupby作用groupby函数主要是用来进行数据的分组以及分组后的运算该函数的语法顺序和逻辑执行顺序（我习惯是下面这样的书写顺序）：df.groupby([Column1,Column2])[Condition1].agg({Column3: "mean",Column4:"sum"}).reset_index()2.举例写法1：a = df.groupby(['dail...

2020-04-17 18:05:56 14741 2

原创第七周：逻辑回归（Logistic Regression）

逻辑回归（Logistic Regression）1 概述2 损失函数3 梯度下降4 决策边界和多项式5 正则化1 概述逻辑回归，是一种名为“回归”的线性分类器，其本质是由线性回归变化而来的，一种广泛使用于分类问题中的广义回归算法，叫着“回归”的名背地里却做着“分类”的事，完美诠释“曲线救国”。线性回归的任务，就是构造一个预测函数来映射输入的特征矩阵x和标签值y的线性关系，而构造预测函数的核...

2020-04-11 16:16:51 246

原创第六周：概念补充

概念补充1 偏差和方差1.1 偏差和方差的定义1.2 模型泛化误差1.3 偏差与方差的权衡2 模型正则化2.1 L1正则化2.2 L2正则化1 偏差和方差1.1 偏差和方差的定义一个集成模型(f)在未知数据集(D)上的泛化误差E(f;D)，由方差(var)，偏差(bais)和噪声(ε)共同决定。下面的图像，每个点就是集成算法中的一个基评估器产生的预测值。红色虚线代表着这些预测值的均值，...

2020-04-05 20:36:20 147

原创第五周：梯度下降法

1 梯度下降法1.1 场景假设一个人被困在山上，需要从山顶到山谷。但此时雾很大，看不清下山的路径。他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。具体来说就是，以他当前的所处的位置为基准，随机选择一个方向，然后每次迈步都选择最陡的方向。然后每走一段距离，都反复采用同一个方法：如果发现脚下的路是下坡，就顺着最陡的方向走一步，如果发现脚下的路是上坡，就...

2020-03-29 16:33:22 192

原创第四周：线性回归

线性回归1 多元线性回归1.1 基本原理1.2 linear_model.LinearRegression2 多重共线性：岭回归与Lasso2.1 岭回归2.2 linear_model.Ridge2.3 Lasso2.4 linear_model.Lasso3 非线性问题：多项式回归1 多元线性回归1.1 基本原理多元线性回归指的就是一个样本有多个特征的线性回归问题。对于一个有个特征的样本...

2020-03-22 21:34:31 150

原创 MySQL实现累加、累乘、累减、累除

CREATE TABLE TEST( PARENT_ID INTEGER, PART_ID INTEGER, QUALITY INTEGER);INSERT INTO TEST VALUES(1,1,2);INSERT INTO TEST VALUES(1,2,3);INSERT INTO TEST VALUES(1,3,2);INSERT INTO TEST V...

2020-03-18 21:05:19 4052 2

原创第三周：数据预处理

数据预处理1.无量纲化1.1 最值归一化（MinMaxScaler）1.2 均值方差归一化（StandardScaler）2.缺失值处理2.1 impute.SimpleImputer3.处理分类型特征3.1 标签编码（preprocessing.LabelEncoder）3.2 特征编（preprocessing.OrdinalEncoder）3.3 哑变量（preprocessing.OneH...

2020-03-12 12:13:49 232

原创 MySQL表连接 on and 和 on where 的区别

在使用left join时，on and和on where条件的区别如下：on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。注：左连接中如果and语句是对左表进行过滤的，那么不管真假都不起任何作用。如果是对右表过滤的，那么左表所有记录都返回，右表筛选以后再与左表连接返回where条件是在临时表生成好后，再对临时表进行过滤的条件。这时已经没有left...

2020-03-05 16:37:16 480 1

原创第二周：如何评价模型好坏

1. 数据拆分数据拆分，即划分训练数据集&测试数据集现在也多直接调用sklearn中的库from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10)"注意X_...

2020-03-05 13:15:24 455

原创牛客网SQL-查找当前薪水排名第二多的员工，不准使用order by

题目描述查找当前薪水(to_date=‘9999-01-01’)排名第二多的员工编号emp_no、薪水salary、last_name以及first_name，不准使用order byCREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14)...

2020-03-04 21:08:20 449

原创第一周：KNN算法求解约会网站问题

1.KNN算法简介K近邻法(k-nearest neighbors, KNN)是一种很基本的机器学习方法了，在我们平常的生活中也会不自主的应用。比如，我们判断一个人的人品，只需要观察他来往最密切的几个人的人品好坏就可以得出了，这里就运用了KNN的思想。KNN方法既可以做分类，也可以做回归。2.KNN流程框图在建立训练集时，就要确定训练数据及其对应的类别标签；然后把待分类的测试数据与训练集数据...

2020-03-01 18:04:53 279

原创区分axis=0和axis=1

官方帮助的解释：轴用来为超过一维数组定义的属性，二维数据拥有两个轴：第0轴沿着行的方向垂直向下，第1轴沿着列的方向水平延申。根据官方的说法，0表示纵轴，方向从上到下；1表示横轴，方向从左到右。当axis=0时，数组的变化是纵向的，体现出行的增加或减少。反之，当axis=1时，数组的变化是横向的，体现出列的增加或者减少。实例1：a = pd.DataFrame(np.arange(24)....

2020-02-23 18:06:24 547

铁血阿张