自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 sql解决连续n月登陆问题

同一用户连续n月登陆问题 解题思路:1.使用窗口函数把数据按用户id分组,日期排序2.使用分析函数lead或者lag,把日期错一位或者多位,增加一列3.这时候想到把原日期列与错位后的日期列相减,差值记为date_resault,若相减后的差值date_resault等于某个参照值即可4.参照值的选取:使用rank函数给日期排名,若某用户连续两月均登录过,那么该用户所对应的登陆记录的日期排名差值一定为1该用户的登陆记录中,一定也有相邻的至少两条记录日期差值为1,所以给日期排名错位,增加一列,计..

2021-10-06 21:21:11 549

原创 MapReduce中的Shuffle过程

为什么要设计Shuffle?设计目的:为了实现对多台机器上的所有数据整体分组什么时候会用到Shuffle?负载均衡重新分区、全局排序、全局分组为什么会有排序?为了加快分组. Map端Shuffle Spill:内存,快排 Merge:磁盘,归并Reduce端Shuffle Merge:磁盘,归并,为了加快分组MapReduce中只有聚合或者排序的需求,才让程序走Shuffle过程...

2021-10-06 21:01:47 79

原创 HiveSql计算占比、同比、占环比

一、数据准备-- 创建表并插入数据CREATE TABLE `saleorder` ( `order_id` int , `order_time` date , `order_num` int) INSERT INTO `saleorder` VALUES (1, '2020-04-20', 420),(2, '2020-04-04', 800),(3, '2020-03-28', 500),(4, '2020-03-13', 100),(5, '2020-02-27'

2021-10-06 20:50:14 4839

原创 python gc

python的垃圾清除机制是以引用技术为主,标记--清除和分代回收为辅。1.引用计数是指python中的对象每被引用一次就计数加1,删除一次就计数减1,计数为0则被回收,但是循环引用导致计数不为1,则无法被回收,这也是引用计数最大的缺点,为了解决这个问题就引用了标记清除和隔代回收两种辅助机制。2.标记--清除基本思路是按需分配,等到没有空闲内存的时候从寄存器和程序栈上的引用出发,遍历对象为节点,引用为边界,构成有向图,把所有可以访问到的对象打上标记,然后清扫一遍内存空间,把所有没标记的对象释放。

2020-08-13 12:18:37 149

原创 函数range()

python函数range()可以很容易的生成一系列数字。例如for value in range(1,9):print(value)这两行代码只会打印出12345678并不会打印出9这个数字。函数range()让python从你指定的第一个数值开始数,并在到达你指定的最后一个数值之前停止,输出结果不包含最后一个值。使用range()函数...

2019-08-02 21:33:58 1414

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除