Cold丶kl-CSDN博客

原创 Spark33个算子梳理-Scala版

Spark33个算子梳理-Scala版什么是算子？spark 中对RDD进行操作的一些方法，这些方法作用于RDD的每一个partition。算子如何划分从大的方向来说，spark算子可以分两类：1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转...

2020-02-23 21:18:10 29527

原创 WITH在数据开发中的奇技淫巧

絮絮叨叨笔者常见的数据开发中，发现如果脚本需要产生中间表，或者说想要提升脚本性能，把这段中间表逻辑变为子查询，在人肉堆SQL生涯中，不外乎两种办法：CREATE TABLE tmp.tmpxxxxx AS优点：可以落物理表，验数时可追溯源头；缺点：多一次落盘操作，讲白了说多IO,造成大量磁盘和网络开销CACHE TABLE tmpxxxxx AS优点：中间数据广播到每个节点，加...

2020-02-22 21:30:52 26655

原创 kazoo扫盲指南,简述ZK ACL权限控制及使用方式

kazoo扫盲指南kazoo是什么？官方文档基本用法会话状态zookeeper的增删改查读取数据更新数据删除节点监听器kazoo事务Zookeeper权限控制之ACL创建ACL权限认证：查看节点ACL权限：访问有权限的Zookeeper节点：kazoo是什么？Python版Zookeeper客户端工具，可以利用Python能够轻松、便捷的使用zookeeper，与之产生交互官方文档http...

2020-01-21 14:47:16 27187 1

原创浅谈一个新人的大数据之路-HiveQL&Spark-SQL中谓词下推

CCCCCold丶大数据之禅什么是谓词下推？为什么要进行谓词下推？谓词下推优化方式谓词下推在Join中应用INNER JOIN什么是谓词下推？在传统关系型数据库中，优化关系 SQL 查询的一项基本技术是，将外层查询块的 WHERE 子句中的谓词移入所包含的较低层查询块（例如视图），从而能够提早进行数据过滤以及有可能更好地利用索引。这在分区数据库环境中甚至更为重要，其原因在于，提早进行过滤有可...

2019-10-22 21:08:18 26913

原创浅谈一个新人的大数据之路-ORC篇

CCCCCold丶大数据之禅ORCFile原理TEXTFile普通列式存储RCFileORCFileORCFile原理ORCFile是什么？ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式。ORCFile作用用于降低Hadoop数据存储空间和加速Hive查询速度。ORCFile演变史TEXTFile -> 行...

2019-09-09 18:09:07 27445

原创浅谈一个新人的大数据之路-HDFS

CCCCCold丶大数据之禅-HDFS篇HDFS简介HDFS设计理念HDFS-shell 常用操作：HDFS简介HDFS：分布式文件存储系统(Hadoop Distributed Filesystem),管理网络中跨多台计算机存储文件的系统。HDFS设计理念硬件错误：硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成，每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系...

2019-09-01 19:55:29 26322

原创浅谈一个新人的大数据之路

CCCCCold丶大数据之禅第一章，大数据之路浅谈数仓&数据集市&数据湖数据模型从模型ETL频率一般将模型划分为：从模型存储技术上讲，模型划分为：从数据分层角度讲，模型又会被划分为：从模型创建类型上讲，模型又会被划分为：从模型存储类型上讲，模型又会被划分为：从模型压缩算法上讲，又有如下划分：队列：计算引擎：第一章，大数据之路浅谈数仓&数据集市&数据湖数据仓库：...

2019-08-04 22:30:07 23190 1

原创短文本分类---小白从0到0.3的辛酸历程（上）

短文本分类—纪录小白从0到0.3的辛酸历程高能预警，读完本文大概需要5分钟先谈需求：老大说，目前需要将友商的数据按我们规则分出最细分类，我们好进一步分析对标。一条商品数据10多个字段，有用的字段就是友商商品【各级分类】，【商品名称】，【品牌名称】，【店铺名称】、【公司名称】,在和雷雷姐及强哥头脑风暴后，决定仅用【商品名称】提取特征值进行分类，去TM的友商各级...

2018-08-16 23:56:50 29115 7

原创头条数仓模型开发工程师 -面筋二

为什么叫BDM、为什么叫FDM一、模型分层缓冲数据模型 BDM （Buffer data model）源业务系统数据的快照，保存细节数据，按天分区，会保持最近一段时间数据。一般情况下，每个BDM表对应着源业务系统的一个表或者一个日志文件，数据结构与线上基本是对应的。绝大多数的数据快照是经过增量抽取策略抽过来了，对于不支持增量抽取策略或者数据量极少的表采用全量抽取的策略。基础数据模型 FDM （Foundation data model）基础数据模型，用来保存源业务系统数据的快照，数据永..

2021-01-19 14:49:23 543 2

原创头条数仓模型开发工程师 -面筋一

uid tmu1 10:00:05u1 10:00:10u1 10:00:15u1 10:20:00u2 10:31:00求:超过2min算不在线,统计停留时长解:分组排序,表自关联,交叉错位相减selecta.uid,a.start_tm,a.start_tms,a.rank,(end_tms-start_tm) as stop_tms,case (end_tms-start_tm) > 120000 then 1 else 0 as morn_2m

2021-01-19 14:47:12 387

原创数仓建模相关理论

一、关系模型ER建模从全企业的高度设计一个3NF模型的方法，用实体加关系描述的数据模型描述企业业务架构，在范式理论上符合3NF，其是站在企业角度进行面向主题的抽象，而不是针对某个具体业务流程的二、维度模型以维度建模为基础，根据业务域和数据域设计主题模型，构建一致性的维度和事实。一、星形模型星形模型偏多星型模型：是一种多维的数据关系，它由一个事实表（Fact Table）和一组维表（Dimension Table）组成。每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。事实表的

2021-01-19 14:28:14 512

原创京东数仓分层相关

一、模型分层缓冲数据模型 BDM源业务系统数据的快照，保存细节数据，按天分区，会保持最近一段时间数据。一般情况下，每个BDM表对应着源业务系统的一个表或者一个日志文件，数据结构与线上基本是对应的。绝大多数的数据快照是经过增量抽取策略抽过来了，对于不支持增量抽取策略或者数据量极少的表采用全量抽取的策略。基础数据模型 FDM基础数据模型，用来保存源业务系统数据的快照，数据永久保存。对于有更新操作的数据来说，采用拉链的方式优化存储。对于没有更新操作的数据来说，采用流水方式存储。通用数据模型 GDM根

2021-01-19 14:27:30 1071

原创 Kafka面筋 -转载

1.Kafka 的设计时什么样的呢？Kafka 将消息以 topic 为单位进行归纳将向 Kafka topic 发布消息的程序成为 producers.将预订 topics 并消费消息的程序成为 consumer.Kafka 以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个 broker.producers 通过网络将消息发送到 Kafka 集群，集群向消费者提供消息2.数据传输的事物定义有哪三种？数据传输的事务定义通常有以下三种级别：（1）最多一次: 消息不会被重复发送，最多被传

2021-01-19 14:12:51 76

原创大数据开发面试之UDF/UDAF/UDTF其变种函数总结

Hive的自定义函数，分为三种：UDF、UDAF、UDTFUDF：User Defined Functions，自定义函数，用来处理，输入一行，输出一行的操作，类似MapReduce中Map操作UDAF：User Defined Aggregation Functions，自定义聚合函数，用来处理输入多行，输出一行的操作，类似MapReduce中Reduce操作UDTF：User Defined Table Generating Functions，自定义表产生函数，用来处理输入一行，输出多行的操作

2021-01-19 14:09:08 497

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

CCCCold的博客

原创 Spark33个算子梳理-Scala版

原创 WITH在数据开发中的奇技淫巧

原创 kazoo扫盲指南,简述ZK ACL权限控制及使用方式

原创浅谈一个新人的大数据之路-HiveQL&Spark-SQL中谓词下推

原创浅谈一个新人的大数据之路-ORC篇

原创浅谈一个新人的大数据之路-HDFS

原创浅谈一个新人的大数据之路

原创短文本分类---小白从0到0.3的辛酸历程（上）

原创头条数仓模型开发工程师 -面筋二

原创头条数仓模型开发工程师 -面筋一

原创数仓建模相关理论

原创京东数仓分层相关

原创 Kafka面筋 -转载

原创大数据开发面试之UDF/UDAF/UDTF其变种函数总结

原创大数据开发面筋之慢SQL及数据倾斜问题及解决方案

原创高途课堂 -大数据开发工程师面筋

原创大数据杂谈 - TextFile&ORC Block Split

原创 Spark-SQL 查看执行计划API

原创 Python刷博客简易版

原创泰坦尼克号-数据挖掘初次探索

原创基于Scrapy淘宝全站Spider设计与实现

百度文库免下载券软件-可转换pdf，word等格式

斯坦福大学机器学习资源

GUI基于Python语言爬虫程序（抓取农产品网站，抓取结果存入excel，并有折线图等简易数据分析功能）

基于Python语言实现GUI爬虫程序（可定向抓取淘宝、每日优鲜、比价网、天猫超市数据）

空空如也