自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (4)
  • 收藏
  • 关注

原创 Spark33个算子梳理-Scala版

Spark33个算子梳理-Scala版什么是算子?spark 中对RDD进行操作的一些方法,这些方法作用于RDD的每一个partition。算子如何划分从大的方向来说,spark算子可以分两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转...

2020-02-23 21:18:10 29527

原创 WITH在数据开发中的奇技淫巧

絮絮叨叨笔者常见的数据开发中,发现如果脚本需要产生中间表,或者说想要提升脚本性能,把这段中间表逻辑变为子查询,在人肉堆SQL生涯中,不外乎两种办法:CREATE TABLE tmp.tmpxxxxx AS优点:可以落物理表,验数时可追溯源头;缺点:多一次落盘操作,讲白了说多IO,造成大量磁盘和网络开销CACHE TABLE tmpxxxxx AS优点:中间数据广播到每个节点,加...

2020-02-22 21:30:52 26655

原创 kazoo扫盲指南,简述ZK ACL权限控制及使用方式

kazoo扫盲指南kazoo是什么?官方文档基本用法会话状态zookeeper的增删改查读取数据更新数据删除节点监听器kazoo事务Zookeeper权限控制之ACL创建ACL权限认证:查看节点ACL权限:访问有权限的Zookeeper节点:kazoo是什么?Python版Zookeeper客户端工具,可以利用Python能够轻松、便捷的使用zookeeper,与之产生交互官方文档http...

2020-01-21 14:47:16 27187 1

原创 浅谈一个新人的大数据之路-HiveQL&Spark-SQL中谓词下推

CCCCCold丶大数据之禅什么是谓词下推?为什么要进行谓词下推?谓词下推优化方式谓词下推在Join中应用INNER JOIN什么是谓词下推?在传统关系型数据库中,优化关系 SQL 查询的一项基本技术是,将外层查询块的 WHERE 子句中的谓词移入所包含的较低层查询块(例如视图),从而能够提早进行数据过滤以及有可能更好地利用索引。这在分区数据库环境中甚至更为重要,其原因在于,提早进行过滤有可...

2019-10-22 21:08:18 26913

原创 浅谈一个新人的大数据之路-ORC篇

CCCCCold丶大数据之禅ORCFile原理TEXTFile普通列式存储RCFileORCFileORCFile原理ORCFile是什么?ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式。ORCFile作用用于降低Hadoop数据存储空间和加速Hive查询速度。ORCFile演变史TEXTFile -> 行...

2019-09-09 18:09:07 27445

原创 浅谈一个新人的大数据之路-HDFS

CCCCCold丶大数据之禅-HDFS篇HDFS简介HDFS设计理念HDFS-shell 常用操作:HDFS简介HDFS:分布式文件存储系统(Hadoop Distributed Filesystem),管理网络中跨多台计算机存储文件的系统。HDFS设计理念硬件错误:硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系...

2019-09-01 19:55:29 26322

原创 浅谈一个新人的大数据之路

CCCCCold丶大数据之禅第一章,大数据之路浅谈数仓&数据集市&数据湖数据模型从模型ETL频率一般将模型划分为:从模型存储技术上讲,模型划分为:从数据分层角度讲,模型又会被划分为:从模型创建类型上讲,模型又会被划分为:从模型存储类型上讲,模型又会被划分为:从模型压缩算法上讲,又有如下划分:队列:计算引擎:第一章,大数据之路浅谈数仓&数据集市&数据湖数据仓库:...

2019-08-04 22:30:07 23190 1

原创 短文本分类---小白从0到0.3的辛酸历程(上)

短文本分类—纪录小白从0到0.3的辛酸历程高能预警,读完本文大概需要5分钟先谈需求:     老大说,目前需要将友商的数据按我们规则分出最细分类,我们好进一步分析对标。     一条商品数据10多个字段,有用的字段就是友商商品【各级分类】,【商品名称】,【品牌名称】,【店铺名称】、【公司名称】,在和雷雷姐及强哥头脑风暴后,决定仅用【商品名称】提取特征值进行分类,去TM的友商各级...

2018-08-16 23:56:50 29115 7

原创 头条数仓模型开发工程师 -面筋二

为什么叫BDM、为什么叫FDM一、模型分层缓冲数据模型 BDM (Buffer data model)源业务系统数据的快照,保存细节数据,按天分区,会保持最近一段时间数据。一般情况下,每个BDM表对应着源业务系统的一个表或者一个日志文件,数据结构与线上基本是对应的。绝大多数的数据快照是经过增量抽取策略抽过来了,对于不支持增量抽取策略或者数据量极少的表采用全量抽取的策略。基础数据模型 FDM (Foundation data model)基础数据模型,用来保存源业务系统数据的快照,数据永..

2021-01-19 14:49:23 543 2

原创 头条数仓模型开发工程师 -面筋一

uid tmu1 10:00:05u1 10:00:10u1 10:00:15u1 10:20:00u2 10:31:00求:超过2min算不在线,统计停留时长解:分组排序,表自关联,交叉错位相减selecta.uid,a.start_tm,a.start_tms,a.rank,(end_tms-start_tm) as stop_tms,case (end_tms-start_tm) > 120000 then 1 else 0 as morn_2m

2021-01-19 14:47:12 387

原创 数仓建模相关理论

一、关系模型ER建模从全企业的高度设计一个3NF模型的方法,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF,其是站在企业角度进行面向主题的抽象,而不是针对某个具体业务流程的二、维度模型以维度建模为基础,根据业务域和数据域设计主题模型,构建一致性的维度和事实。一、星形模型 星形模型偏多星型模型:是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的

2021-01-19 14:28:14 512

原创 京东数仓分层相关

一、模型分层缓冲数据模型 BDM源业务系统数据的快照,保存细节数据,按天分区,会保持最近一段时间数据。一般情况下,每个BDM表对应着源业务系统的一个表或者一个日志文件,数据结构与线上基本是对应的。绝大多数的数据快照是经过增量抽取策略抽过来了,对于不支持增量抽取策略或者数据量极少的表采用全量抽取的策略。基础数据模型 FDM基础数据模型,用来保存源业务系统数据的快照,数据永久保存。对于有更新操作的数据来说,采用拉链的方式优化存储。对于没有更新操作的数据来说,采用流水方式存储。通用数据模型 GDM根

2021-01-19 14:27:30 1071

原创 Kafka面筋 -转载

1.Kafka 的设计时什么样的呢?Kafka 将消息以 topic 为单位进行归纳将向 Kafka topic 发布消息的程序成为 producers.将预订 topics 并消费消息的程序成为 consumer.Kafka 以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个 broker.producers 通过网络将消息发送到 Kafka 集群,集群向消费者提供消息2.数据传输的事物定义有哪三种?数据传输的事务定义通常有以下三种级别:(1)最多一次: 消息不会被重复发送,最多被传

2021-01-19 14:12:51 76

原创 大数据开发面试之UDF/UDAF/UDTF其变种函数总结

Hive的自定义函数,分为三种:UDF、UDAF、UDTFUDF:User Defined Functions,自定义函数,用来处理,输入一行,输出一行的操作,类似MapReduce中Map操作UDAF:User Defined Aggregation Functions,自定义聚合函数,用来处理输入多行,输出一行的操作,类似MapReduce中Reduce操作UDTF:User Defined Table Generating Functions,自定义表产生函数,用来处理输入一行,输出多行的操作

2021-01-19 14:09:08 497

原创 大数据开发面筋之 慢SQL及数据倾斜问题及解决方案

Spark - 慢SQL问题1. 错误的使用低性能函数2. 数据倾斜一、错误使用低性能函数案例1:在对某个表流量上报字段判断是否包含SKU, 使用正则(.*?)+加其他正则联合匹配,导致本来几分钟能跑完SQL跑几个小时发现:Spark 某个Stage 单task input 特别慢定位:查看input阶段 filter 操作都有哪些,最终找到正则问题本质:谓词下推解决方案:1. 在使用正则之前,提前对这个字段进行 is not null 进行过滤,减少大量无效数据,在进行正则【提升90

2021-01-19 14:07:44 246

原创 高途课堂 -大数据开发工程师 面筋

持续1小时,只有一面,个人总结:整体难度简单,问的都会,很轻松就可以解决,主要围绕项目或者说简历上写的去问自我介绍1.1 为什么离职?详细聊具体项目3, 数仓建模 理论数仓分层 好处及坏处一、模型分层缓冲数据模型 BDM源业务系统数据的快照,保存细节数据,按天分区,会保持最近一段时间数据。一般情况下,每个BDM表对应着源业务系统的一个表或者一个日志文件,数据结构与线上基本是对应的。绝大多数的数据快照是经过增量抽取策略抽过来了,对于不支持增量抽取策略或者数据量极少的表采用全量抽

2021-01-19 14:06:10 1176 1

原创 大数据杂谈 - TextFile&ORC Block Split

本篇目的:对比TextFile 与ORC 格式在不同引擎下Block是否可切分TextFile普通行式存储表,没有花里胡哨东西,压缩算法一般搭配LZO一般LZO压缩后的文件无法拆分,需建立索引,拆分block,提高并行度索引建立方式:hadoop jar $HADOOP_LZO com.hadoop.compression.lzo.DistributedLzoIndexer hdfs_lzo_path建完索引后,LZO文件就可拆分,MR读取LZO数据时,在Map端会按索引对LZO文件进行分拆,具

2020-06-18 15:10:58 325

原创 Spark-SQL 查看执行计划API

举个例子:scala>spark.sql(“select count(1) as nums from gdm.gdm_m03_glb_item_sku_da where dt = ‘2020-06-08’”).explain(true)在Spark.sql()方法后加 explain,入参为true返回类型为Unit// 解析逻辑执行计划== Parsed Logical Plan =='Project ['count(1) AS nums#464]± 'Filter ('dt = 20

2020-06-09 20:42:04 15535

原创 Python刷博客简易版

刷博客浏览量import timeimport requestsimport datetimeimport copyheaders = {“authority”: “blog.csdn.net”,“method”: “GET”,“path”: “/weixin_42792621/article/details/{id}”,“scheme”: “https”,“accept”: ...

2020-04-22 11:23:16 25619 2

原创 泰坦尼克号-数据挖掘 初次探索

接触数据挖掘内容较少,加之本次写作业较为匆忙,只能借鉴大佬思路进行相应的探索,后续会合理安排工作与学习时间,挤出时间认真完成作业!!本次参考文献来源于@https://segmentfault.com/a/1190000017266921数据探索之前断断续续做过中文文本分类项目,通过朴素贝叶斯原理,使用多项式算法建立模型对商品进行打标签,才算是首次接触数据挖掘,通过中文文本分类,第一次了解...

2019-01-05 21:05:38 28563

原创 基于Scrapy淘宝全站Spider设计与实现

                                                                  虽说职业是数据分析,但是未曾放弃爬虫,始终保持一颗追求技术,敬畏技术的心!本文基于Scrapy框架实现全站定向爬虫。在爬取淘宝时,没能找到淘宝全站相关的爬虫资料,只能借鉴零星的文章结合崔大的书,实现整体爬虫思路。因作者水平有限,本文仅提供爬取思路及源码,欢迎各位大...

2018-07-26 12:07:57 27471

百度文库免下载券软件-可转换pdf,word等格式

百度文库免下载券软件-可免费下载任意资源并转换pdf,word等格式

2019-03-19

斯坦福大学机器学习资源

斯坦福大学机器学习个人笔记及讲义完整版(原汁原味全英文版),内含数学基础及原版讲义已合并打包,需要的自取

2019-03-19

GUI基于Python语言爬虫程序(抓取农产品网站,抓取结果存入excel,并有折线图等简易数据分析功能)

利用Python语言抓取农产品网站(一亩田、新发地、惠农网等),定向自动下载所需数据为excel

2019-03-19

基于Python语言实现GUI爬虫程序(可定向抓取淘宝、每日优鲜、比价网、天猫超市数据)

利用Python实现GUI编程,通过构造不用类,实现定向抓取淘宝商品、每日优鲜商品、比价网商品、天猫超市商品来获取目标商品最新价格、优惠、销量信息。程序内附一定反爬技术。以上全部基于移动端抓取实现。 打包利用--pyinstaller

2019-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除