2 Cold丶kl

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 7w+

大数据杂谈 - TextFile&ORC Block Split

本篇目的:对比TextFile 与ORC 格式在不同引擎下Block是否可切分TextFile普通行式存储表,没有花里胡哨东西,压缩算法一般搭配LZO一般LZO压缩后的文件无法拆分,需建立索引,拆分block,提高并行度索引建立方式:hadoop jar $HADOOP_LZO com.hadoop.compression.lzo.DistributedLzoIndexer hdfs_lzo_path建完索引后,LZO文件就可拆分,MR读取LZO数据时,在Map端会按索引对LZO文件进行分拆,具

2020-06-18 15:10:58

Spark-SQL 查看执行计划API

举个例子:scala>spark.sql(“select count(1) as nums from gdm.gdm_m03_glb_item_sku_da where dt = ‘2020-06-08’”).explain(true)在Spark.sql()方法后加 explain,入参为true返回类型为Unit// 解析逻辑执行计划== Parsed Logical Plan =='Project ['count(1) AS nums#464]± 'Filter ('dt = 20

2020-06-09 20:42:04

Python刷博客简易版

刷博客浏览量import timeimport requestsimport datetimeimport copyheaders = {“authority”: “blog.csdn.net”,“method”: “GET”,“path”: “/weixin_42792621/article/details/{id}”,“scheme”: “https”,“accept”: ...

2020-04-22 11:23:16

Spark33个算子梳理-Scala版

Spark33个算子梳理-Scala版什么是算子?spark 中对RDD进行操作的一些方法,这些方法作用于RDD的每一个partition。算子如何划分从大的方向来说,spark算子可以分两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转...

2020-02-23 21:18:10

WITH在数据开发中的奇技淫巧

絮絮叨叨笔者常见的数据开发中,发现如果脚本需要产生中间表,或者说想要提升脚本性能,把这段中间表逻辑变为子查询,在人肉堆SQL生涯中,不外乎两种办法:CREATE TABLE tmp.tmpxxxxx AS优点:可以落物理表,验数时可追溯源头;缺点:多一次落盘操作,讲白了说多IO,造成大量磁盘和网络开销CACHE TABLE tmpxxxxx AS优点:中间数据广播到每个节点,加...

2020-02-22 21:30:52

kazoo扫盲指南,简述ZK ACL权限控制及使用方式

kazoo扫盲指南kazoo是什么?官方文档基本用法会话状态zookeeper的增删改查读取数据更新数据删除节点监听器kazoo事务Zookeeper权限控制之ACL创建ACL权限认证:查看节点ACL权限:访问有权限的Zookeeper节点:kazoo是什么?Python版Zookeeper客户端工具,可以利用Python能够轻松、便捷的使用zookeeper,与之产生交互官方文档http...

2020-01-21 14:47:16

浅谈一个新人的大数据之路-HiveQL&Spark-SQL中谓词下推

CCCCCold丶大数据之禅什么是谓词下推?为什么要进行谓词下推?谓词下推优化方式谓词下推在Join中应用INNER JOIN什么是谓词下推?在传统关系型数据库中,优化关系 SQL 查询的一项基本技术是,将外层查询块的 WHERE 子句中的谓词移入所包含的较低层查询块(例如视图),从而能够提早进行数据过滤以及有可能更好地利用索引。这在分区数据库环境中甚至更为重要,其原因在于,提早进行过滤有可...

2019-10-20 15:23:55

浅谈一个新人的大数据之路-ORC篇

CCCCCold丶大数据之禅ORCFile原理TEXTFile普通列式存储RCFileORCFileORCFile原理ORCFile是什么?ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式。ORCFile作用用于降低Hadoop数据存储空间和加速Hive查询速度。ORCFile演变史TEXTFile -> 行...

2019-09-08 20:16:07

浅谈一个新人的大数据之路-HDFS

CCCCCold丶大数据之禅-HDFS篇HDFS简介HDFS设计理念HDFS-shell 常用操作:HDFS简介HDFS:分布式文件存储系统(Hadoop Distributed Filesystem),管理网络中跨多台计算机存储文件的系统。HDFS设计理念硬件错误:硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系...

2019-09-01 19:55:29

浅谈一个新人的大数据之路

CCCCCold丶大数据之禅第一章,大数据之路浅谈数仓&数据集市&数据湖数据模型从模型ETL频率一般将模型划分为:从模型存储技术上讲,模型划分为:从数据分层角度讲,模型又会被划分为:从模型创建类型上讲,模型又会被划分为:从模型存储类型上讲,模型又会被划分为:从模型压缩算法上讲,又有如下划分:队列:计算引擎:第一章,大数据之路浅谈数仓&数据集市&数据湖数据仓库:...

2019-08-04 22:30:07

泰坦尼克号-数据挖掘 初次探索

接触数据挖掘内容较少,加之本次写作业较为匆忙,只能借鉴大佬思路进行相应的探索,后续会合理安排工作与学习时间,挤出时间认真完成作业!!本次参考文献来源于@https://segmentfault.com/a/1190000017266921数据探索之前断断续续做过中文文本分类项目,通过朴素贝叶斯原理,使用多项式算法建立模型对商品进行打标签,才算是首次接触数据挖掘,通过中文文本分类,第一次了解...

2019-01-05 21:05:38

短文本分类---小白从0到0.3的辛酸历程(上)

短文本分类—纪录小白从0到0.3的辛酸历程高能预警,读完本文大概需要5分钟先谈需求:     老大说,目前需要将友商的数据按我们规则分出最细分类,我们好进一步分析对标。     一条商品数据10多个字段,有用的字段就是友商商品【各级分类】,【商品名称】,【品牌名称】,【店铺名称】、【公司名称】,在和雷雷姐及强哥头脑风暴后,决定仅用【商品名称】提取特征值进行分类,去TM的友商各级...

2018-08-16 23:56:50

基于Scrapy淘宝全站Spider设计与实现

                                                                  虽说职业是数据分析,但是未曾放弃爬虫,始终保持一颗追求技术,敬畏技术的心!本文基于Scrapy框架实现全站定向爬虫。在爬取淘宝时,没能找到淘宝全站相关的爬虫资料,只能借鉴零星的文章结合崔大的书,实现整体爬虫思路。因作者水平有限,本文仅提供爬取思路及源码,欢迎各位大...

2018-07-26 12:07:57
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。