10 breeze_lsw

尚未进行身份认证

打杂工程师

等级
TA的排名 6k+

Apache Ranger KMS 部署文档

很久没写过部署文档了,不过 Apache Ranger KMS 的手动部署较为繁琐,网上的相关资料基本都是散装的,因此写了一篇进行总结。文章目录背景安装部署安装 ranger-admin安装 ranger-kmsHDFS 配置Kerberos 配置HA 配置KMS LUNA HSMFAQ后记参考背景需要一个高可用的 KMS 服务用于数据静态加密(HDFS 透明加密 / ORC格式列加密)...

2020-01-10 20:51:49

Delta Presto Integration & Manifests 机制

Delta Lake 在 0.5 之前只支持通过 Spark 读取数据,在新版本中增加了其他处理引擎通过 manifest 文件访问 Delta Lake 的能力。下文以Presto 为例说明如何通过 manifest 文件访问数据,manifest 文件的生成及其一些限制。

2019-12-17 11:46:18

Delta Lake 平台化实践(离线篇)

Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, Delta Lake 初探。要将 Delta Lake 与 spark2.4 sql 以及大数据平台打通还是有一些工作需要去做,下文是在该过程中的一些实践及思考。目录SQL 支持DMLQueryInsert平台化工作浏览 delta 数据元数据兼容碎...

2019-12-15 21:18:26

Spark 小文件合并优化实践

对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。

2019-10-24 10:59:01

Apache Druid 平台化 - 数据接入篇

文章目录数据接入背景方案设计druid 数据接入的一些经验一. hive 数据导入自动填充分区二. zstd 编码支持三. keberos四. druid-0.15.0 进程自动退出五. druid 对数据进行 ETL数据接入背景使用界面化和 sql 的方式将数据导入到 druid,提供数据给后续告警,监控,查询等服务使用。方案设计数据源1:内部消息服务 dclog ,本质上是一个 ka...

2019-08-20 17:08:09

Spark 数据读取冷启动优化分析

Spark 读取数据冷启动 (在一个 Session 中第一次读取该数据) 时,会从文件系统中获取文件的一些元数据信息用于优化,如果一个目录下的文件过多,就会比较耗时(可能达到数十分钟),该逻辑在 InMemoryFieIndex 中实现。下文针对该过程进行分析。文章目录InMemoryFileIndexbefore spark 2.1after spark 2.1优化 HDFS 获取 F...

2019-05-27 18:35:53

Delta 初探

Delta Lake 初探Delta Lake在说 Delta Lake 之前,不得不说下近几年火热的 Data Lake ,Data Lake 的主要思想是将企业中的所有数据进行统一管理。例如基于 Hadoop 的 Data Lake 方案可以非常低成本的存储所有类型的数据,但是显而易见的,它只支持批量插入,用户读取时无法获取当前更新的数据,多用户写还可能会发生异常,数据并不是非常可靠。...

2019-04-29 01:01:00

Druid 消费一个 kafka topic 发送到不同数据源

文章目录背景解决办法一. 过滤标识在消息体中二. 过滤标识在 header 中源码修改逻辑背景数据采集时,为了避免在 kafka 中创建大量的 Topic ,采集时会将小的数据源写入一个共享 Topic 中,以某个字段作为标识。这里有两种方式:直接将标识写入消息体中将标识写入 record header 中 (kafka 0.11版本后支持)Druid 使用 druid-kafka-...

2019-04-11 00:32:29

Spark Sql 复杂类型高阶函数

文章目录背景1. 只使用 sql 实现2. 使用 udf 的方式3. 使用高阶函数的方式使用Array 高阶函数1. transform2. filter3. exists4. aggregate5. zip_with复杂类型内置函数总结参考spark sql 2.4 新增了高阶函数功能,允许在数组类型中像 scala/python 一样使用高阶函数背景复杂类型的数据和真实数据模型相像,...

2019-04-03 18:50:06

使用 spark sql extensions 实现 skew join

文章目录背景实现方式原理用法语法编译&配置Test局限性参考背景使用 Join 时,如果出现数据倾斜就会导致OOM或者单task长时间执行的现象,如果是大小表关联的场景,还可以使用 MAPJOIN 的方式来解决,如果遇到两张大表目前还没有比较好的解决方案。实现方式使用spark sql extensions 的扩展功能,增加自定义 hint 在 sql parser 层对相关逻辑进...

2019-03-12 01:15:57

AMD & Intel 机器 Spark 性能测试2

文章目录硬件配置测试角色分配线上sql任务模拟使用 sysbench 对内存读写进行测试结果硬件配置接上篇文章 AMD & Intel 机器 Spark 性能测试共6台机器,每个对照组各三台。intel 5118 内存为6通道,双路为12通道amd 7401p 为8通道,如果用16*16G,则内存频率会下降到2133,带宽进一步降低,默认使用 Channel Interleav...

2019-01-24 15:52:37

Alluxio 性能测试

文章目录背景为什么要引入 Alluxio读取数据的效率取决于哪些因素计算&存储分离混合部署分离部署测试环境测试理论性能提升ScanPresto测试结果TPC-DS测试结果总结背景HDFS数据读取延时不稳定,波动较大为什么要引入 Alluxio通过监控发现计算节点的物理内存有富余,不需要增加额外机器成本机器网卡较为空闲,瓶颈主要存在于磁盘IO热数据读取加速存储计算分离,提高数...

2019-01-03 13:28:32

spark-sql-perf

文章目录简介测试tpcds-kitspark-sql-perf生成数据执行查询查询结果TPC-DS简介spark-sql-perf 是一个 spark sql 性能测试框架,可以用来进行一些基准测试。测试环境:spark 2.4.0spark-sql-perf_2.11-0.5.0-SNAPSHOT测试tpcds-kit通过 tpcds-kit 生成 TPC-DS 数据。su...

2019-01-03 01:19:15

Mac pySpark IDE 环境配置

本地配置 pyspark 开发环境开发工具Javaspark-2.3.0-bin-2.6.0-cdh5.7.0PyCharm配置 PyCharmConfigurationRun -> Edit Configurations -> Configuration -> Environm

2018-12-13 22:59:21

Kerberos ticket 生命周期

基本概念Kerberos ticket 有两种生命周期,ticket timelife (票据生命周期) 和 renewable lifetime (可再生周期)。当 ticket lifetime 结束时,该 ticket 将不再可用。如果 renewable lifetime > ticket lifetime ,那么在票据生命周期内都可以其进行续期,直到达到可再生周期的上限...

2018-11-27 14:12:01

使用 jvm-profiler 分析 spark 内存使用

文章目录背景jvm-profiler分析总结背景在生产环境中,为了提高任务提交的响应速度,我们研发了类似 Spark Jobserver 的服务,各种类型的 spark 任务复用已经启动的 Spark Application,避免了 sparkContext 初始化冷启动的过程。但是这些服务的内存是固定的,因此开放了用户自定义 Executor 的权限,不过也带来了很多问题,最典型的就是内存...

2018-10-27 15:53:57

AMD & Intel 机器 Spark 性能测试

文章目录配置硬件配置软件配置Benchmark总结配置硬件配置INTEL 机型与 AMD 机型除了CPU其余配置相同。256G DRAM8TB 7.2k HDD * 11960G SSD * 12 * 10GbpsIntel: Intel Xeon Gold 5118 * 2AMD: AMD EPYC 7401P软件配置Spark 2.3.1CentOS 7.4CD...

2018-10-10 09:58:27

Spark Optane IMDT 测试

文章目录测试目的测试配置测试方法BenchmarkcacheWordcountTerasortKMeans结论容量说明成本相关适合的场景不适合的场景参考测试目的如果不了解什么是Optane,可以先了解一下:Optane介绍使用 Intel Memory Drive Technology (IMDT) 将 Intel Optane SSD 模拟成内存,进行性能测试。在运行时,部分 DRAM...

2018-09-26 11:35:57

使用 Hibench 对 Spark 进行基准测试

文章目录概述安装配置Test配置运行查看报告概述项目地址: Intel-hadoop/HiBenchHibench 是 Intel 开源的大数据基准测试工具,可以评估不同大数据框架的速度,吞吐量和系统资源利用率。包括 Sort, WordCount, TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight ...

2018-09-20 14:36:47

使用 Prometheus 和 Grafana 监控 Spark 应用

背景每个开发者都想了解自己任务运行时的状态,便于调优及排错,Spark 提供的 webui 已经提供了很多信息,用户可以从上面了解到任务的 shuffle,任务运行等信息,但是运行时 Executor JVM 的状态对用户来说是个黑盒,在应用内存不足报错时,初级用户可能不了解程序究竟是 Driver 还是 Executor 内存不足,从而也无法正确的去调整参数。Spark 的度量系统提供了...

2018-09-13 01:17:18

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。