6 甄情

我要认证

暂无相关简介

等级
TA的排名 479

hera源码剖析:一次任务触发的执行流程

文章目录触发任务work端master端run方法在 hera 中,任务被触发的方式有多种,比如分析师在前端手动执行触发、定时任务触发、依赖任务触发、重跑任务触发、信号丢失的触发等等。但是不管是哪种触发方式最后的入口都是在 Master#run 方法(开发中心任务触发接口在 Master#debug )。这里就讲一下手动执行的任务触发流程触发任务在最新版本中,任务手动触发类型分为手动执行、手动恢复、超级恢复三种,具体区别就不再赘述,可以通过 hera 操作文档查看,这里以手动恢复为例当我们点

2020-09-30 17:30:02

hera源码剖析:项目启动之分布式锁

文章目录前言获取当前机器ip分布式锁知识点总结master服务work服务work连接master前言本文章主要是为了让使用者能够更加了解 hera 的原理,并且能够在之基础上进行改进所进行。hera 是一款分布式任务调度与开发平台,具体不再描述,开源地址:https://github.com/scxwhite/hera获取当前机器ip在 hera 中,有一些静态代码块,这里只说一个很重要的部分,WorkContext 类中有这样一部分代码 static { host

2020-09-29 17:41:53

深入剖析 Delta Lake: schema validation

介绍Delta Lake 是 Spark 的开源存储层,可提供 ACID 事务和其他数据管理功能,用于机器学习和其他大数据工作,其通过写和快照隔离之间的乐观并发控制,在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 内置数据版本控制,方便读取历史数据以及版本回滚。Spark 的每一个 DataFrame 都包含一个 schema,用来定义数据的形态,例如数据类型、列信息以及元数据。在 Delta Lake 中,表的 s

2020-09-11 15:56:47

atlas 初体验

atlas是由apache开源的数据血缘解析平台 布拉布拉2020-08-27T06:11:21,978 ERROR [3cf21166-5613-4313-a607-d6b77d305de3 main] hook.HiveHook: HiveHook.run(): failed to proceoperation QUERYjava.lang.NoSuchMethodError: org.apache.hadoop.hive.metastore.api.Database.getCatalogName

2020-09-07 20:20:24

spark sql 数据倾斜案例实操

最近数仓同学有个离线任务跑不动了,问题是总是出现MetadataFetchFailedException 的异常,最后导致任务被 kill。于是就帮忙解决一下。问题排查查看了下该任务的历史执行记录(如下图),其实最近几天一直在失败,只是在重试后偶尔会成功一下查看具体的报错日志,是shuffle 数据丢失导致的任务失败,已经询问过该同事,已经对该 spark sql 任务进行了多次调参,executor-memory 很大了任务也是同样的错误。AY.hera.spark.conf=--master

2020-08-18 21:02:17

记一次 spark rdd 写数据到 hbase 报 NPE 的问题排查

文章目录前言问题排查前言最近我们的 EMR 集群要从 spark2.3.2 升级到 spark2.4.3 来解决 spark 小文件多的问题。但是在升级后发现之前 spark rdd 写 hbase 正常的任务报错了,花费一番功夫才解决,所以写篇文章记录下。首先看下报错内容CONSOLE# 20/06/09 14:26:48 ERROR Start: 同步数据异常CONSOLE# java.lang.NullPointerExceptionCONSOLE# at org.apache.

2020-06-10 15:35:32

使用Tomcat+腾讯云主机把你的项目发布到外网上

随便说说:想必一些学习做网页的同学和我有同样的想法,把自己的项目发布到外网上,让别人也能看到。既然有了想法,那就不能想想而已,要努力去实现它。 在发布我们的java web项目时,我们使用http://localhost:8080或者http://127.0.0.1:8080在本地主机上访问我们的项目。如果想将其发布到外网,让别人也能看到,要用到地址映射工具(因为我们的电脑都使用的局域网,大部分都

2017-03-06 20:09:27

记一次大数据跨区域流量排查及修复

最近公司在降成本,发现了欧州、美国区两个区每天存在 300$ 的跨区流量费用,经过运维同学定位后发现绝大部分流量在 emr 机器上。于是排查就开始了。前言首先附上我们的任务调度架构我们大数据计算使用的是 AWS 的 EMR(Elastic MapReduce) 集群,由于 AWS EMR 天然支持读写 S3,并且 S3 相比较硬盘尤其便宜,所以我们的离线数据都是存储在 S3。即:计算...

2020-04-22 20:05:51

关于dubbo 占位符无法解析问题

不知道大家有没有遇到过,你要开发一个新应用要使用 dubbo 、 apollo 等组件,在集成的过程中发现 dubbo 配置文件的占位符无法替换,wtf,配置明明和以前的项目一样,为啥就不行了。我前两天也遇到了这个问题,就一起来分析下。文章目录简单配置介绍问题复现排查apollo排查PropertySourcesPlaceholderConfigurer排查dubbo思考验证想法两个项目为什...

2020-03-28 17:16:29

presto sql输入表、输入字段、limit、join操作解析

前言一段时间没有写文章了,写下最近做的事情。目前我们这边有一个metabase 查询平台供运营、分析师、产品等人员使用,我们的查询都是使用 presto 引擎。并且我们的大数据组件都使用的是 emr 组件,并且涉及到中国、美西、美东、印度、欧洲、西欧等多个区域,表的权限管理就特别困难。所以就需要一个统一的权限管理来维护某些人拥有那些表的权限,避免隐私的数据泄漏。于是我们就需要一款sql解析工具...

2020-03-18 20:50:20

Flink实战之StreamingFileSink如何写数据到其它HA的Hadoop集群

前言我们公司使用的集群都是 EMR 集群,于是就分别创建了一个 flink 集群专门用户实时计算,一个 hadoop 集群专门用于 spark、hive 的离线计算。两个集群是完全隔离的。但是有一些实时数据的采集需求,需要把数据写入到我们做离线计算的集群,有人说我只需要在 StreamingFileSink 需要传入的hdfs 路径前加上离线集群的 ip 就好了,比如:hdfs://otherI...

2019-12-03 21:16:06

记一次JAVA使用ProcessBuilder执行Shell任务卡死问题分析

背景最近由于某些原因需要把一些原本 location 在 oss (阿里云云对象存储)上的 hive 数据迁移到cosn(腾讯云对象存储)。目前一直在增量进行同步,在迁移之前需要进行数据的对比。至于对比的方法计划有两种,一种是对比 oss 和 cosn 对应文件下的文件所占磁盘空间大小,即使用 hadoop fs -du -s -h 路径 命令,然后对比相应表 location 的数据大小是否一...

2019-11-20 21:03:04

赫拉(hera)分布式任务调度系统之操作文档

前言最近发现我总是站在我的角度来使用hera,每个功能都很清楚,但是对于使用者,他们是不清楚的,所以提供一篇hera操作文档。有问题可以在下面回复操作文档登录、注册在hera上登录和注册其实分为两个部分,即用户和用户组(如果使用的是hera2.4版本以下的没这个功能)用户用户的登录url地址为 /login,页面效果如图请注意看提示,用户名为你注册的邮箱的前缀。邮箱:任务...

2019-10-15 17:52:25

hdu2191

#include <stdio.h>#include <string.h>#include <algorithm>using namespace std;int main(){ int ncase,p[105],w[105],c[105],dp[105]; scanf("%d",&ncase); while(ncase--)...

2015-08-18 12:16:06

hive访问不在同一集群的hbase表数据

最近有个需求,有一些数据会实时写入到 hbase,但是又需要在 hive 中计算这些数据,最后把结果同步到 mysql。如果对于 hbase 与hive 在同一个集群,是很简单的操作,直接在 hive 中创建一个 hbase 的外部映射表就好了。但是我这边有些不一致,我们这边 hbase 和 hive 在两个不同的集群,需要了一些额外的操作开启白名单限制由于 hbase 集群与 hive ...

2019-09-25 16:10:52

syntax error near unexpected token `(‘ 异常解决

问题的发现今天执行一个shell脚本时发现报错了,报错内容如下:syntax error near unexpected token `('脚本内容排查了很多遍都没有找到原因,执行的方式为 sh xx.sh然后使用 source xx.sh 执行和 bash xx.sh执行都是 ok 的。知识的了解此时就需要了解 sh source bash 执行文件的区别。首先看两张图...

2019-06-11 19:51:27

使用java在aliyun/aws创建E-MapReduce (emr)集群

背景在上个公司,我的 hera 任务调度系统是运行在本地 cdh 机器上的,并没有使用 aws/aliyun 提供的 emr 服务。所以为了使 hera 能够兼容 emr,就需要使用 java 创建 emr 集群.功能点既然要创建集群,肯定也要有等待集群创建完成、销毁集群等操作。所以功能点大概有判断集群是否已经创建过创建集群等待集群创建完成集群销毁获得集群的登录脚本集...

2019-04-10 19:59:02

关于 mysql 的共享锁 排它锁以及锁的实现方式 行锁 间隙锁 Next-Key Lock

在 mysql 中有事务四大基本特性,隔离级别,锁类型,b+ 树等各种需要我们学习的知识,这里简单分享一下 mysql 中的锁。使用 mysql 数据库的都知道我们经常使用的数据库引擎有 MyISAM 和 InnoDB。MyISAM默认表类型,它是基于传统的 ISAM 类型,它是存储记录和文件的标准方法。不是事务安全的,而且不支持外键,如果执行大量的 select,insert时, M...

2019-02-13 16:20:59

赫拉(hera)分布式任务调度系统之版本发布功能页面

文章目录前言往期目录hera2.2-beta版本任务编辑时支持修改任务类型任务组添加管理员bug修复修复centos7机器组监控不显示的bug对于只有一台work时,降低任务的分发频率,尽量避免crash修复任务重试时hostGroupId为空新增一键开启/关闭上游所有任务的接口修复任务异常退出时,退出码为0的情况修复脚本改变后,任务在未全量生成版本时,而执行脚本内容还是老脚本的情况work断线时...

2019-01-26 15:30:41

Dubbo 源码分析之服务降级

前言关于服务降级,相信很多小伙伴都听说过或者操作过。比如最近我们在 12306 上抢票回家,明明看到剩余的有票,可就是买不到,这就是很明显的一个(读)服务降级例子。再比如双十一时我们付款时偶尔出现付款失败,重新支付,也是(限流)服务降级的一种,也有许多其它降级的例子,大家可以自行搜索。具体来说就是:当服务器压力剧增的情况下,根据当前业务情况及流量对一些服务和页面有策略的降级,以此释放服务器资源...

2019-01-24 19:49:55

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 脉脉勋章
    脉脉勋章
    绑定脉脉第三方账户获得
  • 签到王者
    签到王者
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证(专家版)
    技术圈认证(专家版)
    博客专家完成年度认证,即可获得
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。