huo_火力全开-CSDN博客

原创 Hive客户端执行insert 可以，beeline 执行报错：org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)

Hive beeline:insert 的时候报错：Error: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)

2020-08-07 15:28:11 2412

原创 SQL:用SQL统计学生成绩原来有这么多玩法

用SQL统计学生成绩原来有这么多玩法

2020-02-22 21:13:32 749

原创 Flink调优-分区器策略

控制数据流向在流进行转换操作后，Flink通过分区器来精确得控制数据流向。Flink分区器如下图1.随机分区器 ShufflePartitioner根据均匀分布对元素进行随机划分@Internalpublic class ShufflePartitioner<T> extends StreamPartitioner<T> { private stati...

2020-02-20 18:40:07 1215

原创 Flink之CheckPoint 构建真正的End-to-End Exactly-Once

Caused by: java.lang.Exception: Could not complete snapshot 32 for operator Source: Custom Source -> Sink: MySqlTwoPhaseCommitSink (1/1). at org.apache.flink.streaming.api.operators.AbstractStreamOperator.snapshotState(AbstractStreamOperator.java:422) at

2020-02-08 16:12:11 1208

原创 OGG ==》Kafka 消息 before没有数据

场景配置消息格式原因思路解决方法结果

2019-10-16 11:23:01 801

原创 OGG 同步Oracle 无主键表到Kafka

场景OGG中同步Oracle表到Kafka,有些Oracle表有主键，有些没主键，对于没主键的表怎么给表自定义加主键解决Extract 进程extract etest10GETUPDATEBEFORESNOCOMPRESSDELETESNOCOMPRESSUPDATESTranlogOptions DBLOGREADERuserid ogg_admin, pas...

2019-09-27 15:04:37 1102 4

原创 OGG报错：ERROR OGG-00446 ERROR OGG-00508 ERROR OGG-00868

OGG报错：ERROR OGG-00446 ERROR OGG-00508 ERROR OGG-00868报错2019-09-06T16:29:09.443+0800 ERROR OGG-00868 Oracle GoldenGate Capture for Oracle, e_testb.prm: Gap found in DDL metadata records...

2019-09-06 17:28:46 598

原创 OGG 同步数据 kafka 由于Source Trail文件与Target Trail文件没有同步，kafka 接收不到消息

场景Ogg 抽取oracle数据到kafka,进程没问题，trail文件也都在变化(),查看日志也没报错，只是Source Trail文件与Target Trail文件没有同步，如下图源端

2019-08-28 19:47:06 764 1

原创 OGG Source Extract进程启动一直挂载

场景ogg 所有Extract 进程起不起来，一直挂载中，查看日志，报错如下2019-08-26T14:13:12.177+0800 ERROR OGG-00868 Oracle GoldenGate Capture for Oracle, e_xxl3.prm: Gap found in DDL metadata records.2019-08-26T14:13:12.182...

2019-08-28 19:45:37 1040

原创 Impala配置OpenLdap认证、impal角色权限命令总结

Impala配置OpenLdap认证参考配置登陆方式第一种beeline 登陆： -u 'jdbc:hive2://ip:21050' -n username -p password第二种 impala-shell 登陆impala-shell -i ip -l -u username --auth_creds_ok_in_clear命令总结总结官网地址创建角色...

2019-07-15 17:49:52 1208

原创 LdapTemplate+springBoot

Ldap+springBoot

2019-07-15 17:19:16 4905

原创 Centos 安装openLDAP、配置客户端、安装管理工具LDAP Admin

centos 安装openLDAP

2019-07-15 16:54:36 1943

原创 Hive Metasotore API （Java）报错

Hive Metasotore API 报错：java.lang.NoSuchMethodError: org.apache.hadoop.hive.shims.HadoopShims.getHadoopConfNames()Ljava/util/Map;Hive metastore依赖 <dependency> <groupId>org....

2019-06-19 16:06:33 2033

原创 HiveSQL 中group by 、join转MapReduce作业过程详解

HiveSQL 中group by 、join转MapReduce作业过程详解

2019-04-16 11:10:03 2107 1

原创 spark streaming、kafka 内存调优、分区调优

spark Streaming 限速spark.streaming.kafka.maxRatePerPartition而在Direct Approach，则是通过参数 spark.streaming.kafka.maxRatePerPartition 来配置的。这里需要注意的是，这里是对每个Partition进行限速。所以你需要事先知道Kafka有多少个分区，才好评估系统的实际吞吐量，从而...

2019-04-08 16:30:50 3285

原创面试-笔试解答

SQL编程题目求每一位员工工作时长公司每位员工打卡时间表A员工工作时长表B解答过程-- 得到分组时间的最大值下班时间select a.id,a.`name`,a.time from (SELECT id,name,time FROM punch GROUP BY `id` DESC)a GROUP BY a.`name`-- 得到分组时间的最小值上班时间selec...

2019-03-28 17:12:36 138

原创 YARN的Memory和CPU调优配置详解

Hadoop YARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位，具有一定的内存以及CPU资源。在YARN集群中，平衡内存、CPU、磁盘的资源的很重要的，根据经验，每两个container使用一块磁盘以及一个CPU核的时候可以使集群的资源得到一个比较好的利用。内存配

2019-03-21 16:14:57 286

原创 Hive统计当月和本季度的流量

原始数据用户日期流量熊猫tv 2018-01-02 5快手 2018-01-02 3YY 2018-01-02 2熊猫tv 2018-01-03 4抖音 2018-01-02 15快手 2018-01-03 3YY 2018-01-03 ...

2019-03-18 16:27:06 2387

原创 Kafka 单分区有序怎么做到全局有序

Kafka 单分区有序怎么做到全局有序主要概念Topics: 主题是一个发布记录的目录或者概要名称broker :进程,一个kafka就是一个broker,多个brok可以组成一个集群consumer一个组内共享一个group id组内的消费者协调一致去消费topic的所有分区每个分区P0只能被group A 里的一个消费组C1消费容错消费机制partition:...

2019-03-12 17:52:31 5898

原创 Flume 负载均衡和容错实现原理及过程

Failover Sink Processor 与Load balancing Sink ProcessorFailover Sink:故障转移工作原理发送消息失败的接收器放入一个冷却池中,并设定一个冷静期.随着重试失败次数的增加,冷静期会增加,如果一旦接收器成功发送消息就恢复到活动池中在接收器发送消息的时候失败,接下来,尝试一个更高优先级的接收器发送消息故障转移接收器处理器...

2019-03-12 15:33:29 1183

原创 Spark Shuffle机制

Shuffle机制hashshuffle、BypassMergeSortShuffleWriter、 sort shuffle

2019-03-11 14:58:13 206

原创 Spark内存管理 StaticMemoryManagement与UnifiedMemoryManagement

Spark内存管理：静态内存与统一内存内存管理如何优化

2019-03-06 17:32:09 288

原创 NTP 时区+时间同步

NTP 时区+时间同步选一台机器为server其它机器为client从server端同步时间

2019-02-27 18:06:43 5788

原创 Spark repartition与coalesce对分区的操作

Spark repartition与coalesce对分区的操作产生不同的结果,提升运行性能

2019-02-20 10:38:54 365

原创 Spark序列化

Spark 默认Java序列化Kyro序列化比较

2019-02-19 14:37:45 259

原创 Hive MetaStore简单剖析解析,持续整理中...

Hive MetaStore 包括 DBS,version,TBLS等的详细分析

2019-02-15 14:43:55 432

原创 Spark Streaming算子:foreachRDD(func)

Spark Streaming算子:foreachRDD(func)

2019-02-07 16:14:48 496

原创 Spark Streaming算子:transform

Spark Streaming 算子 transform的产生背景使用场景

2019-02-06 10:31:16 857

原创 Spak Streaming算子:checkpoint

Spark Streaming 算子 checkpoint的产生背景使用场景

2019-01-28 17:55:44 235

原创 Spark Streaming 算子:reduceByKeyAndWindow

窗口时间长度窗口滑动时间长度批处理时间长度的设置

2019-01-28 17:32:34 340

原创 Flume、Kafka、Spark streaming整合

Flume、Kafka、Spark streaming整合

2019-01-28 16:06:43 283

原创 Kafka的安装、使用

Kafka的安装使用,注意事项

2019-01-28 16:04:21 149

原创 FLume安装、配置、使用

简介Flume是一种分布式的、可靠的、可用的服务，用于有效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单而灵活的体系结构。它具有健壮性和容错性，具有可调可靠性机制和许多故障转移和恢复机制。它使用一个简单的可扩展数据模型，支持在线分析应用程序安装启动测试...

2019-01-28 15:59:58 410

原创 Spark重要概念阐述

Spark RDD SparkContext SparkConf InputFile TextFile的的定义和源码解释Spark 里依赖,函数的定义

2018-12-10 11:46:45 331 1

原创 Hadoop2.6.0.CDH 源码编译

hadoop-2.6.0-cdh5.6.0源码编译1. 所需软件都提供了下载地址2. 其中包括了Lzo压缩的安排配置

2018-12-06 14:42:41 490

原创 Hive(五):常见存储格式的性能测试、比较

Hive/HDFS里几种插件存储格式性能比较,原理分析

2018-12-04 18:11:39 761

原创 Hive(四):之Compression(4)----常见压缩的Demo测试、性能比较

Hive--Compression这里只是在单机上对18M的数据进行测试数据下载地址:https://pan.baidu.com/s/12keSnetSRkSxdQFxxcnRGg准备数据load data local inpath '/home/hadoop/data/hive-test-data/page_views.dat' overwrite into table page_views;测试对比...

2018-12-04 10:49:16 348

原创 Hive(三):之Compression(3)----Sqoop MySQL导入HDFS--使用Snappy压缩

Compression(三)Sqoop导入HDFS--使用Snappy压缩

2018-12-03 15:00:30 1333

原创 Hive(二):之Compression(2)----HDFS/Hive里的压缩配置和测试

通过简单的Demo学会Hive,HDFS里的压缩技术其中包括BZip2测试.Lzo压缩测试及索引创建

2018-12-01 11:41:46 871

原创 Hive(一):之Compression(1)----:谈谈HDFS/Hive里的压缩

在大数据存储、传送、读取中往往会跟进不同的业务应用场景选择不同的压缩技术,由于压缩方式的选择的不同,优势和弊端也不同,就像一个天平,要找到适合的那个平衡点

2018-11-29 11:07:00 526

Hadoop 源码编译所需软件

student.data

sqoop需要导入的包

空空如也