自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Doris 升级遇到的问题

(想不通的一点,之前是从0.15版本一路升上来的,之前没有问题,在这次升级时出现了fe http port需要一致的规则,但貌似这个规则之前就有)正常启动的fe 那台机器,因为还有yarn,所以修改过http port 由默认8030 改为8035(应该是早在1.0.0版本时就修改了)即其中一台fe修改http port 为8035后,其他两个fe也需要修改为8035,修改过后重新加入集群,问题解决。升级fe时出现只有一个节点正常(3fe)其他两个节点出现拒绝连接,查看9010端口也没有正常占用。

2024-01-30 10:58:40 225

原创 Presto:Unable to create input format org.apache.hadoop.mapred.TextInputFormat

Presto:Unable to create input format com.hadoop.mapred.

2022-09-08 14:46:04 1045

原创 Doris Manager安装部署

Doris manager 的安装部署

2022-06-10 11:12:41 3872 18

原创 Sqoop导出(Hive->mysql)更新及变化

Sqoop导出(Hive->mysql)在采用Sqoop脚本导出至mysql,数据需要更新及变化由于指标数据量不大,指标各项数据都会变化,最初采用的是在导入之前,先将MySQL目标表清空清空表语句有两种,一个是delete,一个是truncate如果MySQL设置了主键自增使用delete后,会接着上次的继续递增,例:上一次导入主键id为1-100,在delete表之后,再次导入,则id变为101-200使用truncate,则主键自增id会再从1开始后来考虑到每天再导入之前清空,然后

2021-08-23 15:07:02 927

原创 presto的安装部署中出现的问题

1、安装PrestoPresto安装完成后,采用命令行和可视化两种方式来对presto进行操作2、使用命令行或者可视化web操作presto在使用过程中,show table命令是可以正常使用的但在select * from tablename时报错java.net.UnknownHostException: mycluster查询资料发现,是没有检测到HDFS的配置(mycluster是我集群的名字)在core-site.xml有配置解决方法:在catalog的hive.propertie

2021-08-11 09:57:58 465

原创 Spark-自定义分区器以及累加器

自定义分区器: val rdd = sc.makeRDD( List( ("nba", "xxxx"), ("cba", "xxxx"), ("cba", "xxxx"), ("cba", "xxxx"), ("nba", "xxxx"), ("wnba", "xxxx"), ),3 ) val rdd1: RDD[(String, String)] = rdd.part

2021-03-18 17:21:54 132

原创 Spark-RDD序列化、缓存与检查点

RDD序列化:闭包检查:从计算角度看,算子之外的代码都是在Driver端执行的,算子里面的代码都是在Executor端执行。 那么在scala的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效果, 如果使用的算子外的数据无法序列化,就意味着无法传值给Executor端执行,就会发生错误, 所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。解决方法:**采用继承serializeable来解决** **在相关类方法

2021-03-18 17:13:34 118

原创 Spark-RDD-行动算子

行动算子总结所谓的行动算子,其实就是用于触发RDD运行的方法spark中,调用RDD对象的行动算子,会执行作业,每一次调用,都会执行不同的作业reduce:聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4),2) rdd.map(_*2) val i: Int = rdd.reduce(_+_) rdd.collect() println(i)collect:在驱动程序

2021-03-18 16:54:53 175

原创 Spark - RDD -转换算子

Spark - RDD -转换算子Spark的分区号是从0开始的flatMap:扁平化将一个整体拆分成一个一个的个体来使用val rdd: RDD[List[Int]] = sc.makeRDD( List(List(1, 2), List(3, 4) ))val rdd2: RDD[Int] = rdd.flatMap( list => list)rdd2.collect().foreach(println)Groupby:一个组只能在一个分区中分组后可能会导致不同

2021-03-15 21:17:53 175

原创 HBase相关概述

HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。HBase数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。HBase逻辑结构HBase物理存储结构数据模型1)Name Space命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase两个自带的命名空间,分别是hbase和de

2021-02-22 21:26:34 149

原创 redis概述及应用场景

Redis概述Redis是一个开源的key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,Redis支持各种不同方式的排序。 与memcached一样,为了保证效率,数据都是缓存在内存中。

2021-02-19 20:18:35 70

原创 beeline客户端常用命令以及hive函数

进入beeline客户端:beeline -u jdbc:hive2://hadoop102:10000 -n atguigu退出beeline客户端:!quit创建:create修改:alter查询:select插入:insert into删除:drop

2021-02-04 20:20:27 1162 1

原创 Flume的source和sink

SourceTaildir Source:支持断点续传、多目录文件监控Avro Source:Avro端口监听并接收来自外部的Avro客户流的事件Exec Source:Exec Source的配置就是设定一个Unix(linux)命令,然后通过这个命令不断输出数据Spooling Directory Source:监测配置的目录下新增的文件,并将文件中的数据读取出来SinkHDFS Sink:当需要将事件消息写入到Hadoop分布式文件系统(HDFS)时,可以使用HDFS SinkAvro

2021-02-04 20:11:05 176 1

原创 kafka事务

Kafka事务Kafka从0.11版本开始引入了事务支持。事务可以保证Kafka在Exactly Once语义的基础上,生产和消费可以跨分区和会话,要么全部成功,要么全部失败。Producer事务为了实现跨分区跨会话的事务,需要引入一个全局唯一的Transaction ID,并将Producer获得的PID和Transaction ID绑定。这样当Producer重启后就可以通过正在进行的Transaction ID获得原来的PID。为了管理Transaction,Kafka引入了一个新的组件Tra

2021-02-01 14:35:56 94

原创 kafka的高效读写以及Zookeeper在kafka中的作用

kafka高效读写数据1、顺序写磁盘Kafka的producer生产数据,要写入到log文件中,写的过程是一直追加到文件末端,为顺序写。官网有数据表明,同样的磁盘,顺序写能到到600M/s,而随机写只有100k/s。这与磁盘的机械机构有关,顺序写之所以快,是因为其省去了大量磁头寻址的时间。** 2、应用Pagecache**Kafka数据持久化是直接持久化到Pagecache中,这样会产生以下几个好处:I/O Scheduler 会将连续的小块写组装成大块的物理写从而提高性能I/O Schedu

2021-02-01 14:34:56 180

原创 kafka生产者和消费者(未整理完,待续)

kafka生产者分区策略:1、分区的原因:a 方便在集群中扩展每个Partition可以通过调整以适应它所在的机器,而一个topic又可以有多个Partition组成,因此整个集群就可以适应任意大小的数据了b 提高并发可以以partition为单位读写2、分区的原则我们需要将producer发送的数据封装成一个ProducerRecord对象。(1)指明 partition 的情况下,直接将指明的值直接作为 partiton 值;(2)没有指明 partition 值但有 key 的情况

2021-02-01 14:28:23 154

原创 kafka工作机制以及文件存储机制

kafka架构深入:kafka中的消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的。topic是逻辑上的概念,而partition是物理上的概念,每个partition对应于一个log文件,该log 文件储存的就是producer生产的数据。producer生产的数据会不断地追加到文件末尾,且每条数据都有自己的offset。消费者组中的每个消费者,都会实时记录自己消费到了哪个offset,以便出错恢复时,从上次的位置继续消费。总结:以文件形式存储以大文件形式存储

2021-01-31 22:20:06 97

原创 kafka的概述框架以及命令行

1、定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。2、kafka的基础架构(1)Producer :消息生产者,就是向kafka broker发消息的客户端;(2)Consumer :消息消费者,向kafka broker取消息的客户端;(3)Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者

2021-01-29 21:26:15 67

原创 Flume数据流监控(第三方框架Ganglia)

Gangliaganglia由gmond、gmetad和gweb三部分组成。gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用gmond,你可以很容易收集很多系统指标数据,如CPU、内存、磁盘、网络和活跃进程的数据等。gmetad(Ganglia Meta Daemon)整合所有信息,并将其以RRD格式存储至磁盘的服务。gweb(Ganglia Web)Ganglia可视化工具,gweb是一种利用浏览器显示gmetad所存储

2021-01-29 19:46:12 145 1

原创 Flume进阶(Agent内部原理以及拓扑结构)

Flume事务Flume Agent的内部原理重要组件:1)ChannelSelectorChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。ReplicatingSelector会将同一个Event发往所有的ChannelMultiplexing会根据相应的原则,将不同的Event发往不同的Channel。2)SinkProcessorSinkProcessor共

2021-01-28 20:57:48 436

原创 Flume入门案例的配置文件解析

监控端口数据官方案例的配置文件解析开启flume监听端口第一种写法:[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console第二种写法:[atguigu@hadoop102 flume]$ bin/flume-ng agent -c conf/ -n a1 -f job

2021-01-28 20:56:44 378

原创 flume概述以及基本架构

flume的概述一、定义1、Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。2、主要作用:实时读取服务器本地磁盘的数据,将数据写入到HDFS二、基础架构2.1、AgentAgent是一个jvm进程,以时间的形式将数据从源头送至目的。Agent由三个部分组成:Source、Channel、Sink2.1.1 Source负责接收数据到Flume Agent的组件。Source组件可以处理各种类型,格式的日志

2021-01-26 18:32:26 710

原创 分区表与分桶表以及jvm重用

分区表的概述:分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。hive (default)> create table dept_partition(deptno int, dname string, loc string)partitioned by (month string) r

2021-01-25 18:24:24 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除