_Ordinary丶-CSDN博客

原创 Doris 升级遇到的问题

（想不通的一点，之前是从0.15版本一路升上来的，之前没有问题，在这次升级时出现了fe http port需要一致的规则，但貌似这个规则之前就有）正常启动的fe 那台机器，因为还有yarn，所以修改过http port 由默认8030 改为8035（应该是早在1.0.0版本时就修改了）即其中一台fe修改http port 为8035后，其他两个fe也需要修改为8035，修改过后重新加入集群，问题解决。升级fe时出现只有一个节点正常（3fe）其他两个节点出现拒绝连接，查看9010端口也没有正常占用。

2024-01-30 10:58:40 225

原创 Presto:Unable to create input format org.apache.hadoop.mapred.TextInputFormat

Presto：Unable to create input format com.hadoop.mapred.

2022-09-08 14:46:04 1045

原创 Doris Manager安装部署

Doris manager 的安装部署

2022-06-10 11:12:41 3872 18

原创 Sqoop导出（Hive-＞mysql）更新及变化

Sqoop导出（Hive->mysql）在采用Sqoop脚本导出至mysql，数据需要更新及变化由于指标数据量不大，指标各项数据都会变化，最初采用的是在导入之前，先将MySQL目标表清空清空表语句有两种，一个是delete，一个是truncate如果MySQL设置了主键自增使用delete后，会接着上次的继续递增，例：上一次导入主键id为1-100，在delete表之后，再次导入，则id变为101-200使用truncate，则主键自增id会再从1开始后来考虑到每天再导入之前清空，然后

2021-08-23 15:07:02 927

原创 presto的安装部署中出现的问题

1、安装PrestoPresto安装完成后，采用命令行和可视化两种方式来对presto进行操作2、使用命令行或者可视化web操作presto在使用过程中，show table命令是可以正常使用的但在select * from tablename时报错java.net.UnknownHostException: mycluster查询资料发现，是没有检测到HDFS的配置（mycluster是我集群的名字）在core-site.xml有配置解决方法：在catalog的hive.propertie

2021-08-11 09:57:58 465

原创 Spark-自定义分区器以及累加器

自定义分区器： val rdd = sc.makeRDD( List( ("nba", "xxxx"), ("cba", "xxxx"), ("cba", "xxxx"), ("cba", "xxxx"), ("nba", "xxxx"), ("wnba", "xxxx"), ),3 ) val rdd1: RDD[(String, String)] = rdd.part

2021-03-18 17:21:54 132

原创 Spark-RDD序列化、缓存与检查点

RDD序列化：闭包检查：从计算角度看，算子之外的代码都是在Driver端执行的，算子里面的代码都是在Executor端执行。那么在scala的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，就意味着无法传值给Executor端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。解决方法：**采用继承serializeable来解决** **在相关类方法

2021-03-18 17:13:34 118

原创 Spark-RDD-行动算子

行动算子总结所谓的行动算子，其实就是用于触发RDD运行的方法spark中，调用RDD对象的行动算子，会执行作业，每一次调用，都会执行不同的作业reduce：聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4),2) rdd.map(_*2) val i: Int = rdd.reduce(_+_) rdd.collect() println(i)collect：在驱动程序

2021-03-18 16:54:53 175

原创 Spark - RDD -转换算子

Spark - RDD -转换算子Spark的分区号是从0开始的flatMap：扁平化将一个整体拆分成一个一个的个体来使用val rdd: RDD[List[Int]] = sc.makeRDD( List(List(1, 2), List(3, 4) ))val rdd2: RDD[Int] = rdd.flatMap( list => list)rdd2.collect().foreach(println)Groupby：一个组只能在一个分区中分组后可能会导致不同

2021-03-15 21:17:53 175

原创 HBase相关概述

HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。HBase数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像是一个multi-dimensional map。HBase逻辑结构HBase物理存储结构数据模型1）Name Space命名空间，类似于关系型数据库的database概念，每个命名空间下有多个表。HBase两个自带的命名空间，分别是hbase和de

2021-02-22 21:26:34 149

原创 redis概述及应用场景

Redis概述Redis是一个开源的key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，Redis支持各种不同方式的排序。与memcached一样，为了保证效率，数据都是缓存在内存中。

2021-02-19 20:18:35 70

原创 beeline客户端常用命令以及hive函数

进入beeline客户端：beeline -u jdbc:hive2://hadoop102:10000 -n atguigu退出beeline客户端：！quit创建：create修改：alter查询：select插入：insert into删除：drop

2021-02-04 20:20:27 1162 1

原创 Flume的source和sink

SourceTaildir Source：支持断点续传、多目录文件监控Avro Source：Avro端口监听并接收来自外部的Avro客户流的事件Exec Source：Exec Source的配置就是设定一个Unix(linux)命令，然后通过这个命令不断输出数据Spooling Directory Source：监测配置的目录下新增的文件，并将文件中的数据读取出来SinkHDFS Sink：当需要将事件消息写入到Hadoop分布式文件系统（HDFS）时，可以使用HDFS SinkAvro

2021-02-04 20:11:05 176 1

原创 kafka事务

Kafka事务Kafka从0.11版本开始引入了事务支持。事务可以保证Kafka在Exactly Once语义的基础上，生产和消费可以跨分区和会话，要么全部成功，要么全部失败。Producer事务为了实现跨分区跨会话的事务，需要引入一个全局唯一的Transaction ID，并将Producer获得的PID和Transaction ID绑定。这样当Producer重启后就可以通过正在进行的Transaction ID获得原来的PID。为了管理Transaction，Kafka引入了一个新的组件Tra

2021-02-01 14:35:56 94

原创 kafka的高效读写以及Zookeeper在kafka中的作用

kafka高效读写数据1、顺序写磁盘Kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到到600M/s，而随机写只有100k/s。这与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。** 2、应用Pagecache**Kafka数据持久化是直接持久化到Pagecache中，这样会产生以下几个好处：I/O Scheduler 会将连续的小块写组装成大块的物理写从而提高性能I/O Schedu

2021-02-01 14:34:56 180

原创 kafka生产者和消费者（未整理完，待续）

kafka生产者分区策略：1、分区的原因：a 方便在集群中扩展每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了b 提高并发可以以partition为单位读写2、分区的原则我们需要将producer发送的数据封装成一个ProducerRecord对象。（1）指明 partition 的情况下，直接将指明的值直接作为 partiton 值；（2）没有指明 partition 值但有 key 的情况

2021-02-01 14:28:23 154

原创 kafka工作机制以及文件存储机制

kafka架构深入：kafka中的消息是以topic进行分类的，生产者生产消息，消费者消费消息，都是面向topic的。topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log 文件储存的就是producer生产的数据。producer生产的数据会不断地追加到文件末尾，且每条数据都有自己的offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个offset，以便出错恢复时，从上次的位置继续消费。总结：以文件形式存储以大文件形式存储

2021-01-31 22:20:06 97

原创 kafka的概述框架以及命令行

1、定义Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。2、kafka的基础架构（1）Producer ：消息生产者，就是向kafka broker发消息的客户端；（2）Consumer ：消息消费者，向kafka broker取消息的客户端；（3）Consumer Group （CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者

2021-01-29 21:26:15 67

原创 Flume数据流监控（第三方框架Ganglia）

Gangliaganglia由gmond、gmetad和gweb三部分组成。gmond（Ganglia Monitoring Daemon）是一种轻量级服务，安装在每台需要收集指标数据的节点主机上。使用gmond，你可以很容易收集很多系统指标数据，如CPU、内存、磁盘、网络和活跃进程的数据等。gmetad（Ganglia Meta Daemon）整合所有信息，并将其以RRD格式存储至磁盘的服务。gweb（Ganglia Web）Ganglia可视化工具，gweb是一种利用浏览器显示gmetad所存储

2021-01-29 19:46:12 145 1

qq_42533287的博客