墨卿风竹-CSDN博客

原创 doris挂了一个be报错ERRCODE = 2, DETAILMESSAGE = 678910 HAVE NO QUERYABLE REPLICAS. ERR: 678911‘S BACKEND 1

这个错误表明在执行SQL查询时，出现了无法查询的副本错误。最后，如果出现了集群ID无效的错误，通常是因为Master FE发送的心跳信息中的集群ID与本地存储的集群ID不一致，导致拒绝响应心跳。你需要确保所有节点都在正确的集群中，然后尝试修改FE节点中metadata目录下的image/VERSION文件中的集群ID值，并重启FE节点。另外，你还可以尝试执行show backends/frontends语句来查看后端/前端的信息，但是如果集群有多个FE（前端）节点，可能会出现信息不完整的情况。

2024-02-19 19:00:22 846

原创 Error in query: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.thrift.TApplicationExce

这个错误通常是由于Hive配置参数的问题引起的。根据Cloudera社区的一篇帖子，他们在升级Cloudera版本时遇到了类似的问题，并通过更改Hive配置参数 “hive.metadata.dml.events” 的值为 “false” 来解决了这个问题。这个参数控制是否启用Hive元数据DML事件。你可以尝试将这个参数设置为 “false”，然后重新运行你的查询，看看问题是否得到解决。以下是一个伪代码示例，演示如何使用Python的PyHive库来连接Hive并设置Hive配置参数：python。

2024-01-19 18:32:39 465

原创 Hive中支持毫秒级别的时间精度

实际上，Hive 在较新的版本中已经支持毫秒级别的时间精度。你可以通过设置 hive.exec.default.serialization.format 和 mapred.output.value.format 属性为 1，启用 Hive 的时间精度为毫秒级。最后，还需要注意的是，对于旧版本的 Hive，使用字符串或整数来处理毫秒级时间仍然是一种有效的替代方法。请注意，在设置这些属性之前，请确保你的 Hive 版本支持毫秒级时间精度，并且与底层的存储和查询引擎（如 Hadoop）兼容。

2023-12-28 18:23:49 824

原创 hive在执行elect count(*) 没有数据显示为0（实际有数据）

当该选项设置为 false 时，Hive 将不会使用任何统计信息来帮助决定查询的执行计划。禁用统计信息的主要原因是统计信息可能不准确或过时，或者在某些情况下，使用统计信息并不会带来明显的性能提升。因此，禁用统计信息可以使查询的执行计划更加稳定，而不会受到统计信息本身的影响。是 Hive 的一个配置选项。建表以location的方式加载数据，此时元数据还没有记录新的数据，当执行 count(*) 时，系统会自动到元数据中读取数据，此时元数据是没有数据的。但需要注意的是，禁用统计信息可能会导致查询的性能下降。

2023-12-28 14:18:49 981

原创运行hive的beelin2时候going to print operations logs printed operations logs

【代码】运行hive的beelin2时候going to print operations logs printed operations logs。

2023-12-19 17:09:26 724

原创 Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job faile

还有一些其他可能的原因，例如内存不足、Hive配置参数等。可以尝试调整Hive on Spark的相关配置参数，例如mapred.map.child.java.opts和mapred.reduce.child.java.opts，以及hive.auto.convert.join等参数，来解决内存不足的问题。最后，建议查看Spark任务的详细日志，以获取更多关于作业失败的具体原因。这可能是由于多种原因导致的，例如内存不足、JSON数据格式错误、缺少JSON Serde等。

2023-12-18 16:25:28 1069

原创 datax插件加载失败（插件[ftpreader,hdfswriter]加载失败）

Exception:Code:[Framework-12], Description:[DataX插件初始化错误, 该问题通常是由于DataX安装错误引起，请联系您的运维解决 .]. - 插件加载失败,存在重复插件:/usr/lib/datax/plugin/writer/txtfilewriter/plugin.json 2023-12-13 10:40:10,293 INFO -插件加载失败，可能是由于插件本身存在问题或者DataX安装有误导致的。，我中间也试过把插件单独重新加载，但是也失败了的。

2023-12-13 11:50:45 445

原创大数据集群增加数据盘，平衡数据盘HDFS Disk Balancer

官网：https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-hdfs/HDFSDiskbalancer.html。报告命令提供将从运行磁盘平衡器中受益的指定节点或顶级节点的详细报告。节点可以由主机文件或逗号分隔的节点列表指定。取消命令取消正在运行的计划。重新启动数据节点与取消命令具有相同的效果，因为数据节点上的计划信息是暂时的。

2023-12-04 14:35:45 336

原创 ERROR org.apache.spark.executor.Executor: Exception in task 0.0 in stage 1.0 (TID 8): Java heap spac

后来又出现了了这种问题，资源给大也解决不了问题，最后通过各种尝试，发现增大partition数量，问题就解决了。参数：.config(“spark.sql.shuffle.partitions”, 500)，原本默认是200，这里增大到500.其实还是资源问题，将executor内存给大点，executor数量也大点，问题就解决了，具体配置根据自己集群情况分配调试。

2023-11-29 11:08:46 374

原创 dolphinscheduler的优化参数的优化

启用任务重试（taskRetryTimes）：在任务失败时，可以设置任务的重试次数，以增加任务的执行成功率。根据任务的特性和运行环境，可以适量增加任务的重试次数，但需要注意避免任务出现无限重试的情况。根据集群的规模和硬件资源的情况，可以适当增大该参数的值，以提高任务的并发执行能力。调整任务资源配置：根据任务的类型和资源需求，可以调整任务的内存、CPU 和磁盘等资源配置，以最优化任务的运行效率。“任务依赖”的任务实例，不占用运行实例名额，原因是“任务依赖”的任务实例不占用资源；

2023-11-28 10:49:19 637

原创 dolphinscheduler:worker worker in work group default have not received the heartbeat问题

在后续的版本中也已经修复的。

2023-11-28 10:09:28 314

原创 dolphinscheduler有任务一直在运行（问题）目前对数据库解决

其实对于dolphinscheduler的性能是下降的，比如页面会出现打不开，卡顿现象。这么多的任务没有结束，会涉及很多问题的，系统的数据盘会不断入职日志，数据量很大，目前是通过数据库更改任务状态解决的。11 - 等待依赖项完成。

2023-11-22 18:14:39 491

原创在 Hive on Spark 使用 YARN 的 cluster 模式下，作业被调度到集群中的多个节点上执行。但是，有时候作业可能会在单个节点上运行，导致其他节点处于空闲状态的原因

某些任务可能天然倾向于在单个节点上运行，例如涉及到大量的 shuffle 操作时，可能会导致数据倾斜和任务在单个节点上执行。：如果数据本身存在倾斜或者部分数据范围较小，可能导致作业在某些节点上运行时占用了大量的资源，而其他节点相对空闲。解决方法：对数据进行合理的分区和处理，避免数据倾斜，确保数据能够均匀地分布在集群中的各个节点上。解决方法：检查集群中各个节点的资源配置，确保它们的配置相对均衡，以确保集群资源能够充分利用。：作业涉及大量的数据传输时，可能会受到网络带宽的限制，导致作业集中在某些节点上执行。

2023-11-15 14:25:33 89

原创 Windows 开启 Kerberos 的火狐 Firefox 浏览器访问yarn、hdfs

host1.com.cn,host2.com.cn,host3.com.cn 写具体主机名，以逗号分隔。2、在搜索栏内输入 network.negotiate-auth.trusted-uris。3、在搜索栏内输入 network.auth.use-sspi，将值设置为 false。1、打开浏览器，地址栏输入 about:config。4、本地登陆 Kerberos。.com.cn，.通配符写法。5、访问 WebUI。

2023-11-01 16:57:55 1034

原创生态扩展：Flink Doris Connector

doris官网：https://doris.apache.org/docs/ecosystem/flink-doris-connector。flink环境配置：vim /etc/profile。复制到flink的lib目录。

2023-10-31 19:07:09 908

原创生态扩展Spark Doris Connector

将编译好的spark-doris-connector-3.3_2.12-1.3.0-SNAPSHOT.jar复制到spark的jars目录。在源码目录下执行： sh build.sh 根据提示输入你需要的 Scala 2.12与 Spark3.2.3 版本进行编译。代码库地址：https://github.com/apache/doris-spark-connector。修改custom_env.sh.tpl文件，重命名为custom_env.sh。spark环境配置：vim /etc/profile。

2023-10-31 18:43:36 1502

原创 doris的be其中启动失败的原因

默认目录在BE安装目录的storage目录下。doris的be其中失败的原因。1在文件的末尾处添加或者修改。修改limits文件。配置BE数据存储目录。

2023-10-26 11:07:16 628

原创 doris的单节点安装部署(详细)

官网网址：https://doris.apache.org/zh-CN/docs/dev/get-starting/quick-start。这个参数我们在安装的时候是必须要配置的，特别是当一台机器拥有多个IP地址的时候，我们要为 FE 指定唯一的IP地址。进入doris下的fe目录，修改其中conf目录下的fe.conf文件。进入doris下的be目录，修改其中conf目录下的be.conf文件。在 FE 安装目录下执行下面的命令，来完成 FE 的启动。Doris FE 的停止可以通过下面的命令完成。

2023-10-25 16:22:38 622

原创 ranger的只读（read）权限引起的

具有 read 权限的用户可以查看文件的内容，读取目录中的文件列表和元数据（如文件名、权限和大小等）。具有 select 权限的用户可以对文件进行选择性的操作，例如复制、重命名、移动或删除文件。select 权限扩展了 read 权限的功能，允许用户在文件或目录上执行特定的操作。但是，read 权限不允许用户修改文件或目录，也不能执行或运行文件。此外，select 权限还允许用户执行文件（运行可执行文件）。read 权限允许用户读取（查看）文件或目录的内容。在rang中只给了read的权限。

2023-10-24 11:35:46 158

原创使用kyuubi查询出现集群单节点cpu飙升问题

（当一些操作在共享锁阻塞期间积压时，这些操作将等待共享锁的释放。一旦共享锁被释放，这些积压的操作将开始执行。如果这些操作是密集的、资源密集型的或长时间运行的，它们可能会占用大量的 CPU 资源）业务人在查询操作时，表被锁表，查询不出结果，就反复执行，导致堆积，并kyuubi又是高并发操作。定位到进程–>找到人–>yarn的Applications中kill掉任务。

2023-10-19 18:58:23 128

原创 hue实现对hiveserver2 的负载均衡

Zookeeper的连接地址，请根据实际情况填写，本示例为master-1-1:2181,master-1-2:2181,master-1-3:2181。HttpFS服务启动后，点击进入Hue Service > Configuration页面，如下图所示。进入Instances标签页面，点击Add Role Instances按钮，如下图所示。返回Instances页面，选择HttpFS角色，并点击Start启动服务，如下图所示。如果你使用的是CDH集群那就很是方便的。固定值为/hiveserver2。

2023-10-18 18:02:23 1206

原创 HiveServer2负载均衡

有多个HiveServer2服务时，可以借助Zookeeper服务实现访问HiveServer2的负载均衡，将HiveServer2的压力分担到多个节点上去。本文详细介绍HiveServer2负载均衡的配置及使用方法，请根据EMR集群（普通集群和Kerberos集群）的实际情况进行选择。在zooperker要创建相应的zooKeeperNamespace并赋权。就可以去进行连接连接的测试。

2023-10-18 17:51:56 1398

原创 Error operating ExecuteStatement: org.apache.thrift.transport.TTransportException: java.net

服务器负载过高：如果服务器负载过高或资源不足，可能会导致连接断开，从而引发此错误。

2023-10-10 15:21:15 373

原创 kyuubi的查询遇到的问题NoneType‘ object has no attribute ‘_getitem_‘

对一个空的查询结果进行索引操作：如果你执行了一个查询语句，但是返回的结果为空，那么在尝试对结果进行索引访问时就会触发此错误。在进行索引操作之前，应该先检查查询的结果是否为空，以避免此错误。还有可能是cpu过高的造成的。

2023-10-10 15:13:59 127

原创 hadoop集群中主节点的FsImage没自动更新，上传失败导致主NN FsImage没更新

主节点的FsImage没自动更新。查了一圈，配置没问题，slave节点FsImage会周期更新。就看到log中有这个，才发现是上传失败导致主NN FsImage没更新。

2023-10-08 18:21:52 233

原创 spark.driver.maxResultSize限制 Spark 驱动程序（driver）在向客户端返回结果时的最大大小

每个Spark　action的所有分区的序列化结果的总大小限制（例如，collect行动算子）。应该至少为1M，或者为无限制。如果超过1g，job将被中止。如果driver.maxResultSize设置过大可能会超出内存（取决于spark.driver.memory和JVM中对象的内存开销）。设置适当的参数限制可以防止内存不足。设置为0则为无限制，但是有OOM的风险。这会将最大结果大小设置为 2GB。

2023-09-21 16:29:37 1527

原创 hive3.X的HiveServer2 内存泄漏问题定位与优化方案（bug）

既然找到了问题，那么解决方案就清楚了，那便是将 Query Id 这个值设置成 Operation 级别，而不是 HiveSession 级别，此问题影响 Hive3.x 版本，2.x 暂时没有这个特性，因此不受影响。再对照官方已知的 issue，此问题是已知 issue，目前 Hive 已经将此问题修复，且合入了4.0的版本，对 Hive 进行重新打包，在现有集群上对 hive-service-x.x.x.jar 进行替换，即可修复此问题。

2023-09-20 17:27:41 866

原创文件或数据源不一致出问题‘REFRESH TABLE tableName‘ command in SQL or by recreating the Dataset/DataFrame involved

此外，为了确保缓存的有效性和一致性，Spark 还提供了一些管理缓存的方法，例如 unpersist() 可用于清除缓存，cache() 可用于重新缓存，以及 isCached() 可用于检查数据是否已缓存。当你创建这些对象的新实例时，Spark 将重新从数据源加载数据，因此你将使用最新的数据。缓存可以减少磁盘读写开销，加快数据访问速度，并提高整体的数据处理性能。如果你怀疑底层数据已经被外部更新，并希望确保你的 Spark 应用程序使用最新的数据，刷新表或重新创建 DataFrame 是一个好的做法。

2023-09-20 11:48:15 623

原创 spark的资源调整参数

spark.executor.memoryOverhead 每个executor的堆外内存大小，堆外内存主要用于数据IO，对于报堆外OOM的任务要适当调大，单位Mb，与之配合要调大executor JVM参数，例如：set spark.executor.memoryOverhead=3072。–该功能只能控制生成的文件大小尽量接近spark.merge.files.byBytes.fileBytes，且有一定的性能损耗，需根据实测情况选择使用。–输出文件合并 byBytes,该功能会生成两个stage，

2023-09-19 15:50:30 618

原创 INFO org.apache.spark.scheduler.DAGScheduler: Missing parents: List(ShuffleMapStage 1)

DAG（有向无环图）构建错误：在构建Spark应用程序的DAG时，可能发生了错误，导致ShuffleMapStage 1无法找到正确的父阶段。这可能是由于依赖关系的错误定义、转换操作的错误使用或其他编程错误引起的。错误的任务调度：如果任务调度系统或Spark调度器在将作业提交给执行器之前出现错误，可能会导致ShuffleMapStage 1缺失父阶段。作业取消或失败：在ShuffleMapStage 1之前的某些步骤中，如果作业被取消或失败，那么后续的阶段可能会缺少必要的父阶段。

2023-09-18 15:57:02 93

原创 shell脚本执行中报错： line 10: 09: value too great for base (error token is “09“)

这个错误通常是由于 shell 脚本中对一个数值使用了以零开头的八进制表示方式，而八进制表示中的数字 8 和 9 是无效的引起的。引号包裹数值：在脚本中，将导致问题的数值使用引号进行包裹，例如将 09 改为 “09”，这样 shell 将会将其视为字符串而不是数值。更改数字表示方式：将导致错误的数字表示方式修改为十进制数值，例如使用 9 替代 09。在脚本中查找该行并进行修改。删除数字前面的零：如果这个数值不需要以零开头的八进制表示方式，你可以直接删除开头的零，并将其表示为十进制数值。

2023-09-18 11:52:24 302

原创 yarn的资源优化的调整参数

与内存类似，根据集群的CPU资源情况进行调整，确保分配给Yarn的CPU资源与集群实际可用CPU核心数相匹配。yarn.scheduler.minimum-allocation-mb：用于设置Yarn调度器的最小内存分配单位，单位为MB。yarn.scheduler.maximum-allocation-mb：用于设置Yarn调度器的最大内存分配单位，单位为MB。yarn.scheduler.capacity..maximum-allocation-mb：用于设置队列的最大内存分配量，如前面提到的。

2023-09-14 14:58:08 257

原创关于 Apache Spark 的参数设置，用于优化和调整 Spark 应用程序的行为和性能

spark.dynamicAllocation.shuffleTracking.enabled=true：启用作业的 Shuffle 动态分配跟踪。spark.dynamicAllocation.shuffleTracking.timeout=30min：Shuffle 动态分配跟踪的超时时间。spark.sql.adaptive.coalescePartitions.minPartitionNum=1：分区合并的最小分区数。

2023-09-13 17:17:08 597

原创任务长期不释放和占用单节点持续的cpu，导致hivesever2本身内存泄漏造成

在配合和资源都合理的情况下，找那个任务导致的cpu持续升高，可以优化底层sql，或则调整配置参数。或则把hivserver2重启（维护hiveserver2的时候要定期重启）1.资源的负载均衡动态配置。3.yarn上的配置策略。2.用户提交的任务释放。

2023-09-13 17:15:49 546

原创 zeppelin安装python（使用pymysql包）

参考官网链接：https://zeppelin.apache.org/docs/0.10.1/interpreter/python.html#run-python。更改zeppelin的python的interpreters（注意需要匹配跟我们的python版本相匹配）zeppelin的测试环境安装的python的pymysql包。

2023-09-13 14:02:10 151

原创错误：“Incorrect string value: “xE9xA2’ for column “hue.desktop_document2’.search’ at row 1” (1366)”

错误信息中的 "xE9xA2’ 是一个错误的字符串值，在默认的编码格式下可能无法正确解析。避免多行注释：在括号内使用多行注释是不支持的，因为多行注释无法跨越多行，每一行都会被解析为一个独立的语句。不要嵌套括号和注释：括号内部不应该包含其他括号和注释。在括号内部使用注释时，注释的开始和结束必须在同一对括号内。在上面的示例中，括号内部的嵌套括号和注释可能导致解析错误或语法错误。在上面的示例中，注释应该仅为单行注释，并且不要尝试跨越多行。在上面的示例中，注释的开始和结束都在同一对括号内。大多数是因为注释的问题。

2023-09-05 19:00:07 76

空空如也

空空如也