fz1989-CSDN博客

原创 Ubuntu 22.04更新源报错404 Not Found

Ubuntu 22.04 ARM架构更新源报错404 Not Found

2023-02-06 19:31:11 1302 3

原创 SparkSQL & ClickHouse RoaringBitmap64格式支持

ClickHouse新版使用roaring64map(https://github.com/RoaringBitmap/CRoaring/blob/af9fafb72edcfb88f7adc781eaea4e7e95f68d01/cpp/roaring64map.hh)来支持64位Int计算，采用了和之前不同的序列化和反序列化方式(https://github.com/ClickHouse/ClickHouse/blob/master/src/AggregateFunctions/AggregateFunc

2021-05-24 14:31:48 1809 13

原创 cloudera cdh 5.11 编译启动spark thrift server spark sql

cloudera cdh 是阉割版的spark，没有spark sql和thrift server，没有办法启动thrift server做JDBC/ODBC查询。那么是否有办法自己重新编译spark，来获得这种能力呢？本人尝试修改spark的hadoop和hive依赖(pom.xml中改成1.1.0-cdh5.11.2)，重新打包编译，mvn -Pyarn -Phive -Phive-t

2017-11-29 17:19:15 1420 1

原创 CDH更改Zookeeper日志路径报错

CDH挂载在/上，硬盘容量过小，把日志目录换到/home，更改日志路径为/home/var/log/xxx，结果出现如下错误： log4j:ERROR setFile(null,true) call failed.java.io .FileNotFoundException: /home/var/log/zookeeper/zookeeper-cmf-zookeeper-SERVE

2017-10-23 16:53:21 1752

原创 cloudera cdh编译carbondata

carbondata 编译，官方的git文档上只说明了如何使用原生spark编译，我们使用的是cdh版，所以编译命令是：mvn -DskipTests -Pspark-1.6 -Dspark.version=1.6.0-cdh5.10.2 clean package遇到一个坑是spark-hive-thriftserver，因为spark版本是1.6.0-cdh5.10

2017-10-12 21:52:18 1020

原创 Failed to find metadata store by url: kylin_metadata@hbase

CDH版本：5.10，Kylin版本：2.10CDH集群重装后启动Kylin实例遇到如下问题：Exception in thread "main" java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@hbaseat org.apache.kylin.common

2017-09-25 12:42:54 7855 4

原创 Cloudera CDH 5不关闭防火墙方案

如果CDH集群需要和外界连接，往往会害怕不启动防火墙会把端口暴露在危险之中。所以可以启用iptables并设置开启端口白名单。CDH官网提供了详细的端口列表：https://www.cloudera.com/documentation/cdh/5-1-x/CDH5-Installation-Guide/cdh5ig_ports_cdh5.htmlhttps://www.clou

2017-02-08 16:33:23 2023

原创 Flume使用Hive作为Sink总结

项目中打算使用Flume把数据直接传到Hive表而不是HDFS上。使用Hive作为Sink，Flume版本为1.7.0。开始时候遇到Failed connecting to EndPoint错误，Caused by: org.apache.hive.hcatalog.streaming.StreamingException: Cannot stream to table that has no

2017-01-11 19:17:51 11642 2

原创 Apache Kylin实践

整理了下近期比较优秀的关于Apache Kylin的实践和博客：Apache Kylin在百度地图的实践http://www.infoq.com/cn/articles/practis-of-apache-kylin-in-baidu-map摘要：百度基于Kylin的二次开发管理监控系统以及Cube优化Apache Kylin在云海的实践http://www.c

2017-01-10 13:33:38 4108

原创从Apache Phoenix4.7.1升级4.8.1报错Cluster is being concurrently upgraded from 4.7.x to 4.8.x.

在CDH 5.7集群上升级Phoenix，原来是4.7.1，现在打算升级4.8.1。步骤就按照官方文档上的说明，首先下载4.8.1的bin压缩包，解压后把server.jar(为了保险把core和client)放到hbase的lib目录下替换原有的4.7.1 jar包。CDH环境下是/opt/cloudera/parcels/CDH/lib/hbase/lib。最后重启hbase。

2016-10-25 15:29:59 2248 1

原创 SQOOP从Oracle导入数据到Hive时hang up在MapReduce作业过程

打算从Oracle一个模式中导入数据到Hive，打算导入的数据都存在视图里。其他几个视图的导入过程都很顺利，有一个小坑是如果没有设置split-by column选项，只能用一个mapper(--num-mappers 1)。基本语句为sqoop import --hive-import --connect jdbc:oracle:thin:@//192.168.1.1:1521/or

2016-10-21 14:38:34 1347

原创 Apache Kylin使用总结

Apache Kylin是一款以预处理Cube来提高查询速度的OLAP引擎。首先对维度表做个简单的介绍。麒麟只支持星型模型，也就是说一个事实表加上多个维度表。维度表不存在支架型结构。维度表存放的大多是描述性字段，用于筛选。其实以SQL的角度来看就是group by/filter through where 的效果。对于一个有N个维度的Cube，可以构建2的N次方个Cuboid。最开始对

2016-09-07 22:34:30 8572

原创 CDH5.4.10 在Hive上执行Update,Delete操作报错Attempt to do update or delete using transaction manager that doe

在Hive上执行事务操作(增、删、改、查)出现FAILED: SemanticException [Error 10294]: Attempt to do update or delete using transaction manager that does not support these operations.错误已被周知的是Hive从0.14版开始支持事务操作，而CDH5.4.10总

2016-08-24 16:35:40 7268 1

原创 Apache Kylin部署在CDH 5.4上报错Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescr

在CDH 5.4.10集群上部署Apache Kylin，启动后访问7070端口屏幕空白，说明服务器启动但是网站没有起来。查看了下日志，报了错：Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescriptor.addFamily(Lorg/apache/hadoop/hbase/HColumnD

2016-08-09 11:06:28 5301 3

翻译 Hive Hook类型

Hive在程序启动不同阶段设置了hook供用户自定义不同的行为一共有四个阶段提供Hook以供注入定制化代码Driver run hooks (Pre/Post)Semantic analyizer hooks (Pre/Post)Execution hooks (Pre/Failure/Post)Client statistics publisherHive的运行流程为：

2016-07-20 17:57:57 3938

转载 Unknown lifecycle phase "mvn". You must specify a valid lifecycle phase or a goal

用Eclipse集成的Maven打包项目时按照网上所述输入 mvn clean package遇到Unknown lifecycle phase "mvn". You must specify a valid lifecycle phase or a goal in the format : or :[:]:. Available lifecycle phases are: validate,

2016-07-04 13:37:56 19420 3

转载 User root is not allowed to impersonate anonymous

使用HiveServer2 and Beeline模式运行时，启动好HiveServer后运行beeline -u jdbc:hive2://localhost:10000 -n root 连接server时出现java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.

2016-05-24 13:32:01 12069

原创 org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state wo

Hive单机启动遇到metastore 未初始化错误，Exception in thread "main" java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType ...) to cre

2016-05-23 18:06:26 17468 1

转载一次使用Eclipse Memory Analyzer分析Tomcat内存溢出

最近在研究JVM，Eclipse里面有内存使用情况的插件，叫Eclipse Memory Analyzer。网上这篇文章对这个插件有着详细的描述。原文地址：http://tivan.iteye.com/blog/1487855前言在平时开发、测试过程中、甚至是生产环境中，有时会遇到OutOfMemoryError，Java堆溢出了，这表明程序有严重的问题。我

2016-03-23 22:27:52 425

原创 SVN There are unfinished transactions detected

Eclipse SVN commit遇到There are unfinished transactions detected 错误在Team Synchronizing View中右键项目 -> Local -> Cleanup，清除历史记录后问题解决

2016-03-21 16:29:10 11139

原创 Flume错误

Flume运行遇到Exception in thread "SinkRunner-PollingRunner-DefaultSinkProcessor" java.lang.OutOfMemoryError: GC overhead limit exceeded错误网上搜了下，是JVM Size太小，解决方法：1. ps -aux|grep flume 查看刚才启动的flume进程，发

2016-03-16 17:17:24 760

转载 Kryo 为什么比 Hessian 快

Kryo 为什么比 Hessian 快

2016-02-23 17:13:59 735

转载 Hadoop平台架构--硬件篇

还记得刚接触Hadoop的时候,还是1.x版本,硬是在自己的4GB内存上面弄了3个虚拟机学习,条件有些艰苦,Hadoop测试集群搭建不需要太多考虑,随着毕业开始进入企业,在企业中实践Hadoop,特别是一定规模的集群,逐渐涉及到硬件资源,网络规划,操作系统,软件栈等一系列问题！对于一个没有经验的小白来说,还是比较复杂的,还好公司有linux大牛配合上我从各种技术网站博客吸收的微薄知识，从0开始

2016-01-30 18:55:48 600

转载 Hadoop平台架构--存储篇

刚刚开始使用Hadoop集群的时候,目录没有有个规范,大家都根据自己的喜好创建各种不同的目录,权限控制也没有开启,随着应用越来越多，使用的人员也多了起来，导致目录混乱,终于在新规划集群的时候,对目录做了规范和权限控制.下面简单介绍一下我们HDFS目录规范和HDFS存储规划,希望对初建Hadoop集群的同学能有一些帮助。简介Hadoop的目的是基于一种新的方法来存储和处理复杂

2016-01-30 18:54:50 517

原创 Eclipse导入Gobblin源码

Gobblin是LinkedIn一个开源的多源数据摄取框架，用Gradle打包。项目地址为：https://github.com/linkedin/gobblin在Eclipse中没有Gradle的插件，因此需要在Eclipse Market palce里下载Gradle插件。地址为：https://marketplace.eclipse.org/content/gradle-inte

2016-01-13 13:32:35 1250