自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 cdh6.3.2+kerberos+sentry+hue+hive 库表权限管理

作为个人笔记主要关注两个点1、sentry中的sentry.service.admin.group必定与hue界面添加的用户及用户组名称保持一致;2、在hue上的安全性设置中,role角色中如果添加了server=sentry_server权限,意味着所有db都会有权限。这个权限很好用,如果hue用户没有某个库、表的权限,那就不展示该表、库。很适用生产数据平台。...

2020-04-22 16:13:30 1100

原创 继续排坑(一,数仓统一规则)

在做数据仓库的时候,最关键、最首要的工作就是导数据!导数据的时候,最关键、最首要的工作就是数据统一规则!1、空数据2、字符串中空数据3、脏数据4、字段名统一5、字段类型统一...这里要讲的是两个坑:one:第一个坑比较常见,就是第五个统一规则里面出来的,1)mysql的字段类型是tinyint(1) ,在用sqoop导数的时候,连接数据库就要有设置tinyInt...

2019-07-12 17:35:46 458

原创 sqoop 冷知识

sqoop中,我们都知道可以指定关系型数据库字段导入hive有两种方式:第一种:用query查询语句把结果存放在hdfs第二种:用column指定字段到hdfs表面看似没差别,但这两种有底层区别,前者是直接结果字段为指定字段,后者则是先从关系型数据库查询所有,再获取指定字段存入hdfs作为结果集。(在执行日志中,可以看到首先打印出来的是INFO manager.Sql...

2019-07-01 14:55:32 162

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——hue+hive数据库权限

由于数据库用于多个部门,每个人都可以对数据库进行增删改查,需要对数据库的操作进行权限限制。在hue界面创建登录用户hivetest在hive-site.xml的Hive和HiveServer2高级配置中添加配置<property><name>hive.security.authorization.enabled</name><value&...

2019-04-12 09:33:49 229

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——linux系统安装rz/sz

编译安装root 账号登陆后,依次执行以下命令:cd /tmpwget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gztar zxvf lrzsz-0.12.20.tar.gz && cd lrzsz-0.12.20./configure && make && make insta...

2019-04-12 09:32:25 130

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——hue增加spark交互式

需要准备安装包livy-0.5.0-incubating-bin.tar.gzhue.ini配置[desktop]app_blacklist=[spark]livy_server_host=master.dffl.comlivy_server_port=8998livy_server_session_kind=yarn[notebook]show_notebooks=tr...

2019-04-12 09:31:22 210

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——bug解决方案

关于spark2生成部署失败首先我们需要找到此处日志目录,并不是/opt/cloudera-manager/cm-5.13.3/log。针对使用tar.gz包进行离线安装的目录,日志应该在:/opt/cloudera-manager/cm-5.13.3/run/cloudera-scm-agent/process/ccdeploy_spark-conf_etcsparkconf.cloud...

2019-04-12 09:29:31 332

原创 后来我使用了CM5.13.3spark2kafka3.1.1解决了很多疑难杂症——搭建

主机系统centos7系统安装(5台)安装前准备JDKjdk-8u191-linux-x64.tar.gzscala-2.11.8.tgzClouderaManager安装包cloudera-manager-centos7-cm5.13.3_x86_64.tar.gzCDH相关包CDH-5.13.3-1.cdh5.13.3.p0.2-el7.parcelCDH-5.13.3-1...

2019-04-12 09:19:54 430

原创 hdp VS cdh 神坑的队列——调度器

前段时间,重建集群,使用的是hdp一套环境。先前都是用的cdh版本,可谓被虐的可以!先来说说调度器!调度器有那么两个大类,一种是排队型的(FIFO Scheduler(这款无需配置)、Capacity Scheduler),一种是插队型的(Fair cheduler)。那么我们作为大数据开发,数据仓库使用者,作为一个文明人,当然必须要让小孩、老人、孕妇插队了。问题来了,找了大半天插...

2018-11-28 17:54:58 1641 2

原创 各位同志,关于c3p0报错:Acquisition Attempt Failed!!! Clearing pending acquires. While trying to acquire a nee

网上很多都有让检查配置文件有没有写错    &lt;property name="jdbcUrl"&gt;jdbc:mysql://localhost:3306/test&lt;/property&gt;    &lt;property name="driverClass"&gt;com.mysql.jdbc.Driver&lt;/property&gt;    &lt;property name

2018-03-20 14:47:58 24003 13

转载 面试专供

http://www.cnblogs.com/cxzdy/category/776252.html

2017-11-01 10:15:37 234

转载 HBase 在HDFS 上的目录树

总所周知,HBase是天生就是架设在 HDFS上,在这个分布式文件系统中,HBase是怎么去构建自己的目录树的呢?这里只介绍系统级别的目录树。一、0.94-cdh4.2.1版本系统级别的一级目录如下,用户自定义的均在这个/hbase下的一级子目录下/hbase/-ROOT-/hbase/.META./hbase/.archive/hbase/.corrupt

2017-10-30 10:39:02 386

原创 有关大数据框架的一些杂乱bug

1、数据分片用scala分片每行数据时,遇到最后几个字段为空值,需要用到split函数中的参数arg1split(arg0:String, arg1:Int)1、当arg1 > 0时,它限制arg0最多成功匹配arg1.length() -1次,也就是说字符串最多被分成arg1个子串。此时split会保留分割出的空字符串(当两个arg0连续匹配或者arg0在头尾匹配,会产生空字符串

2017-09-13 13:41:17 464

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除