3 邢为栋

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 13w+

CDH6.3.2集群启用授权

本文描述CDH6.3.2集群安装Sentry及配置。参考:https://docs.cloudera.com/documentation/enterprise/6/latest/topics/sentry.html操作系统:Centos7.8。安装Sentry安装要求集群实现Kerberso认证。当然不启用Kerberos也能用,不过不建议。安装使用mysql作为Sentry数据库,确保已执行以下命令:CREATE DATABASE sentry DEFAULT CHARACTER SET

2020-07-14 13:58:19

CDH6.3.2集成FreeIPA

准备系统配置Cloudera Manager Server节点需要安装IPA admin libraries。命令如下:yum install ipa-server配置FreeIPAFreeIPA的krb5.conf默认配置包含如下内容:default_ccache_name = KEYRING:persistent:%{uid}CDH不支持keyring credential cache,所以需要注释此配置。另外,需要增加以下配置:renew_lifetime = 7drenewa

2020-07-14 13:56:33

Centos7部署FreeIPA

FreeIPA简介FreeIPA官网FreeIPA是用于Linux / UNIX网络环境的集成身份和验证解决方案。FreeIPA服务通过存储有关用户,组,主机和其他对象的数据来提供集中的身份验证,授权和帐户信息,这些数据对于管理计算机网络的安全性是必需的。FreeIPA建立在知名的开源组件和标准协议的基础上,非常注重简化管理以及安装和配置任务的自动化。这些组件和协议包括MIT Kerberos,389 Directory Server,SSSD等。简单来说,FreeIPA是对这些组件和协议进行了一层

2020-07-14 13:51:45

Cloudera Manager部署StreamSets

通过Cloudera Manager部署StreamSets。环境:服务版本操作系统CentOS7.8Cloudera Manager6.3.1CDH6.3.2StreamSets3.16.1部署步骤:1、安装StreamSets Custom Service Descriptor(CSD)。2、手动安装parcel和校验文件。3、分发和激活StreamSets Parcel。4、配置StreamSets服务。下面将安装步骤进行详细说明。安

2020-07-14 11:35:44

CDH6.3.2安装部署(Ubuntu)

ubuntu1804部署CDH6安装前准备https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/installation_reqts.html配置网络名(以foo-1为例)1、修改主机名sudo hostnamectl set-hostname foo-1.example.com2、编辑 /etc/hosts 文件1.1.1.1 foo-1.example.com foo-12.2.2.2 foo-2.exam

2020-07-06 09:22:17

概念漂移和数据漂移

https://www.explorium.ai/blog/understanding-and-handling-data-and-concept-drift/https://www.cmswire.com/big-data/big-datas-hidden-scourge-data-drift/

2020-07-03 09:29:36

CDH Hue连接Hbase报错TSocket read 0 bytes

问题描述安装好CDH集群后,在Hue中查看HBase信息时,Hue界面报错如下:Api 错误:TSocket read 0 bytesHue日志报错:exceptions_renderable ERROR Potential trace: [('/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hue/apps/hbase/src/hbase/api.py', 46, 'query', 'return getattr(self

2020-07-01 15:01:51

安装CDH Hive报错

在使用Cloudera Manager安装Hive的时候,报错如下:Failed to retrieve schema tables from Hive Metastore DB,Not supported操作系统是Centos7.8,Cloudera Manager版本是6.3.1,CDH版本是6.3.2。Hive元数据库使用MariaDB,通过yum安装。先说问题原因,这个问题是Mysql JDBC驱动包导致的,使用yum安装的驱动包不可用。下载并使用较新版本的驱动包可解决这个问题。下载地

2020-06-30 17:32:20

StreamSets实时同步sqlserver数据到hbase

本文重点介绍使用StreamSets Data Collector实时同步SQL Server数据到HBase的方案及实现。不涉及StreamSets的具体介绍。关于StreamSets各种Stages的配置细节和性能优化,请自行学习官方文档。软件版本StreamSets Data Collector3.16.0SQL Server2008 R2 企业版HBase2.1.0+cdh6.3.2数据同步要点1、SQL Server中的目标库表开启CDC。2、构

2020-06-19 18:51:01

Spark程序性能优化之persist()

Spark的RDD Persistence,是一个重要的能力,可以将中间结果保存,提供复用能力,加速基于中间结果的后续计算,经常可以提高10x以上的性能。在PySpark的DataFrame中同样适用。主要方法是persisit()和cache()。官方说明请看RDD Persistence。需要注意的是,Spark Python API中,默认存储级别是MEMORY_AND_DISK。本文记录一下实际开发中使用Spark这个能力的一些心得,主要是PySpark。persist()和cache()该

2020-06-09 17:33:58

在Hue中创建一个Oozie工作流

本文描述在Hue中创建Oozie工作流的方法。操作用户:bigdata。准备建表假设在mysql中有一个用户信息表user,包含id,name,address三个字段。其中address字段存在字符串null。在hive创建对应的表:ods_user - 原始用户信息缓存表CREATE TABLE IF NOT EXISTS ods.ods_user(id STRING COMMENT '用户ID',name STRING COMMENT '用户名',address STRING COM

2020-06-04 18:31:58

在Hue中执行Sqoop的注意事项及问题解决

本文描述在Hue中执行Sqoop的方法和注意事项。包含部分遇到的问题和解决方法。Hue提供执行Sqoop命令的功能。使用方法与在终端执行Sqoop命令不同,在Hue中执行Sqoop命令,应该直接使用Sqoop的一级子命令。Sqoop在终端和Hue执行的区别在终端执行sqoop-import \ -D org.apache.sqoop.splitter.allow_text_splitter=true \ --connect jdbc:postgresql://postgresql_se

2020-05-26 10:56:06

spark-submit启动应用程序

本文介绍CDH6.3.2平台的spark-submit提交任务的方法。构建应用依赖当提交的应用程序有依赖时,可以使用spark-submit支持的方法分发依赖到整个集群。下面介绍Scala/Java和Python两类应用程序的依赖添加方法。构建Scala/Java应用依赖如果一个Scala/Java应用程序有依赖,可以将应用程序及其依赖构建成一个assembly jar,提交任务时,指定assembly jar即可。构建Python应用依赖如果一个Python应用程序有依赖,可以使用spark-

2020-05-26 10:41:52

Ubuntu19.10升级到20.04遇到的问题和解决方法

如题,Ubuntu19.10遵循系统提示升级到20.04之后,插入耳机听歌,发现没有声音输出。另外提一下,在未升级之前,Ubuntu19.10插入耳机后也是没有声音的,使用pavucontrol解决的,虽然每次插入耳机,都得进pavucontrol的配置选项里,调整为 模拟立体声 输出。升级之后,这个方法也不奏效了,于是开始在网上查找资料,虽然没有找到直接的解决方法,但是问题最后还是有声音了,不过我也没搞清楚具体的原因,所以这里记录一下修改的过程。修改一:参考:https://blog.csdn.n

2020-05-19 13:25:31

supervisor reload报错及恢复方法

更新supervisor服务配置后,执行supervisorctl reload,报错:error: <class 'xmlrpclib.Fault'>, <Fault 6: 'SHUTDOWN_STATE'>: file: /usr/lib64/python2.7/xmlrpclib.py line: 794解决:执行supervisord -c /etc/supervisor/supervisord.conf。...

2020-05-13 18:07:17

hive启用kerberos+sentry后超级用户无权限

hive启用了kerberos和sentry,使用hive超级用户hive通过beeline访问服务,无法进行角色创建,切换数据库等操作。报错如下:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Current user : hive is not allowed to add roles. User has to belong to ADMIN role and have it as

2020-05-13 17:21:37

CDH6.3.2集群集成MIT Kerberos

本文描述CDH6.3.2集群集成MIT Kerberos流程和遇到的问题以及解决方法。参考:https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/cm_sg_intro_kerb.html。MIT Kerberos安装文档请参考 Ubuntu安装MIT Kerberos。操作系统:Ubuntu18.04。创建Cloudera Manager主体登陆KDC主机。切换到root用户权限。执行kadmin.local进入kerb

2020-05-12 17:02:00

启用Kerberos的Hive操作失误解决

启用了kerberos,需要使用hive主体权限进行授权,但是开始没找到hive主体的keytab,于是决定使用kadmin.local的ktadd命令为hive主体创建一个keytab,创建之后,可以通过keytab使用hive主体权限了,通过beeline连接hive,但是报错GSS initiate failed,突然心一凉,直觉告诉我,玩脱了。。。查看hive服务,出现告警,查看metastore日志,报错如下:2020-05-09 15:43:34,632 ERROR org.apache.t

2020-05-12 10:47:16

Java Integer,Python int和系统最大整数值

问题在使用pyspark运行Spark ALS算法时,发生以下问题:java.lang.IllegalArgumentException: ALS only supports values in Integer range and without fractional part for columns userId and softId. Value 13466056057 was either out of Integer range or contained a fractional part th

2020-05-11 16:18:12

Ubuntu1804安装MIT Kerberos

Debian安装向导:http://techpubs.spinlocksolutions.com/dklar/kerberos.htmlUbuntu1804单机安装MIT Kerberos。准备修改主机名为krb.example.com/etc/hosts配置:127.0.0.1 localhost10.1.25.31 krb.example.com krb安装服务sudo apt install krb5-{admin-server,kdc}安装过程选项如下:Default K

2020-05-11 09:17:51

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。