自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Hadoop_SC的博客

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能调优。

  • 博客(429)
  • 收藏
  • 关注

原创 从入门到精通 - Fayson带你玩转CDH

Fayson保持每天推一篇文章,本文随之每天更新。以下所有文章均为超链接,可以直接点击文章名跳转。还没附上超链接的文章是还没上传的,会再后续更新后陆续补上1.规划设计1.1.on-premise部署规划0001-《CDH网络要求(Lenovo参考架构)》0062-《如何为Hadoop集群选择正确的硬件》0158-《如何给Hadoop集群划分角色》1.2.on private c...

2019-09-22 01:21:06 3757

原创 Cloudera私有云CML动手实验营_2023-07-14

在本次研讨会中,我们将向您介绍World Wide Telco organization的一个真实案例。该企业有许多机器学习用例,今天重点关注一个特定场景的用例。在该用例中,企业试图减少客户的流失(即取消),并且大多数取消来自企业的呼叫中心。在本次的动手实操中,客户Francisco会打电话表示取消,呼叫中心应用程序将根据Francisco的取消来预测取消原因,向WW Telco的客户经理Stefan提供建议。然后,他将向Francisco提供报价,用户将选择接受或不接受。

2023-07-12 17:03:26 382

原创 0798-7.1.2-如何在Redhat7.8中安装CDP DC

Fayson的github: https://github.com/fayson/cdhproject推荐关注微信公众号:“Hadoop实操”,ID:gh_c4c535955d0f,或者扫描文末二维码。1 文档编写目的CDP DC是Cloudera与Hortonworks合并后,第一个融合CDH和HDP所有组件的on-premise版本,CDP Data Center主要由Cloudera Runtime构成,Cloudera Runtime由超过35个开源项目组成,当然CDP Data Cent.

2020-08-11 16:25:11 1273

原创 0359-模型训练和部署-Iris数据集

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在前面的文章Fayson介绍了关于《CDSW1.4的新功能》、《Hadoop之上的模型训练 - CDSW1.4新功能模块》、《CDSW1.4的E...

2020-03-08 23:21:39 649

原创 0358-CDSW1.4的Models功能-创建和部署模型(QuickStart)

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在前面的文章Fayson介绍了关于《CDSW1.4的新功能》、《Hadoop之上的模型训练 - CDSW1.4新功能模块》、《CDSW1.4的E...

2020-03-08 23:20:34 771

原创 0356-CDSW1.4的Experiments功能使用

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在前面的文章Fayson介绍了关于《CDSW1.4的新功能》及《Hadoop之上的模型训练 - CDSW1.4新功能模块》,本篇文章Fayson...

2020-03-08 23:19:20 358

原创 0355-Hadoop之上的模型训练 - CDSW1.4新功能模块

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.概述CDSW1.4提供了一个新的实验室模块,可以让数据科学家运行批处理的实验。从而跟踪代码版本,输入参数和输出指标与文件。如下图所示,这个功能可以帮助数据科...

2020-03-08 23:18:36 456

原创 0354-如何使用Java调用CM的API动态配置Yarn资源池

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的用户在使用CDH集群大数据平台时会有需求在自己的统一管理平台上通过API接口能够动态的设置Yarn资源池,Cloudera Manager提供了...

2020-03-08 23:17:48 1128 1

原创 0353-如何使用curl命令调用CM的API动态配置Yarn资源池

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在使用CDH集群大数据平台过程中,用户会有需求在自己的统一管理平台上通过API接口能够动态的设置Yarn资源池,Cloudera Manager...

2020-03-08 23:17:03 841

原创 0352-Spark2Streaming读非Kerberos环境的Kafka并写数据到Kudu

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在前面的文章Fayson介绍了在Kerberos环境下《Spark2Streaming读Kerberos环境的Kafka并写数据到Kudu》,本...

2020-03-08 23:15:16 397

原创 0350-如何通过CM将CDSW从1.3升级至1.4

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的随着CDSW新版本的发布也提供了更多的新功能,具体参考Fayson前面文章《CDSW1.4的新功能》,本篇文章Fayson主要介绍如何通过Clo...

2020-03-08 23:14:25 375

原创 0414-05-如何为Hive集成AD认证

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Activ...

2020-03-08 23:08:29 525

原创 0415-06-如何为Impala集成AD认证

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Activ...

2020-03-08 23:07:42 293

原创 0416-07-如何为Hue集成AD认证

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Activ...

2020-03-07 23:24:31 593

原创 0417-08-如何为Navigator集成Active Directory认证

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Activ...

2020-03-07 23:23:22 327

原创 0418-09-如何为CDSW集成Active Directory认证

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Activ...

2020-03-07 23:22:43 315

原创 0419-如何将CDH中集成的RedHat7版Kerberos切换至Active Directory的Kerberos认证

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在前面Fayson介绍了多篇关于Window Server上安装的Active Directory服务,由于Active Directory服务...

2020-03-07 23:21:59 441

原创 0420-如何为CDH集成Active Directory的Kerberos认证

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在前面Fayson介绍了多篇关于Window Server上安装的Active Directory服务,由于Active Directory服务...

2020-03-07 23:21:14 631

原创 0421-如何在不重启Yarn服务的情况下启用DEBUG日志记录

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的为了解决Yarn问题,需要为不同的服务启用调试。但是,在生产集群中,可能无法立即重启Yarn服务。本篇文章Fayson主要介绍如何在不重启Yar...

2020-03-07 23:20:25 442

原创 0422-如何为Hue添加自定义Banner

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在用户使用Hue时,如果需要在Hue界面设置一些提示等信息(如:“Hue用户申请及权限放通,请联系xxx”)时。那这是我们可以通过配置在Hue界...

2020-03-07 23:19:47 327

原创 0423-11-如何为Cloudera Manager集成Active Directory认证

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的Fayson在前面一系列文章中介绍了AD的安装及与CDH集群中各个组件的集成,包括《01-如何在Window Server 2012 R2搭建A...

2020-03-07 23:18:56 442

原创 0424-14.如何为Cloudera Manager集成OpenLDAP认证

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的Fayson在前面一系列文章中介绍了OpenLDAP的安装及与CDH集群中各个组件的集成,包括《1.如何在RedHat7上安装OpenLDA并配...

2020-03-07 23:17:18 347

原创 0746-5.16.2-Impala中查询监控状态检查告警解析

作者:唐辉文档说明在使用impala 的过程中,在CM页面经常能看到IMPALA时, 经常看到IMPALA DAEMON 出现如下告警The health test result for IMPALAD_QUERY_MONITORING_STATUS has become bad: There are 1 error(s) seen monitoring executing queries,...

2020-03-07 23:14:33 2386

原创 0754-5.16.2-Hive中使用Substr拆分含中文乱码字符串报错异常分析

作者:余枫问题描述从上游Oracle数据库中导出的携带中文乱码且编码集为ISO-8859-1的数据文件,将导出的数据文件导入到Hive表,在原始表的基础上通过创建视图,按照与上游接口约定的定长的方式拆分字段时报错,异常内容如下:java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive ...

2020-03-01 15:13:50 896

原创 0753-6.3.3-如何在Redhat7.6安装CDH6.3.3

作者:段自强文档编写目的CDH6.3.3于2020年2月4日发布,从该版本开始,Cloudera将不再提供CDH免费版,用户只能通过试用或者购买正式许可证才能够下载CDH安装包及使用,参考《0743-Cloudera Enterprise 6.3.3发布》。这篇文档主要介绍了在Redhat7.6环境下安装CDH6.3.3集群的详细步骤。操作环境1.操作系统:RedHat7.62.集群...

2020-03-01 15:13:19 1869 2

原创 0752-7.0.3-如何在CDP DC7.0.3安装Ranger

Fayson的github:https://github.com/fayson/cdhproject文档编写目的在前面的文章中,Fayson介绍了《如何在Redhat7.6中安装CDP DC7.0.3》和《如何在CDP DC7.0.3集群部署Flink1.9.1》,基于前面的集群环境,本篇文章Fayson主要介绍如何在CDP DC7.0.3集群安装Ranger。文档概述1.如何在...

2020-03-01 15:12:47 843

原创 0751-7.0.3-如何在CDP DC7.0.3中启用Kerberos

Fayson的github:https://github.com/fayson/cdhproject文档编写目的在前面的文章中,Fayson介绍了《0733-7.0.3-如何在Redhat7.6中安装CDP DC7.0.3》,这里我们基于这个环境开始安装Kerberos。Kerberos是一个用于安全认证的第三方协议,并不是Hadoop专用,你可以将其用于其他系统。它采用了传统的共享秘钥...

2020-03-01 15:12:16 684

原创 0750-7.0.3-如何在CDP DC7.0.3集群部署Flink1.9.1

文档编写目的在前面的文章中,Fayson介绍了《如何获得Cloudera的Flink Parcel包》和《如何在Redhat7.6中安装CDP DC7.0.3》,基于前面的集群环境,本篇文章Fayson主要介绍如何在CDP DC7.0.3集群中使用Parcel的方式安装Flink1.9.1。文档概述1.如何在CDP DC集群安装FLink1.9.12.运行一个Flink示例验证测试...

2020-03-01 15:11:49 1210

转载 Flink 1.10 新特性研究

Flink 1.10 release 文档描述了一些比较重要的点,比如配置、操作、依赖、1.9 版本和 1.10 版本之间的区别,如果你准备将 Flink 升级到 1.10 版本,建议仔细看完下面的内容。集群和部署•文件系统需要通过插件的方式加载•Flink 客户端根据配置的类加载策略加载,parent-first 和 child-first 两种方式•允许在所有的 TaskManager 上...

2020-03-01 15:11:01 574

原创 0749-5.14.4-如何实现Kafka Broker节点磁盘数据Balance

文档编写目的Kafka的数据目录可以配置一个或多个,通常这些目录是分布在不同的磁盘上用于提高K集群的读写性能,同时也可以提升消息的存储空间。实际的生产环境中随着消息量的增加,Kafka存储的消息量过大,导致磁盘空间爆满,此时在不扩容Broker的情况下,我们通过对已有节点挂载磁盘的方式扩容Kafka的存储。在扩容存储后会发现已有Topic的Partition并不会自动均衡到新的磁盘上,依然没有...

2020-03-01 15:09:00 855 1

原创 PySpark启动过程解密

原文作者:李海强,来自平安银行零售大数据团队​前言作为数据工程师,你可能会碰到过很多种启动PySpark的方法,可能搞不懂这些方法有什么共同点、有什么区别,不同的方法对程序开发、部署有什么影响,今天我们一起分析一下这些启动PySpark的方法。以下代码分析都是基于spark-2.4.4版本展开的,为了避免歧义,务必对照这个版本的Spark深入理解。启动PySpark的方法启动PySp...

2020-03-01 15:08:14 1246

原创 Calcite技术研究

原文作者:王长春,来自平安银行零售大数据团队​概述Apache Calcite是一个基础的软件框架,它提供了查询处理、查询优化以及查询语言支持的能力。很多流行的开源数据处理系统例如Apache Hive,Apache Storm,ApacheFlink,Druid等都采用了它。下图是采用Apache Calcite的开源数据处理系统,以及Calcite能连接到的数据源。大多数数据处理系...

2020-03-01 15:07:43 1391

原创 0748-5.14.4-Kafka的扩容和缩容

文档编写目的在Kafka集群资源使用已超出系统配置的资源时,或者有大量资源闲置造成资源浪费的时候,需要分别通过扩容Kafka和缩容Kafka来进行调整。本篇文章Fayson主要介绍如何进行Kafka的扩容和缩容,以及变更后的Kafka集群如何进行负载均衡的操作。测试环境:1.Redhat7.22.采用root用户操作3.CM为5.16.2,CDH为5.14.44.Kafka版本为0...

2020-03-01 15:06:54 2381

原创 如何在CDH5.16.2中部署Apache Dolphin Scheduler 1.2.0

作者:黄立,长安汽车Apache Dolphin Scheduler组件介绍分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。官网 : https://dolphinscheduler.apache.org/en-us/Github : https://github.com/apache/incubator-do...

2020-02-22 23:17:09 1814 1

原创 0747-5.16.2-YARN日志聚合目录说明

作者:朱超杰文档编写目的日志聚合是YARN提供的日志集中化管理功能,它能将运行完成的Container任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个集中式存储和分析机制。默认情况下,Container任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。本文需要介绍的yarn.nodemanager.remote-app-log-dir配置是...

2020-02-22 23:16:14 992

原创 PySpark工作原理

原文作者:李海强,来自平安银行零售大数据团队前言Spark是一个开源的通用分布式计算框架,支持海量离线数据处理、实时计算、机器学习、图计算,结合大数据场景,在各个领域都有广泛的应用。Spark支持多种开发语言,包括Python、Java、Scala、R,上手容易。其中,Python因为入门简单、开发效率高(人生苦短,我用Python),广受大数据工程师喜欢,本文主要探讨Pyspark的工作原...

2020-02-22 23:15:52 1218

翻译 重磅 | Hadoop的第二个十年

原文链接:https://medium.com/swlh/hadoop-evolution-decade2-ca46e5514713作者:Arun C MurthyCloudera 现任CPO,原Hortonworks联合创始人译者:刘岩Cloudera 解决方案工程师理解Cloudera Data Platform的一个核心的关键点,是需要从架构层面上,通过对比Hadoop的上一...

2020-02-22 23:15:03 374

原创 一步一步理解 Impala query profile(四)

翻译:九州暮云作者:Eric Lin (林晨辉), Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学, Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise(现为Experian的子公司)和Effective Measure,担任高级工程师,负责设计,开发和管理用于采集, 处理和报告网络数据的平台(基于PHP,Java和CDH)。现任职Clo...

2020-02-22 23:13:58 927

原创 Apache Flink 1.10.0 重磅发布,年度最大规模版本升级!

翻译|宋辛童校对|李钰Apache Flink 社区迎来了激动人心的两位数位版本号,Flink 1.10.0 正式宣告发布!作为 Flink 社区迄今为止规模最大的一次版本升级,Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现,包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持(...

2020-02-22 23:13:28 520

原创 0425-如何清理Sqoop脚本产生的临时编译目录

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1.文档编写目的在使用Sqoop命令进行数据抽取时,执行的抽数脚本会在/tmp/sqoop-${user}/compile目录下产生临时的编译文件,脚本执行成功...

2020-02-22 23:12:33 912 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除