1 大数据AIRDE

尚未进行身份认证

我们遇到什么困难,都不要怕,微笑着面对它。 消除恐惧的最好办法就是面对恐惧。 加油!奥力给!没毛病!干就完了! 只为成功找方法,不为失败找借口!

等级
TA的排名 4w+

Apache Hue 集成HDFS

注意修改完HDFS相关配置后,需要把配置scp给集群中每台机器,重启hdfs集群。修改core-site.xml配置<!--允许通过httpfs方式访问hdfs的主机名 --><property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value>&l...

2019-12-06 19:22:25

Apache Hue 安装

上传解压安装包http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.14.0.tar.gz编译初始化工作联网安装各种必须的依赖包yum install -y asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi...

2019-12-06 17:47:57

Apache Sqoop 数据导出

Sqoop数据导出将数据从Hadoop生态体系导出到RDBMS数据库前,目标表必须存在于目标数据库中。export有三种模式:默认操作是从将文件中的数据使用INSERT语句插入到表中。更新模式:Sqoop将生成UPDATE替换数据库中现有记录的语句。调用模式:Sqoop将为每条记录创建一个存储过程调用。以下是export命令语法:$ sqoop export (generic-arg...

2019-12-05 22:13:56

Hive Join详细用法

内连接 inner joinINNER JOIN基本语法如下:SELECT tableA.column1, tableB.column2...FROM tableA INNER JOIN tableBON tableA.common_field = tableB.common_field;左外连接 left joinLEFT JOIN的基本语法如下:SELECT tabl...

2019-12-05 18:07:15

Apache Flume 实现过滤功能

A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中,并且在hdfs中输出的目录指定为:/source/logs/access/20180101/**/source/logs/nginx/20180101/**/sou...

2019-12-05 17:09:09

Apache Flume 负载均衡 load balancer

负载均衡负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor 能够实现 load balance 功能。如下图Agent1 是一个路由节点,负责将 Channel 暂存的 Event 均衡到对应的多个 Sink组件上,而每个 Sink 组件分别连接到一个独立的 Agent 上,示例配置,如下所示:在此处通过三台...

2019-12-05 16:34:52

Apache Flume failover高可用性

在完成单点的Flume NG搭建后,下面搭建一个高可用的Flume NG集群,架构图如下所示:图中,可以看出,Flume的存储可以支持多种,这里只列举了HDFS和Kafka(如:存储最新的一周日志,并给Storm系统提供实时日志流)。角色分配Flume的Agent和Collector分布如下表所示:名称HOST角色Agent1hadoop01Web Serve...

2019-12-05 16:11:07

Apache Flume 两个Agent合作

第一个agent负责收集文件当中的数据,通过网络发送到第二个agent当中去第二个agent负责接收第一个agent发送的数据,并将数据保存到hdfs上面去第一步:hadoop02节点安装flumescp -r apache-flume-1.8.0-bin/ hadoop02:$PWD第二步:hadoop01开发flume配置文件cd /export/servers/apache-fl...

2019-12-05 15:35:44

Hadoop Federation

单NameNode的架构使得HDFS在集群扩展性和性能上都有潜在的问题,当集群大到一定程度后,NameNode进程使用的内存可能会达到上百G,NameNode成为了性能的瓶颈。因而提出了namenode水平扩展方案-- Federation。Federation中文意思为联邦,联盟,是NameNode的Federation,也就是会有多个NameNode。多个NameNode的情况意味着有多...

2019-12-05 09:14:19

Apache Flume 采集目录和文件到HDFS

1.采集目录到HDFS采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素采集源,即source——监控文件目录 : spooldirsource和sink之间的传递通道——channel,可用file channel 也可以用内存channel下沉目标,即sink——HDFS文件系统 : hdfs s...

2019-12-05 08:03:41

Apache Flume 安装

Flume安装上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.8.0-bin.tar.gz然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME先用一个最简单的例子来测试一下程序环境是否正常1、先在flume的conf目录下新建一个文件vi netcat-logger.conf# 定义这个agen...

2019-12-05 07:52:07

Apache Flume 概述

Apache Flume概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。F...

2019-12-04 21:17:03

Apache Sqoop 数据导入

数据链接:https://pan.baidu.com/s/17DgifY7j-iLsGQW91N_zJw提取码:psrd步骤“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据下面的语法用于将数据导入HDFS。$ sqoop import (generic-args) (import-args)Sqoop测试表数据在m...

2019-12-02 09:37:31

Apache Sqoop是什么

Sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具,Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:Mysql、O...

2019-11-29 16:28:42

Apache Sqoop的安装

Sqoop1.4.7安装官网地址https://sqoop.apache.org/下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/安装sqoop的前提是已经具备java和hadoop的环境。1,上传并解压2,配置文件修改:cd $SQOOP_HOME/confmv sqoop-env-template.sh ...

2019-11-29 16:28:09

大数据考核题整理(4) Hive相关

1、什么是Hive是一个基于hadoop的数据仓库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能。2、Hive的意义(最初研发的原因)背景:hadoop是个好东西,但是学习难度大,成本高,坡度陡。意义(目的):降低程序员使用hadoop的难度。降低学习成本。3、Hive的内部组成模块,作用分别是什么元数据:描述数据的数据(属性)表名称、字段名,字段的数据类型。内...

2019-11-29 08:22:32

Hive 表的优化

表的优化JoinJoin原则:1)小表Join大表将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用Group让小的维度表(1000条以下的记录条数)先进内存。在map端完成reduce。select count(distinct s_id) from score;select count(s_id) from scor...

2019-11-28 22:10:05

Hive 推测执行

推测执行在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其他所有任务已经运行完毕),则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生,Hadoop采用了推测执行(Speculative Execution)机...

2019-11-28 21:56:17

Hive JVM重用

JVM重用JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使...

2019-11-28 21:53:29

Hive 严格模式

严格模式Hive提供了一个严格模式,可以防止用户执行“高危”的查询。通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。<property> <name>hive.mapred.mode</name> ...

2019-11-28 21:43:15

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周上午根据用户上周周三的博文发布情况由系统自动颁发。