1 m_target

尚未进行身份认证

暂无相关描述

等级
TA的排名 6w+

Flume监听

1.Flume监听命令的执行结果配置agent#############################################对各个组件的描述说明#其中a1为agent的名字#r1是a1的source的代号名字#c1是a1的channel的代号名字#k1是a1的sink的代号名字#########################################...

2019-09-18 11:36:21

Flume采集网络端口数据

1.Flume采集网络端口数据1.1定义flume的事件配置文件flume-nc.properties#flume-nc.conf:用于监听网络数据的flumeagent实例的配置文件#############################################对各个组件的描述说明#其中a1为agent的名字#r1是a1的source的代号名字#c1是...

2019-09-18 11:35:18

Flume安装

1.Flume简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统支持在日志系统中定制各类数据发送方,用于收集数据Flume提供对数据进行简单处理,并写到各种数据接收方2.FlumeOG与FlumeNGFlumeOG:Flumeoriginalgeneration,即Flume0.9x版本FlumeNG:Flumenextgenerati...

2019-09-18 11:33:42

Sqoop的基本操作

1.Sqoop的基本操作列出数据库sqoop-list-databases--connectjdbc:mysql://mini05:3306/--usernameroot--passwordroot列出所有的表sqoop-list-tables--connectjdbc:mysql://mini05:3306/up1--usernameroot--passw...

2019-09-18 11:31:21

Sqoop与安装

1.Sqoop简介ApacheSqoop是一种专门为hadoop和比如关系型数据库等结构化数据库之间的高效数据转换一种工具。数据的搬运工Sqoop在大多数自动化数据转换的过程中,依托于数据库相关的Schema描述信息,转换的过程是使用MapReduce来进行的Sqoop目前有两个版本,完全不兼容,Sqoop和Sqoop2.可以通过版本号来进行简单的区分,1.4.x为sqoop或sqo...

2019-09-18 11:30:42

Hbase的region操作

1.Hbase中的手动切分regionsplit'ns1:t1','row040'2.Hbase手动移动regionmove'f6e6164514db53d660c5414df1f3864e','mini05,16020,1539222350164'3.Hbase中row-key的设计行健的热点问题是由于行健相似、连续且数据量过大操作成单region的数据量过大,进...

2019-09-18 11:28:35

Hbase操作

1.Hbase的Shell操作列出所有的命名空间(相当于mysql中的showdatabases)list_namespace列出指定命名空间下的所有表list_namespace_tables‘ns_name’创建命名空间create_namespace‘ns1’创建表create‘ns1:t1’,‘f1’禁用表,因为删除表之前首...

2019-09-18 11:27:45

Hbase的体系结构

1.Hbase的体系结构(模型)1.1逻辑结构(模型)表(table)划分数据集合的概念,和传统的db中的表的概念是一样的行键(rowKey)对应关系数据库中的主键,作用就是唯一标示一行记录获取hbase中的一个记录(数据),要通过行键来获取行键是字节数组,任何字符串都可以作为行键表中的行根据行键(rowkey)进行排序,数据按照Rowkey的字节序(by...

2019-09-18 11:26:11

Hbase简介与安装

1.Hbase简介Hadoop-Database根据’bigtable’论文实现的分布式可扩展的大数据存储技术随机访问实时读写海量数据存储数'十亿行百万列’的数据高可靠性、高性能、面向列、可伸缩的分布式存储系统hbase的底层存储基于hdfs利用Zookeeper作为协调工具2.Hbase是什么?分布式开源数据库,基于hadoop分布式文件系统(HDFS)...

2019-09-18 11:24:08

Hive分区表,桶表,外部表

1.hive中的表的分类1.1内部表(管理表)createtablet3(namestring,.....);就是说数据的生命周期受表的控制,当表删除的时候,其数据文件一并被删除*2.2外部表create==external==table t4(namestring,....);就是说数据的生命周期不受表的控制,当表删除的时候,其数据文件并不会删除1....

2019-07-12 10:05:30

Hive基本操作

1.Hive中执行linux中的命令!linux命令;2.Hive中执行hdfs的操作dfs-ls/;3.Hive的模式本地模式开发阶段建议使用本地模式set hive.exec.mode.local.auto=true;集群模式(默认)生产环境建议使用集群模式4.Hive的访问cli(命令行)webui(很少用)api5....

2019-07-12 10:04:14

Hive安装

1.Hive的简介Hive是建立在hdfs上的数据仓库披着mapreduce外衣的工具(查询引擎)允许不熟悉mapreduce开发的人员可以借助hive来分析存储在hdfs中的海量数据hadoop的客户端工具,不一定非得部署在集群中创建表时,指定Hive数据的列分隔符与行分隔符,Hive即可解析数据2.Hive到底是什么?查询引擎:把hql(类sql语句)转换成mr作业在...

2019-07-12 10:03:26

centeros安装mysql5.6

centeros安装mysql5.6卸载自带mysql的库文件yum-yremovemysql-libs.x86_64下载mysql5.6的镜像wgethttp://repo.mysql.com/mysql-community-release-el6-5.noarch.rpm安装镜像rpm-ivhmysql-community-release-el6-5.n...

2019-07-12 10:01:50

mapreduce的多输入的问题

mapreduce的多输入的问题CountForSeqMapper.javapublicclassCountForSeqMapperextendsMapper<Text,IntWritable,Text,IntWritable>{@Overrideprotectedvoidmap(Textkey,IntWritablevalue,Cont...

2019-07-12 10:01:12

MapReduce实现,打包,远程调试

1.MapReduce的编写1.1pom依赖<properties><!--hadoop的版本--><hadoop.version>2.6.4</hadoop.version></properties><dependencies><!--hadoop的公共组件-->...

2019-07-12 10:00:15

mapreduce简介与实现

1.MapReduce简介MapReduce是一种分布式计算模型由Google提出,主要用于搜索领域,解决海量数据的计算问题MapReduce在处理多于10PB数据时趋向于变慢Mapreduce是依赖网络IO和磁盘IO的2.MapReduce模型计算海量的数据,能在一个机器计算吗?不能移动计算不移动数据mapreduce的阶段map阶段reduce阶段...

2019-07-12 09:56:36

hdfs读写文件的流程

1.hdfs写文件的流程上传数据时datanode的选择策略第一个副本考虑与client最近的(同机架)第二个副本考虑跨机架的datanode,增加副本可靠性第三个副本在第一个副本机架上选择一台datanode存放上传流程客户端上传文件大小为300m,这个文件将被分成三个block上传客户端请求namenode上传文件,namanode在元数据检验后,满足上传上传条件向客户端...

2019-05-09 21:07:27

HA高可用集群搭建

普通的hadoop集群namenode(nn)secondarynamenode(2nn)datanode(dn)普通的hadoop集群存在的问题datanode存在单点故障问题吗?不存在,因为datanode有多个机器,而且有副本机制作为保障namenode存在单点故障问题吗?存在,因为2nn不能代替nn,2nn的作用只是融合fsimage和edits文件,所以nn...

2019-05-09 21:05:57

ZooKeeper

1.ZooKeeper开源的分布式的协调服务,是Google的Chubby一个开源的实现,它是一个为分布式应用提供一致性服务的软件2.ZooKeeper提供的功能配置维护域名服务分布式锁组服务3.ZooKeeper的特点简单ZooKeeper的核心是一个精简的文件系统,它支持一些简单的操作和一些抽象操作丰富ZooKeeper的操作是很丰富的,可实现一...

2019-05-09 21:04:31

hdfs体系架构

1.hdfs(分布式文件系统)1.1分布式文件系统数据集的大小超过一台独立的计算机的存储能力时,就要通过网络中的多个机器来存储数据集,把管理网络中多台计算机组成的文件系统,称为分布式文件系统1.2hdfs的特点分布式数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是...

2019-05-09 21:01:46

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。