4 飞少fly

尚未进行身份认证

你想要的时间会给你,但是你需要给时间的又何止千万!

等级
TA的排名 5w+

flume架构理论

1. Flume是什么 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 Flume支持在日志系统中定制各类数据发送方,用于收集数据; Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 flume支持的多种接入资源数据类型有哪些;多种接出数据类型?? 接入:console:终端、RPC网络、text文本、tail命令、syslog、exec输出:磁盘、hdfs、hbase、kafka、网络传输

2020-05-30 14:59:02

yarn3种调度器

yarn调度器试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?如果你存在上述的困惑,可以多了解一些yarn的资源调度器。在Yarn框架中,调度器是一块很重要的内容。有了合适的调度规则,就可以保证多个应用可以在同一时间有条不紊的工作。最原始的调度规则就是FIFO,即按照用户提交任务的时间

2020-05-30 12:34:19

yarn的使用

如何使用yarn1 配置文件<!-- $HADOOP_HOME/etc/hadoop/mapred-site.xml --><configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration&...

2020-05-30 12:27:00

Yarn资源调度系统入门

1. yarn介绍Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架,不再强迫使用MapReduce框架。当企业的数据在HDFS中是可用的,有多种数据处理方式是非常重要的。有了Hadoop2.0和YARN,机构可以采用流处理、.

2020-05-30 12:23:30

MapReduce相关问题

1.在高阶数据处理中,往往无法把整个流程写在单个MapReduce作业中,下列关于链接MapReduce作业的说法,不正确的是?()答案:AA.ChainReducer.addMapper()方法中,一般对键/值对发送设置成值传递,性能好且安全性高B.使用ChainReducer时,每个mapper和reducer对象都有一个本地JobConf对象C.ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成D.Job和JobControl类可以管理非..

2020-05-30 11:13:44

MapReduce-WordCount案例

有上一篇讲解了MapReduce运行原理后,相信大家能理解了,本篇以wordcount为案例了解下MapReduce编程的乐趣...1 MR参考代码1 .1Mapper代码package com.mr.cf.wordcount;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hado

2020-05-30 11:08:18

搞定MapReduce编程模型

1. MapReduce编程模型 MapReduce是采用一种分而治之的思想设计出来的分布式计算框架 一些复杂或计算量大的任务,单台服务器无法胜任时,可将此大任务切分成一个个小的任务,小任务分别在不同的服务器上并行的执行;最终再汇总每个小任务的结果 MapReduce由两个阶段组 成:Map阶段(切分成一个个小的任务)、Reduce阶段(汇总小任务的结果)。 1.1 Map阶段 map()函数的输入是kv键值对,输出是一系列kv键值对,输出结果写入本地磁盘。

2020-05-30 10:50:42

HDFS分布式文件存储系统

1. Hadoop是什么1.1 Hadoop架构Hadoop由三个模块组成:分布式文件存储HDFS、分布式计算MapReduce、资源调度引擎Yarn1.2 分布式是什么分布式:利用一批通过网络连接的、廉价普通的机器,完成单个机器无法完成的存储、计算任务1.3 HDFS是什么Hadoop分布式文件系统1.4 为什么使用HDFS高可用、容错、可扩展2.核心概念block2.1 数据块block2.1.1 HDFS block块HDFS3.x上的文件,是...

2020-05-24 14:11:38

HDFS常用命令

hadoop fs类似于hdfs dfs1. 如何查看hdfs子命令的帮助信息,如rmdir子命令hdfs dfs -help rmdir2. 查看hdfs文件系统中已经存在的文件hdfs dfs -ls /hadoop fs -ls /3. 在hdfs文件系统中创建文件hdfs dfs -touchz /a.txt4. 从本地路径上传文件至HDFShdfs dfs -put /本地路径 /hdfs路径5. 在hdfs文件系统中下载文件hdfs dfs -get

2020-05-24 13:55:01

SAP Hana sql语法

SAP Hana sql语法感觉博主热心作品,如有得罪,尽请告知!https://www.cnblogs.com/renzhituteng/p/11013957.html

2019-12-24 17:33:42

JAVA API获取HANA Schema信息和表 主键 列名和列类型信息

获取数据库信息获取数据库所有Schema获取所有表信息获取schema下所有的表获取表主键信息获取表中列值信息package com.XXXSchema;import java.sql.*;public class JDBCDemoHANA2 { private static final String DRIVER = "com.sap.db.jdbc....

2019-12-24 17:29:46

JDBC连接hana JAVA API

JDBC连接hana JAVA APIwork中需要将kafka topic中的数据sync到hana表中,事先做了一个了解hana语法和代码的demo,后续介绍kafka connector的使用 和 hana语法的简单使用package com.xxx;import java.sql.*;public class JDBCDemoHANA { private sta...

2019-12-24 17:02:43

treeMap的简单使用

treeMap的简单使用,后续介绍底层实现import java.util.HashMap;import java.util.Map;import java.util.SortedMap;import java.util.TreeMap;/** * * TreeMap 的 tailMap()、headMap()、firstKey() 方法使用 * */public cla...

2019-12-20 16:02:31

typesafe.config读取配置信息

maven依赖: <dependency> <groupId>com.typesafe</groupId> <artifactId>config</artifactId> <version>1.3.3</version> </dependency>测...

2019-12-20 15:35:59

idea创建普通maven+java工程

最近想把以前积累的零散java练习和学习的东西建一个项目整理出来上传到码云托管,免得电脑挂了啥也找不到配置是IDEA2018.3.4+java8+maven3.6.1,截图记录下步骤第一步:File--> New-->Project打开的界面如下:选择Maven,勾选Create from archetype,选择下面的quickstart,这是一个普通的java工程,...

2019-12-18 16:41:08

idea用maven开发spark程序的pom.xml

我们用maven构建spark项目,需要使用maven来管理各个组件jar需要找依赖的话,地址:https://mvnrepository.com/<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoc...

2019-12-09 17:44:53

hive关系操作符

关系操作符关系操作符——比较操作数并产生TRUE或者FALSE,需要注意的是Hive的相等比较为=,而不是= =。

2019-12-05 18:11:21

Spark的Direct方式接收kafka消息实现WordCount

1.yarn集群开启2.启动zookeeper集群(kafka需要)3.启动kafka服务端、生产者和消费者端(生产者模拟往kafka灌入数据,消费者端打印数据)3.1启动kafka服务端3.2启动kafka生产者3.3启动kafka消费者4.spark官方Demo改吧改吧找到你的spark安装目录-->spark-2.0.2-bin-hadoop2....

2018-11-30 16:12:43

mongodb集群搭建(测试环境)

搭建集群规划 主机 用途 10.xxx.xx.111 主节点(主) 10.xxx.xx.112 备节点+仲裁点(从+仲裁器) 一,下载安装包1:首先官网下载的的Linux的安装包下载的社区版https://www.mongodb.com/download-cent...

2018-10-25 18:05:55

mogodb简介

MongoDB的简介:mongodb的集群搭建方式主要有三种,主从(master slave)模式,副本集(分片)模式,三种模式各有优劣,适用于不同的场合,属副本集应用最为广泛,主从模式现在用的较少,sharding模式最为完备,但配置维护较为复杂。本文我们来看下Replica Set模式的搭建方法。Mongodb的副本集即副本集方式主要有两个目的,一个是数据冗余做故障恢复使用,当发生硬件...

2018-10-25 18:05:32

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。