自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 问答 (11)
  • 收藏
  • 关注

原创 Flink安装

Flink安装① 上传并解压tar -zxvf flink-1.10.0-bin-scala_2.11.tgz -C /usr/soft/"## bin #执⾏脚本⽬录"## conf #配置⽬录"## examples #案例jar"## lib # 依赖的jars"## LICENSE"## licenses"## log # 运⾏⽇志"## NOTICE"## opt...

2020-03-05 21:38:20 177

原创 Flink学习-day1

Apache Flink概述Flink是构建在数据流之上的有状态计算的流计算框架,通常被⼈们理解为是 第三代 ⼤数据分析⽅案。① 第⼀代 - Hadoop的MapReduce计算(静态)、Storm流计算(2014.9) ;两套独⽴计算引擎,使⽤难度⼤② 第⼆代 - Spark RDD 静态批处理(2014.2)、DStream|Structured Streaming 流计算;统⼀计算引...

2020-03-05 21:27:27 105

原创 Spark流计算-day2

Spark流计算TransformationsDStream转换与RDD的转换类似,将DStream转换成新的DStream.DStream常⻅的许多算⼦使⽤和SparkRDD保持⼀致。map算⼦//1,zhangsan,truelines.map(line=> line.split(",")) .map(words=>(words(0).toInt,words(1),wo...

2020-03-01 23:43:04 196

原创 Spark流计算-day1

Spark流计算概述⼀般流式计算会与批量计算相⽐较。在流式计算模型中,输⼊是持续的,可以认为在时间上是⽆界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是⽆界的。流式计算⼀般对实时性要求较⾼,同时⼀般是先定义⽬标计算,然后数据到来之后将计算逻辑应⽤于数据。同时为了提⾼计算效率,往往尽可能采⽤增量计算代替全量计算。批量处理模型中,⼀般先有全量数据集...

2020-03-01 20:02:25 191

原创 学习Hbase第二天

Shell命令基本命令1、打开Hbase Shell[root@CentOS hbase-1.2.4]# ./bin/hbase shell2、获取帮助hbase(main):004:0> helphbase(main):005:0> help ‘get’3、查看服务器状态hbase(main):002:0> status1 active master, 0 ...

2020-02-29 12:20:07 123

原创 Spark SQL

Spark SQL 编程指南① Spark SQL是⽤于结构化数据处理的⼀个模块。同Spark RDD 不同地⽅在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算⼦等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这⾥有⼏种⽅式和Spark SQL进⾏交互,例如Dataset API和SQL等,这两种API可以混合使⽤。Spark SQL的...

2020-02-24 21:58:20 153

原创 Spark学习-day 2

RDD OperationsRDD⽀持两种类型的操作:transformations-转换 ,将⼀个已经存在的RDD转换为⼀个新的RDD,另外⼀种称为actions-动作 ,动作算⼦⼀般在执⾏结束以后,会将结果返回给Driver。在Spark中所有的transformations 都是lazy的,所有转换算⼦并不会⽴即执⾏,它们仅仅是记录对当前RDD的转换逻辑。仅当Actions 算⼦要求将结果...

2020-02-24 19:24:20 87

原创 Spark学习-day 1

Spark Shell①./bin/spark-shell --master yarn --deploy-mode client --executor-cores4 --num-executors 3②./bin/spark-shell --master spark://zly:7077 --total-executor-cores 6

2020-02-19 00:06:55 123

原创 Spark安装

环境搭建1)Spark On YarnHadoop环境① 设置CentOS进程数和⽂件数(可选)vim /etc/security/limits.conf* soft nofile 204800* hard nofile 204800* soft nproc 204800* hard nproc 204800优化linux性能,修改这个最⼤值,重启CentOS⽣效② 配置主...

2020-02-17 22:46:04 189

原创 Scala学习(一)

概述Scala⽤⼀种简洁的⾼级语⾔将 ⾯向对象 和 函数式编程 结合在⼀起。传统业务开发- 领域模型设计(⾯向对象开发); ⼤数据开发 - 数据集计算模型-(函数式编程)。 函数编程 强调的是程序对数据的运⾏算能⼒。在 ⾯向对象计算数据 的时候采取代码不动移动数据.在 函数式编程计算 的时候数据不动代码动。Scala是⼀⻔多范式的编程语⾔,同时⽀持⾯向对象和⾯向函数编程⻛格。它以⼀种优雅的⽅式...

2020-02-11 08:44:23 329

原创 Scala安装

安装Windows版本安装下载连接:https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.msi① 点击scala-2.11.12.msi,一直下一步就行。② 配置Scala的环境变量SCALA_HOME变量SCALA_HOME=C:\Program Files (x86)\scalaPATH=C:\Program Fi...

2020-02-10 10:55:36 75

原创 sqoop的学习

概述Apache Sqoop(TM)是⼀种旨在在Apache Hadoop和结构化数据存储(例如关系数据库)之间⾼效传输批量数据的⼯具。通过内嵌的MapReduce程序实现关系型数据库和HDFS、Hbase、Hive等数据的倒⼊导出。sqoop-importImport⼯具将单个表从RDBMS导⼊到HDFS。表中的每⼀⾏在HDFS中均表示为单独的记录。记录可以存储为⽂本⽂件(每⾏⼀个记录)...

2020-02-09 20:50:48 138

原创 Sqoop安装

安装① 访问sqoop的⽹址http://sqoop.apache.org/,选择相应的sqoop版本下载,本案例选择下载的是 1.4.7 下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz,下载完相应的⼯具包后,解压Sqoop。tar -zxvf s...

2020-02-09 12:11:55 86

原创 Flume-分布式日志采集

一.Flume的概述Flume是什么1.flume能做什么Flume是一种分布式(各司其职),可靠且可用的服务,用于有效地收集,聚合(比如某一个应用搭建集群,在做数据分析的时候,将集群中的数据汇总在一起)和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。2.flume的特性①它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。使用Flume这套架构实现对日志...

2020-02-06 00:37:07 628

原创 Hadoop的一些基本概念和原理

HadoopHadoop的核心是HDFS和MapReduce。一.HDFS1.Hdfs是Hadoop的分布式文件存储系统,它的核心是解决大数据的存储问题。2.基本概念Namenode:是整个HDFS集群的总入口,存储这HDFS集群的文件元数据信息(如client上传的文件名,副本数,快数等相关信息)。DataNode:是真正用来负责存储数据的节点,一个DataNode就是一个真实的物理...

2020-02-04 23:36:09 332

原创 基于hadoop的Hbase安装

Hbase安装1.确保hdfs正常启动,在之前的文章中已将安装好,只不过没有安装Zookeeper2.安装Zookeeper①将压缩包解压到指定文件tar -zxvf zookeeper-3.4.12.tar.gz -C /usr/soft/ ②由于没有zoo.cfg配置文件,所以复制一份新的cp /usr/soft/zookeeper-3.4.12/conf/zoo_sampl...

2020-02-04 14:28:09 363

原创 虚拟机安装Centos7并安装jdk搭建hdfs和yarn环境

一.安装Centos71.点击自定义安装2.点击下一步3.选择稍后安装操作系统,点击下一步4.选择操作系统为linux和版本为Centos75.设置虚拟机名称和位置,位置后最好自己命名一个文件夹名称6.直接下一步7.使用网络地址转换8.直接下一步9.选择创建新的虚拟磁盘,注意不要点击立即分配磁盘空间10.直接下一步,然后完成11.完成后先不要着急启动,需要先进行设置,点击CD/...

2020-02-03 21:08:53 460

转载 学习Hbase第一天

学习Hbase第一天Hbase概述列存储Hbase概述Hbase是一个基于Hadoop的分布式,可扩展,巨大数据仓库,当用户需要对海量数据进行实时(时效性)随机(单条记录级别数据)读写,用户可以使用Hbase,设计目标是能够持有一张巨大的表,该表的规模能达到数十亿行×数百万列,并且可以运行在商用的硬件集群之上.Hbase是一个开源的,分布式的,版本化的,非关系型的数据库.该设计仿照了Goole...

2020-01-06 22:26:10 115

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除