无敌火车滴滴开-CSDN博客

原创 Flink安装

Flink安装① 上传并解压tar -zxvf flink-1.10.0-bin-scala_2.11.tgz -C /usr/soft/"## bin #执⾏脚本⽬录"## conf #配置⽬录"## examples #案例jar"## lib # 依赖的jars"## LICENSE"## licenses"## log # 运⾏⽇志"## NOTICE"## opt...

2020-03-05 21:38:20 177

原创 Flink学习-day1

Apache Flink概述Flink是构建在数据流之上的有状态计算的流计算框架，通常被⼈们理解为是第三代⼤数据分析⽅案。① 第⼀代 - Hadoop的MapReduce计算（静态）、Storm流计算（2014.9）；两套独⽴计算引擎，使⽤难度⼤② 第⼆代 - Spark RDD 静态批处理(2014.2)、DStream|Structured Streaming 流计算;统⼀计算引...

2020-03-05 21:27:27 105

原创 Spark流计算-day2

Spark流计算TransformationsDStream转换与RDD的转换类似，将DStream转换成新的DStream.DStream常⻅的许多算⼦使⽤和SparkRDD保持⼀致。map算⼦//1,zhangsan,truelines.map(line=> line.split(",")) .map(words=>(words(0).toInt,words(1),wo...

2020-03-01 23:43:04 196

Spark流计算概述⼀般流式计算会与批量计算相⽐较。在流式计算模型中，输⼊是持续的，可以认为在时间上是⽆界的，也就意味着，永远拿不到全量数据去做计算。同时，计算结果是持续输出的，也即计算结果在时间上也是⽆界的。流式计算⼀般对实时性要求较⾼，同时⼀般是先定义⽬标计算，然后数据到来之后将计算逻辑应⽤于数据。同时为了提⾼计算效率，往往尽可能采⽤增量计算代替全量计算。批量处理模型中，⼀般先有全量数据集...

2020-03-01 20:02:25 191

原创学习Hbase第二天

Shell命令基本命令1、打开Hbase Shell[root@CentOS hbase-1.2.4]# ./bin/hbase shell2、获取帮助hbase(main):004:0> helphbase(main):005:0> help ‘get’3、查看服务器状态hbase(main):002:0> status1 active master, 0 ...

2020-02-29 12:20:07 123

原创 Spark SQL

Spark SQL 编程指南① Spark SQL是⽤于结构化数据处理的⼀个模块。同Spark RDD 不同地⽅在于Spark SQL的API可以给Spark计算引擎提供更多地信息，例如:数据结构、计算算⼦等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这⾥有⼏种⽅式和Spark SQL进⾏交互，例如Dataset API和SQL等，这两种API可以混合使⽤。Spark SQL的...

2020-02-24 21:58:20 153

原创 Spark学习-day 2

RDD OperationsRDD⽀持两种类型的操作：transformations-转换，将⼀个已经存在的RDD转换为⼀个新的RDD，另外⼀种称为actions-动作，动作算⼦⼀般在执⾏结束以后，会将结果返回给Driver。在Spark中所有的transformations 都是lazy的，所有转换算⼦并不会⽴即执⾏，它们仅仅是记录对当前RDD的转换逻辑。仅当Actions 算⼦要求将结果...

2020-02-24 19:24:20 87

原创 Spark学习-day 1

Spark Shell①./bin/spark-shell --master yarn --deploy-mode client --executor-cores4 --num-executors 3②./bin/spark-shell --master spark://zly:7077 --total-executor-cores 6

2020-02-19 00:06:55 123

原创 Spark安装

环境搭建1）Spark On YarnHadoop环境① 设置CentOS进程数和⽂件数(可选)vim /etc/security/limits.conf* soft nofile 204800* hard nofile 204800* soft nproc 204800* hard nproc 204800优化linux性能，修改这个最⼤值，重启CentOS⽣效② 配置主...

2020-02-17 22:46:04 189

原创 Scala学习(一)

概述Scala⽤⼀种简洁的⾼级语⾔将⾯向对象和函数式编程结合在⼀起。传统业务开发- 领域模型设计（⾯向对象开发）; ⼤数据开发 - 数据集计算模型-（函数式编程）。函数编程强调的是程序对数据的运⾏算能⼒。在⾯向对象计算数据的时候采取代码不动移动数据.在函数式编程计算的时候数据不动代码动。Scala是⼀⻔多范式的编程语⾔,同时⽀持⾯向对象和⾯向函数编程⻛格。它以⼀种优雅的⽅式...

2020-02-11 08:44:23 329

原创 Scala安装

安装Windows版本安装下载连接：https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.msi① 点击scala-2.11.12.msi，一直下一步就行。② 配置Scala的环境变量SCALA_HOME变量SCALA_HOME=C:\Program Files (x86)\scalaPATH=C:\Program Fi...

2020-02-10 10:55:36 75

原创 sqoop的学习

概述Apache Sqoop（TM）是⼀种旨在在Apache Hadoop和结构化数据存储（例如关系数据库）之间⾼效传输批量数据的⼯具。通过内嵌的MapReduce程序实现关系型数据库和HDFS、Hbase、Hive等数据的倒⼊导出。sqoop-importImport⼯具将单个表从RDBMS导⼊到HDFS。表中的每⼀⾏在HDFS中均表示为单独的记录。记录可以存储为⽂本⽂件（每⾏⼀个记录）...

2020-02-09 20:50:48 138

原创 Sqoop安装

安装① 访问sqoop的⽹址http://sqoop.apache.org/，选择相应的sqoop版本下载，本案例选择下载的是 1.4.7 下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz，下载完相应的⼯具包后，解压Sqoop。tar -zxvf s...

2020-02-09 12:11:55 86

原创 Flume-分布式日志采集

一.Flume的概述Flume是什么1.flume能做什么Flume是一种分布式(各司其职)，可靠且可用的服务，用于有效地收集，聚合(比如某一个应用搭建集群，在做数据分析的时候，将集群中的数据汇总在一起)和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。2.flume的特性①它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。使用Flume这套架构实现对日志...

2020-02-06 00:37:07 628

原创 Hadoop的一些基本概念和原理

HadoopHadoop的核心是HDFS和MapReduce。一.HDFS1.Hdfs是Hadoop的分布式文件存储系统，它的核心是解决大数据的存储问题。2.基本概念Namenode：是整个HDFS集群的总入口，存储这HDFS集群的文件元数据信息（如client上传的文件名，副本数，快数等相关信息）。DataNode：是真正用来负责存储数据的节点，一个DataNode就是一个真实的物理...

2020-02-04 23:36:09 332

原创基于hadoop的Hbase安装

Hbase安装1.确保hdfs正常启动，在之前的文章中已将安装好，只不过没有安装Zookeeper2.安装Zookeeper①将压缩包解压到指定文件tar -zxvf zookeeper-3.4.12.tar.gz -C /usr/soft/ ②由于没有zoo.cfg配置文件，所以复制一份新的cp /usr/soft/zookeeper-3.4.12/conf/zoo_sampl...

2020-02-04 14:28:09 363

原创虚拟机安装Centos7并安装jdk搭建hdfs和yarn环境

一.安装Centos71.点击自定义安装2.点击下一步3.选择稍后安装操作系统，点击下一步4.选择操作系统为linux和版本为Centos75.设置虚拟机名称和位置，位置后最好自己命名一个文件夹名称6.直接下一步7.使用网络地址转换8.直接下一步9.选择创建新的虚拟磁盘，注意不要点击立即分配磁盘空间10.直接下一步，然后完成11.完成后先不要着急启动，需要先进行设置，点击CD/...

2020-02-03 21:08:53 460

转载学习Hbase第一天

学习Hbase第一天Hbase概述列存储Hbase概述Hbase是一个基于Hadoop的分布式,可扩展,巨大数据仓库,当用户需要对海量数据进行实时(时效性)随机(单条记录级别数据)读写,用户可以使用Hbase,设计目标是能够持有一张巨大的表,该表的规模能达到数十亿行×数百万列,并且可以运行在商用的硬件集群之上.Hbase是一个开源的,分布式的,版本化的,非关系型的数据库.该设计仿照了Goole...

2020-01-06 22:26:10 115