自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据零基础学习入门教程

程序员生活网-http://www.ryxxff.com

  • 博客(83)
  • 收藏
  • 关注

原创 python零基础入门教程系统学习目录

Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。Python由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。像Perl语言一样, Python 源代码同样遵循 GPL(GNU General Public License)协议。Python基础教程Python简介Python环境搭建Python中文编码Python基础语...

2019-06-26 20:13:42 550

原创 Spark Streaming编程实战(开发实例)

本节介绍如何编写 Spark Streaming 应用程序,由简到难讲解使用几个核心概念来解决实际应用问题。流数据模拟器在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境,首先需要定义流数据模拟器。该模拟器的主要功能是通过 Socket 方式监听指定的端口号,当外部程序通过该端口进行连接并请求数据时,模拟器将定时将指定的文件数据进行随机获取,并发送给外部程序...

2019-07-08 10:20:02 761

原创 Spark DStream相关操作

与 RDD 类似,DStream 也提供了自己的一系列操作方法,这些操作可以分成 3 类:普通的转换操作、窗口转换操作和输出操作。普通的转换操作普通的转换操作如表 1 所示表 1 普通的转换操作 Suo 描述 map(func) 源 DStream 的每个元素通过函数 func 返回一个新的 DStream。 flatMap(func) 类似于 map 操作...

2019-07-08 10:20:01 462

原创 Spark Streaming编程模型

DStream 的操作流程DStream 作为 Spark Streaming 的基础抽象,它代表持续性的数据流。这些数据流既可以通过外部输入源来获取,也可以通过现有的 DStream 的 Transformation 操作来获得。在内部实现上,DStream 由一组时间序列上连续的 RDD 来表示。如图 1 所示,每个 RDD 都包含了自己特定时间间隔内的数据流。图 1DStr...

2019-07-08 10:19:59 179

原创 Spark Streaming的系统架构

传统流处理系统架构流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收来自数据源的流数据,然后在集群上并行处理数据,最后将处理结果存放至下游系统。为了处理这些数据,传统的流处理系统被设计为连续算子模型,其工作方式如图 1 所示。系统包含一系列的工作结点,每组结点上运行一至多个连续算子。对于流数据,每个连续算子(ContinuousOperator)一次处理一条记录,并且将记录...

2019-07-08 10:19:58 234

原创 大数据框架Spark Streaming简介

Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后,可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算...

2019-07-06 11:00:12 160

原创 大数据框架Spark开发实例(编程实践)

本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。启动 SparkShellSpark 的交互式脚本是一种学习 API 的简单途径,也是分析数据集交互的有力工具。Spark 包含多种运行模式,可使用单机模式,也可以使用分布式模式。为简单起见,本节采用单机模式运行 Spark。无论采用哪种模式,只要启动完成后,就初始化了一个 Spa...

2019-07-06 11:00:10 822

原创 大数据框架Spark生态圈简介

Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处...

2019-07-06 11:00:08 266

原创 大数据框架Spark总体架构和运行流程

本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。Spark 总体架构Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster Manager)、多个运行作业任务的工作结点(Worker Node)、每个应用的任务控制结点(Driver)和每个工作结点上负责具体任务的执行进程(Executor)。...

2019-07-06 11:00:06 261

原创 大数据框架Spark RDD是什么?

Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。RDD 的基本概念RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分...

2019-07-06 11:00:05 538

原创 大数据框架Spark是什么?Spark和Hadoop的区别

Spark 是加州大学伯克利分校 AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算框架。Spark 在 2013 年 6 月进入 Apache 成为孵化项目,8 个月后成为 Apache 顶级项目。Spark 以其先进的设计理念,迅速成为社区的热门项目,围绕着 Spark 推出了 SparkSQL、SparkStreaming、MLlib 和 Gr...

2019-07-06 10:54:58 306

原创 大数据框架Spring Kafka和Spring Boot配置

在下面的教程中,我们将演示如何使用Spring Boot配置Spring Kafka。 Spring Boot使用合理的默认配置Spring Kafka。并使用application.yml属性文件覆盖这些默认值。项目设置Spring Kafka:2.1.4.RELEASE Spring Boot:2.0.0.RELEASE Apache Kafka:kafka_2.11-...

2019-07-06 10:54:56 206

原创 大数据框架Spring消费者和生产者

本教程演示了如何发送和接收来自Spring Kafka的消息。 首先创建一个能够发送消息给Kafka主题的Spring Kafka Producer。 接下来,我们创建一个Spring Kafka Consumer,它可以收听发送给Kafka主题的消息。使用适当的键/值序列化器和解串器来配置它们。 最后用一个简单的Spring Boot应用程序演示应用程序。下载并安装Apache Kafka...

2019-07-06 10:54:54 301

原创 大数据框架Kafka应用

Kafka支持许多最好的工业应用。 在本章中,我们将简要介绍一些Kafka最显着的应用。推特Twitter是一种在线社交网络服务,提供发送和接收用户推文的平台。 注册用户可以阅读和发布推文,但未注册的用户只能阅读推文。 Twitter使用Storm-Kafka作为其流处理基础设施的一部分。LinkedIn在LinkedIn上使用Apache Kafka来获取活动流数据和运营指标。 ...

2019-07-06 10:50:31 134

原创 大数据框架Kafka工具

Kafka工具包装在org.apache.kafka.tools.*下。 工具分为系统工具和复制工具。系统工具系统工具可以使用run class脚本从命令行运行。 语法如下 –bin/kafka-run-class.sh package.class -- options 下面提到了一些系统工具 –Kafka迁移工具– 此工具用于将代理从一个版本迁移到另一个版本。 Mir...

2019-07-06 10:50:29 228

原创 大数据Kafka与Spark整合

在本章中,将讨论如何将Apache Kafka与Spark Streaming API集成。Spark是什么?Spark Streaming API支持实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从Kafka,Flume,Twitter等许多来源获取,并且可以使用复杂算法进行处理,例如:映射,缩小,连接和窗口等高级功能。 最后,处理后的数据可以推送到文件系统,数据库和现场仪表板上。...

2019-07-05 21:30:34 504

原创 大数据Kafka与Storm整合

在本章中,我们将学习如何将Kafka与Apache Storm集成。Storm是什么?Storm最初是由Nathan Marz和BackType团队创建的。 在很短的时间内,Apache Storm成为分布式实时处理系统的标准,用于处理大数据。 Storm速度非常快,每个节点每秒处理超过一百万个元组的基准时钟。 Apache Storm持续运行,从配置的源(Spouts)中消耗数据并将数据...

2019-07-05 21:30:33 682

原创 大数据Kafka费者群组示例

消费者群组是来自Kafka主题的多线程或多机器消费。消费者群组消费者可以通过使用samegroup.id加入一个组。一个组的最大并行度是该组中的消费者的数量 ← 分区的数量。 Kafka将一个主题的分区分配给组中的使用者,以便每个分区仅由组中的一位消费者使用。 Kafka保证只有群组中的单个消费者阅读消息。 消费者可以按照存储在日志中的顺序查看消息。重新平衡消费者添加更多流...

2019-07-05 21:30:31 139

原创 大数据Kafka简单的生产者例子

在这一节中将创建一个使用Java客户端发布和使用消息的应用程序。 Kafka生产者客户端由以下API组成。KafkaProducer API下面来了解Kafka生产者API。 KafkaProducer API的核心部分是KafkaProducer类。KafkaProducer类提供了一个选项,用于将Kafka代理的构造函数与以下方法连接起来。KafkaProducer类提供send...

2019-07-05 21:30:31 261

原创 Kafka环境安装配置

以下是在您的机器上安装Java的步骤。第1步 – Java安装查看是否在机器上安装了java环境,只需使用下面的命令来验证它。$ java -version 如果计算机上已成功安装Java,则可以看到已安装的Java版本。例如 –yiibai@ubuntu:~$ java -version java version "1.8.0_65" Java(TM) SE Run...

2019-07-05 21:20:01 208

原创 Kafka工作流

截至目前,我们已经了解了Kafka的核心概念。 现在让我们来看看Kafka的工作流程。Kafka只是分成一个或多个分区的主题集合。 Kafka分区是消息的线性排序序列,每个消息由其索引标识(称为偏移量)。 Kafka集群中的所有数据都是不相关的分区联合。 传入消息写在分区的末尾,消费者依次读取消息。 通过将消息复制到不同的经纪人来提供持久性。Kafka以快速,可靠,持久的容错和零停机方式提...

2019-07-05 21:19:59 212

原创 Kafka群集体系结构

有关Kafka群集体系结构,请看下面的结构图。 它显示了Kafka的集群图。下表描述了上图中显示的每个组件。Broker– Kafka集群通常由多个代理组成,以保持负载平衡。 Kafka经纪人是无状态的,所以他们使用ZooKeeper维护他们的集群状态。 一个Kafka代理实例可以处理每秒数十万次的读写操作,每个Broker都可以处理TB消息,而不会影响性能。 Kafka经纪人的领导人选...

2019-07-05 21:19:57 217

原创 Kafka基本原理

在深入学习Kafka之前,需要先了解topics,brokers,producers和consumers等几个主要术语。 下面说明了主要术语的详细描述和组件。在上图中,主题(topic)被配置为三个分区。 分区1(Partition 1)具有两个偏移因子0和1。分区2(Partition 2)具有四个偏移因子0,1,2和3,分区3(Partition 3)具有一个偏移因子0。replica...

2019-07-05 21:19:55 654

原创 Kafka简介

在大数据中,使用了大量的数据。 关于大数据,主要有两个主要挑战。第一个挑战是如何收集大量数据,第二个挑战是分析收集的数据。 为了克服这些挑战,需要使用消息传递系统。Kafka专为分布式高吞吐量系统而设计。 Kafka倾向于非常好地取代传统的信息中间服务者。 与其他消息传递系统相比,Kafka具有更好的吞吐量,内置分区,复制和固有容错功能,因此非常适合大型消息处理应用程序。什么是消息系统?...

2019-07-05 21:19:54 154

原创 Kafka教程

Apache Kafka起源于LinkedIn,后来于2011年成为Apache开源项目,然后于2012年成为Apache项目的第一个类别。Kafka是使用Scala和Java编写的。 Apache Kafka是基于 – 发布订阅的容错消息系统。 它具有快速,可扩展和设计分布的特点。本教程将探讨Kafka的原理,安装和操作,然后它将引导您完成Kafka集群的部署。 最后,我们将教程结束实时应用...

2019-07-05 21:19:52 412

原创 大数据HiveQL Select Join

JOIN是子句用于通过使用共同值组合来自两个表特定字段。它是用来从数据库中的两个或更多的表组合的记录。它或多或少类似于SQL JOIN。语法 join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN t...

2019-07-04 11:00:01 144

原创 大数据HiveQL Select Group By

本章介绍了SELECT语句的GROUP BY子句。GROUP BY子句用于分类所有记录结果的特定集合列。它被用来查询一组记录。语法GROUP BY子句的语法如下: SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROU...

2019-07-04 10:59:59 276

原创 大数据HiveQL Select Where

Hive查询语言(HiveQL)是一种查询语言,Hive处理在Metastore分析结构化数据。本章介绍了如何使用SELECT语句的WHERE子句。SELECT语句用来从表中检索的数据。 WHERE子句中的工作原理类似于一个条件。它使用这个条件过滤数据,并返回给出一个有限的结果。内置运算符和函数产生一个表达式,满足以下条件。语法下面给出的是SELECT查询的语法: SELECT...

2019-07-04 10:59:56 122

原创 大数据HiveQL Select Order By

本章介绍了如何使用SELECT语句的ORDER BY子句。ORDER BY子句用于检索基于一列的细节并设置排序结果按升序或降序排列。语法下面给出的是ORDER BY子句的语法: SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] ...

2019-07-04 10:59:53 172

原创 大数据Hive视图和索引

本章介绍如何创建和管理视图。根据用户的需求创建视图。可以将任何结果集数据保存为一个视图。视图在Hive的用法和SQL视图用法相同。它是一个标准的RDBMS概念。我们可以在视图上执行所有DML操作。创建一个视图可以创建一个视图,在执行SELECT语句的时候。语法如下: CREATE VIEW [IF NOT EXISTS] view_name [(column_name [COMME...

2019-07-04 10:59:51 158

原创 大数据Hive内置运算符

本章介绍Hive的内置运算符。在Hive有四种类型的运算符:关系运算符 算术运算符 逻辑运算符 复杂运算符关系运算符这些操作符被用来比较两个操作数。下表描述了在Hive中可用的关系运算符:运算符 操作 描述 A = B 所有基本类型 如果表达A等于表达B,结果TRUE ,否则FALSE。 A != B 所有基本类型 如果A不等于表达式...

2019-07-04 10:59:00 71

原创 大数据Hive内置运算符

本章介绍Hive的内置运算符。在Hive有四种类型的运算符:关系运算符 算术运算符 逻辑运算符 复杂运算符关系运算符这些操作符被用来比较两个操作数。下表描述了在Hive中可用的关系运算符:运算符 操作 描述 A = B 所有基本类型 如果表达A等于表达B,结果TRUE ,否则FALSE。 A != B 所有基本类型 如果A不等于表达式...

2019-07-04 10:58:58 90

原创 大数据Hive分区

Hive组织表到分区。它是将一个表到基于分区列,如日期,城市和部门的值相关方式。使用分区,很容易对数据进行部分查询。表或分区是细分成桶,以提供额外的结构,可以使用更高效的查询的数据。桶的工作是基于表的一些列的散列函数值。例如,一个名为Tab1表包含雇员数据,如 id, name, dept 和yoj (即加盟年份)。假设需要检索所有在2012年加入,查询搜索整个表所需的信息员工的详细信息。...

2019-07-04 10:58:55 219

原创 大数据Hive删除表

本章介绍了如何在Hive中删除表。当从Hive Metastore删除表,它删除了表/列的数据及其元数据。它可以是一个正常的表(存储在Metastore)或外部表(存储在本地文件系统); 不论什么类型Hive对待的方式相同。Drop Table语句语法如下: DROP TABLE [IF EXISTS] table_name;以下查询删除一个名为employee 的表:...

2019-07-04 10:58:53 403

原创 大数据Hive创建表

本章将介绍如何创建一个表以及如何将数据插入。创造表的约定在Hive中非常类似于使用SQL创建表。CREATE TABLE语句Create Table是用于在Hive中创建表的语句。语法和示例如下:语法 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name [(col_name d...

2019-07-04 10:58:51 651

原创 大数据框架基础HBase计数和截断

count可以使用count命令计算表的行数量。它的语法如下: count ‘<table name>’删除第一行后,表emp就只有两行。验证它,如下图所示。 hbase(main):023:0> count 'emp' 2 row(s) in 0.090 seconds => 2truncate此命令将禁止删除并重新创建一个表。trun...

2019-07-03 12:01:22 130

原创 大数据框架基础Hive数据类型

本章介绍Hive不同的数据类型,用于创建表。Hive所有数据类型分为四种类型,给出如下:列类型 文字 Null 值 复杂类型列类型列类型被用作Hive的列数据类型。它们如下:整型整型数据可以指定使用整型数据类型,INT。当数据范围超过INT的范围,需要使用BIGINT,如果数据范围比INT小,使用SMALLINT。 TINYINT比SMALLINT小。下表描述了各种IN...

2019-07-03 12:01:21 106

原创 大数据框架基础Hive安装

所有Hadoop的子项目,如Hive, Pig,和HBase 支持Linux的操作系统。因此,需要安装Linux OS。以下是为Hive的安装执行的简单步骤:第1步:验证JAVA安装在Hive安装之前,Java必须在系统上已经安装。使用下面的命令来验证是否已经安装Java: $ java –version如果Java已经安装在系统上,就可以看到如下回应: java ve...

2019-07-03 12:01:19 134

原创 大数据框架基础Hive教程

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱增的数据的集合。使用传统的数据管理系统,它是难以加工大型数据。因此,Apache软件基金会推出了一款名为Hadoop的...

2019-07-03 12:01:18 225

原创 大数据框架基础HBase安全

我们可以授予和撤销HBase用户的权限。也有出于安全目的,三个命令:grant, revoke 和 user_permission.。grantgrant命令授予特定的权限,如读,写,执行和管理表给定一个特定的用户。 grant命令的语法如下: hbase> grant <user> <permissions> [<table> [<...

2019-07-03 12:01:16 122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除