拾荒的程序员老头-CSDN博客

原创 python零基础入门教程系统学习目录

Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。Python由Guido van Rossum于1989年底发明，第一个公开发行版发行于1991年。像Perl语言一样, Python 源代码同样遵循 GPL(GNU General Public License)协议。Python基础教程Python简介Python环境搭建Python中文编码Python基础语...

2019-06-26 20:13:42 550

原创 Spark Streaming编程实战（开发实例）

本节介绍如何编写 Spark Streaming 应用程序，由简到难讲解使用几个核心概念来解决实际应用问题。流数据模拟器在实例演示中模拟实际情况，需要源源不断地接入流数据，为了在演示过程中更接近真实环境，首先需要定义流数据模拟器。该模拟器的主要功能是通过 Socket 方式监听指定的端口号，当外部程序通过该端口进行连接并请求数据时，模拟器将定时将指定的文件数据进行随机获取，并发送给外部程序...

2019-07-08 10:20:02 761

原创 Spark DStream相关操作

与 RDD 类似，DStream 也提供了自己的一系列操作方法，这些操作可以分成 3 类：普通的转换操作、窗口转换操作和输出操作。普通的转换操作普通的转换操作如表 1 所示表 1 普通的转换操作 Suo 描述 map(func) 源 DStream 的每个元素通过函数 func 返回一个新的 DStream。 flatMap(func) 类似于 map 操作...

2019-07-08 10:20:01 462

原创 Spark Streaming编程模型

DStream 的操作流程DStream 作为 Spark Streaming 的基础抽象，它代表持续性的数据流。这些数据流既可以通过外部输入源来获取，也可以通过现有的 DStream 的 Transformation 操作来获得。在内部实现上，DStream 由一组时间序列上连续的 RDD 来表示。如图 1 所示，每个 RDD 都包含了自己特定时间间隔内的数据流。图 1DStr...

2019-07-08 10:19:59 179

原创 Spark Streaming的系统架构

传统流处理系统架构流处理架构的分布式流处理管道执行方式是，首先用数据采集系统接收来自数据源的流数据，然后在集群上并行处理数据，最后将处理结果存放至下游系统。为了处理这些数据，传统的流处理系统被设计为连续算子模型，其工作方式如图 1 所示。系统包含一系列的工作结点，每组结点上运行一至多个连续算子。对于流数据，每个连续算子（ContinuousOperator）一次处理一条记录，并且将记录...

2019-07-08 10:19:58 234

Spark Streaming 是 Spark 核心 API 的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据，包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后，可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算...

2019-07-06 11:00:12 160

原创大数据框架Spark开发实例（编程实践）

本节将介绍如何实际动手进行 RDD 的转换与操作，以及如何编写、编译、打包和运行 Spark 应用程序。启动 SparkShellSpark 的交互式脚本是一种学习 API 的简单途径，也是分析数据集交互的有力工具。Spark 包含多种运行模式，可使用单机模式，也可以使用分布式模式。为简单起见，本节采用单机模式运行 Spark。无论采用哪种模式，只要启动完成后，就初始化了一个 Spa...

2019-07-06 11:00:10 822

原创大数据框架Spark生态圈简介

Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的，是一个力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的平台。AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案，对海量不透明的数据进行甄别并转化为有用的信息，以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处...

2019-07-06 11:00:08 266

原创大数据框架Spark总体架构和运行流程

本节将首先介绍 Spark 的运行架构和基本术语，然后介绍 Spark 运行的基本流程，最后介绍 RDD 的核心理念和运行原理。Spark 总体架构Spark 运行架构如图 1 所示，包括集群资源管理器（Cluster Manager）、多个运行作业任务的工作结点（Worker Node）、每个应用的任务控制结点（Driver）和每个工作结点上负责具体任务的执行进程（Executor）。...

2019-07-06 11:00:06 261

原创大数据框架Spark RDD是什么？

Spark 的核心是建立在统一的抽象弹性分布式数据集（Resiliennt Distributed Datasets，RDD）之上的，这使得 Spark 的各个组件可以无缝地进行集成，能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。RDD 的基本概念RDD 是 Spark 提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分...

2019-07-06 11:00:05 538

原创大数据框架Spark是什么？Spark和Hadoop的区别

Spark 是加州大学伯克利分校 AMP（Algorithms，Machines，People）实验室开发的通用内存并行计算框架。Spark 在 2013 年 6 月进入 Apache 成为孵化项目，8 个月后成为 Apache 顶级项目。Spark 以其先进的设计理念，迅速成为社区的热门项目，围绕着 Spark 推出了 SparkSQL、SparkStreaming、MLlib 和 Gr...

2019-07-06 10:54:58 306

原创大数据框架Spring Kafka和Spring Boot配置

在下面的教程中，我们将演示如何使用Spring Boot配置Spring Kafka。 Spring Boot使用合理的默认配置Spring Kafka。并使用application.yml属性文件覆盖这些默认值。项目设置Spring Kafka:2.1.4.RELEASE Spring Boot:2.0.0.RELEASE Apache Kafka:kafka_2.11-...

2019-07-06 10:54:56 206

原创大数据框架Spring消费者和生产者

本教程演示了如何发送和接收来自Spring Kafka的消息。首先创建一个能够发送消息给Kafka主题的Spring Kafka Producer。接下来，我们创建一个Spring Kafka Consumer，它可以收听发送给Kafka主题的消息。使用适当的键/值序列化器和解串器来配置它们。最后用一个简单的Spring Boot应用程序演示应用程序。下载并安装Apache Kafka...

2019-07-06 10:54:54 301

原创大数据框架Kafka应用

Kafka支持许多最好的工业应用。在本章中，我们将简要介绍一些Kafka最显着的应用。推特Twitter是一种在线社交网络服务，提供发送和接收用户推文的平台。注册用户可以阅读和发布推文，但未注册的用户只能阅读推文。 Twitter使用Storm-Kafka作为其流处理基础设施的一部分。LinkedIn在LinkedIn上使用Apache Kafka来获取活动流数据和运营指标。 ...

2019-07-06 10:50:31 134

原创大数据框架Kafka工具

Kafka工具包装在org.apache.kafka.tools.*下。工具分为系统工具和复制工具。系统工具系统工具可以使用run class脚本从命令行运行。语法如下 –bin/kafka-run-class.sh package.class -- options 下面提到了一些系统工具 –Kafka迁移工具– 此工具用于将代理从一个版本迁移到另一个版本。 Mir...

2019-07-06 10:50:29 228

原创大数据Kafka与Spark整合

在本章中，将讨论如何将Apache Kafka与Spark Streaming API集成。Spark是什么？Spark Streaming API支持实时数据流的可扩展，高吞吐量，容错流处理。数据可以从Kafka，Flume，Twitter等许多来源获取，并且可以使用复杂算法进行处理，例如:映射，缩小，连接和窗口等高级功能。最后，处理后的数据可以推送到文件系统，数据库和现场仪表板上。...

2019-07-05 21:30:34 504

原创大数据Kafka与Storm整合

在本章中，我们将学习如何将Kafka与Apache Storm集成。Storm是什么？Storm最初是由Nathan Marz和BackType团队创建的。在很短的时间内，Apache Storm成为分布式实时处理系统的标准，用于处理大数据。 Storm速度非常快，每个节点每秒处理超过一百万个元组的基准时钟。 Apache Storm持续运行，从配置的源(Spouts)中消耗数据并将数据...

2019-07-05 21:30:33 682

原创大数据Kafka费者群组示例

消费者群组是来自Kafka主题的多线程或多机器消费。消费者群组消费者可以通过使用samegroup.id加入一个组。一个组的最大并行度是该组中的消费者的数量 ← 分区的数量。 Kafka将一个主题的分区分配给组中的使用者，以便每个分区仅由组中的一位消费者使用。 Kafka保证只有群组中的单个消费者阅读消息。消费者可以按照存储在日志中的顺序查看消息。重新平衡消费者添加更多流...

2019-07-05 21:30:31 139

原创大数据Kafka简单的生产者例子

在这一节中将创建一个使用Java客户端发布和使用消息的应用程序。 Kafka生产者客户端由以下API组成。KafkaProducer API下面来了解Kafka生产者API。 KafkaProducer API的核心部分是KafkaProducer类。KafkaProducer类提供了一个选项，用于将Kafka代理的构造函数与以下方法连接起来。KafkaProducer类提供send...

2019-07-05 21:30:31 261

原创 Kafka环境安装配置

以下是在您的机器上安装Java的步骤。第1步 – Java安装查看是否在机器上安装了java环境，只需使用下面的命令来验证它。$ java -version 如果计算机上已成功安装Java，则可以看到已安装的Java版本。例如 –yiibai@ubuntu:~$ java -version java version "1.8.0_65" Java(TM) SE Run...

2019-07-05 21:20:01 208

原创 Kafka工作流

截至目前，我们已经了解了Kafka的核心概念。现在让我们来看看Kafka的工作流程。Kafka只是分成一个或多个分区的主题集合。 Kafka分区是消息的线性排序序列，每个消息由其索引标识(称为偏移量)。 Kafka集群中的所有数据都是不相关的分区联合。传入消息写在分区的末尾，消费者依次读取消息。通过将消息复制到不同的经纪人来提供持久性。Kafka以快速，可靠，持久的容错和零停机方式提...

2019-07-05 21:19:59 212

原创 Kafka群集体系结构

有关Kafka群集体系结构，请看下面的结构图。它显示了Kafka的集群图。下表描述了上图中显示的每个组件。Broker– Kafka集群通常由多个代理组成，以保持负载平衡。 Kafka经纪人是无状态的，所以他们使用ZooKeeper维护他们的集群状态。一个Kafka代理实例可以处理每秒数十万次的读写操作，每个Broker都可以处理TB消息，而不会影响性能。 Kafka经纪人的领导人选...

2019-07-05 21:19:57 217

原创 Kafka基本原理

在深入学习Kafka之前，需要先了解topics,brokers,producers和consumers等几个主要术语。下面说明了主要术语的详细描述和组件。在上图中，主题(topic)被配置为三个分区。分区1(Partition 1)具有两个偏移因子0和1。分区2(Partition 2)具有四个偏移因子0,1,2和3，分区3(Partition 3)具有一个偏移因子0。replica...

2019-07-05 21:19:55 654

原创 Kafka简介

在大数据中，使用了大量的数据。关于大数据，主要有两个主要挑战。第一个挑战是如何收集大量数据，第二个挑战是分析收集的数据。为了克服这些挑战，需要使用消息传递系统。Kafka专为分布式高吞吐量系统而设计。 Kafka倾向于非常好地取代传统的信息中间服务者。与其他消息传递系统相比，Kafka具有更好的吞吐量，内置分区，复制和固有容错功能，因此非常适合大型消息处理应用程序。什么是消息系统？...

2019-07-05 21:19:54 154

原创 Kafka教程

Apache Kafka起源于LinkedIn，后来于2011年成为Apache开源项目，然后于2012年成为Apache项目的第一个类别。Kafka是使用Scala和Java编写的。 Apache Kafka是基于 – 发布订阅的容错消息系统。它具有快速，可扩展和设计分布的特点。本教程将探讨Kafka的原理，安装和操作，然后它将引导您完成Kafka集群的部署。最后，我们将教程结束实时应用...

2019-07-05 21:19:52 412

原创大数据HiveQL Select Join

JOIN是子句用于通过使用共同值组合来自两个表特定字段。它是用来从数据库中的两个或更多的表组合的记录。它或多或少类似于SQL JOIN。语法 join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN t...

2019-07-04 11:00:01 144

原创大数据HiveQL Select Group By

本章介绍了SELECT语句的GROUP BY子句。GROUP BY子句用于分类所有记录结果的特定集合列。它被用来查询一组记录。语法GROUP BY子句的语法如下： SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROU...

2019-07-04 10:59:59 276

原创大数据HiveQL Select Where

Hive查询语言(HiveQL)是一种查询语言,Hive处理在Metastore分析结构化数据。本章介绍了如何使用SELECT语句的WHERE子句。SELECT语句用来从表中检索的数据。 WHERE子句中的工作原理类似于一个条件。它使用这个条件过滤数据，并返回给出一个有限的结果。内置运算符和函数产生一个表达式，满足以下条件。语法下面给出的是SELECT查询的语法： SELECT...

2019-07-04 10:59:56 122

原创大数据HiveQL Select Order By

本章介绍了如何使用SELECT语句的ORDER BY子句。ORDER BY子句用于检索基于一列的细节并设置排序结果按升序或降序排列。语法下面给出的是ORDER BY子句的语法： SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] ...

2019-07-04 10:59:53 172

原创大数据Hive视图和索引

本章介绍如何创建和管理视图。根据用户的需求创建视图。可以将任何结果集数据保存为一个视图。视图在Hive的用法和SQL视图用法相同。它是一个标准的RDBMS概念。我们可以在视图上执行所有DML操作。创建一个视图可以创建一个视图，在执行SELECT语句的时候。语法如下： CREATE VIEW [IF NOT EXISTS] view_name [(column_name [COMME...

2019-07-04 10:59:51 158

原创大数据Hive内置运算符

本章介绍Hive的内置运算符。在Hive有四种类型的运算符：关系运算符算术运算符逻辑运算符复杂运算符关系运算符这些操作符被用来比较两个操作数。下表描述了在Hive中可用的关系运算符：运算符操作描述 A = B 所有基本类型如果表达A等于表达B，结果TRUE ，否则FALSE。 A != B 所有基本类型如果A不等于表达式...

2019-07-04 10:59:00 71

原创大数据Hive内置运算符

本章介绍Hive的内置运算符。在Hive有四种类型的运算符：关系运算符算术运算符逻辑运算符复杂运算符关系运算符这些操作符被用来比较两个操作数。下表描述了在Hive中可用的关系运算符：运算符操作描述 A = B 所有基本类型如果表达A等于表达B，结果TRUE ，否则FALSE。 A != B 所有基本类型如果A不等于表达式...

2019-07-04 10:58:58 90

原创大数据Hive分区

Hive组织表到分区。它是将一个表到基于分区列，如日期，城市和部门的值相关方式。使用分区，很容易对数据进行部分查询。表或分区是细分成桶，以提供额外的结构，可以使用更高效的查询的数据。桶的工作是基于表的一些列的散列函数值。例如，一个名为Tab1表包含雇员数据，如 id, name, dept 和yoj (即加盟年份)。假设需要检索所有在2012年加入，查询搜索整个表所需的信息员工的详细信息。...

2019-07-04 10:58:55 219

原创大数据Hive删除表

本章介绍了如何在Hive中删除表。当从Hive Metastore删除表，它删除了表/列的数据及其元数据。它可以是一个正常的表(存储在Metastore)或外部表(存储在本地文件系统); 不论什么类型Hive对待的方式相同。Drop Table语句语法如下： DROP TABLE [IF EXISTS] table_name;以下查询删除一个名为employee 的表:...

2019-07-04 10:58:53 403

原创大数据Hive创建表

本章将介绍如何创建一个表以及如何将数据插入。创造表的约定在Hive中非常类似于使用SQL创建表。CREATE TABLE语句Create Table是用于在Hive中创建表的语句。语法和示例如下：语法 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name [(col_name d...

2019-07-04 10:58:51 651

原创大数据框架基础HBase计数和截断

count可以使用count命令计算表的行数量。它的语法如下： count ‘<table name>’删除第一行后，表emp就只有两行。验证它，如下图所示。 hbase(main):023:0> count 'emp' 2 row(s) in 0.090 seconds => 2truncate此命令将禁止删除并重新创建一个表。trun...

2019-07-03 12:01:22 130

原创大数据框架基础Hive数据类型

本章介绍Hive不同的数据类型，用于创建表。Hive所有数据类型分为四种类型，给出如下：列类型文字 Null 值复杂类型列类型列类型被用作Hive的列数据类型。它们如下：整型整型数据可以指定使用整型数据类型，INT。当数据范围超过INT的范围，需要使用BIGINT，如果数据范围比INT小，使用SMALLINT。 TINYINT比SMALLINT小。下表描述了各种IN...

2019-07-03 12:01:21 106

原创大数据框架基础Hive安装

所有Hadoop的子项目，如Hive, Pig,和HBase 支持Linux的操作系统。因此，需要安装Linux OS。以下是为Hive的安装执行的简单步骤：第1步：验证JAVA安装在Hive安装之前，Java必须在系统上已经安装。使用下面的命令来验证是否已经安装Java： $ java –version如果Java已经安装在系统上，就可以看到如下回应： java ve...

2019-07-03 12:01:19 134

原创大数据框架基础Hive教程

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集，其中包括体积庞大，高速，以及各种由与日俱增的数据的集合。使用传统的数据管理系统，它是难以加工大型数据。因此，Apache软件基金会推出了一款名为Hadoop的...

2019-07-03 12:01:18 225

原创大数据框架基础HBase安全

我们可以授予和撤销HBase用户的权限。也有出于安全目的，三个命令：grant, revoke 和 user_permission.。grantgrant命令授予特定的权限，如读，写，执行和管理表给定一个特定的用户。 grant命令的语法如下： hbase> grant <user> <permissions> [<table> [<...

2019-07-03 12:01:16 122

空空如也

空空如也