yiyidsj-CSDN博客

原创 Spark DStream相关操作

与 RDD 类似，DStream 也提供了自己的一系列操作方法，这些操作可以分成 3 类：普通的转换操作、窗口转换操作和输出操作。普通的转换操作普通的转换操作如表 1 所示表 1 普通的转换操作 Suo 描述 map(func) 源 DStream 的每个元素通过函数 func 返回一个新的 DStream。 flatMap(func) 类似于 map 操作...

2020-02-11 20:57:30 587

原创 Spark是什么？Spark和Hadoop的区别

Spark 是加州大学伯克利分校 AMP（Algorithms，Machines，People）实验室开发的通用内存并行计算框架。Spark 在 2013 年 6 月进入 Apache 成为孵化项目，8 个月后成为 Apache 顶级项目。Spark 以其先进的设计理念，迅速成为社区的热门项目，围绕着 Spark 推出了 SparkSQL、SparkStreaming、MLlib 和 Gr...

2020-02-11 20:28:17 471

原创 PySpark初级教程——大数据分析(附代码实现 )

简介我们正在以前所未有的速度生成数据。老实说，我跟不上世界各地里产生的巨大数据量!我敢肯定你已经了解过当今时代数据的产量。McKinsey, Gartner, IBM,等公司都给出了他们公司的数据。这里有一些令人难以置信的数字供你参考。有超过5亿条推文、900亿封电子邮件、6500万条WhatsApp消息，以上这些都是在一天之内发送的!Facebook在24小时内能生成4PB的数据。这是难...

2020-02-07 16:55:27 1322 1

微软的ASG (应用与服务集团)包含Bing,、Office,、Skype。每天产生多达5 PB以上数据，如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。本文将介绍微软ASG大数据团队如何利用Kafka、Spark以及Elasticsearch来解决这个问题。微软的ASG (应用与服务集团)包含Bing,、Office,、Skype。每天产生多达...

2020-02-07 16:50:50 907

原创寻找数据统治力：比较Spark和Flink

当提及大数据时，我们无法忽视流式计算的重要性，它能够完成强大的实时分析。而说起流式计算，我们也无法忽视最强大的数据处理引擎：Spark和Flink。Apache Spark自2014年以来迅速普及。它提供了一个适用常见数据处理场景的统一引擎，如批处理、流处理、交互式查询和机器学习。在某些情况下，它的性能是前一代Hadoop MapReduce的数百倍。凭借其高性能的处理和广泛的场景支持，它在大...

2020-02-06 16:07:59 435

原创 spark 发展史，最近迎来 3.0 时代

注：以下图片均引用自2019年阿里云栖大会Spark发展史1 动态分区(Dynamic Partition Pruning)在3.0以前，spark是不支持动态分区的，所谓动态分区就是针对分区表中多个表进行join的时候，在on后面的条件语句满足一定的要求后就会进行自动动态分区裁减优化，比如：1SELECT t1.id,t2.pKey2FROM t13JOIN t2...

2020-02-06 15:52:08 1432

原创 Hello Spark! | Spark，从入门到精通

欢迎阅读美图数据技术团队的「Spark，从入门到精通」系列文章，本系列文章将由浅入深为大家介绍 Spark，从框架入门到底层架构的实现，相信总有一种姿势适合你，欢迎大家持续关注：）/ 什么是 Spark？ /Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级...

2020-02-06 15:43:22 556

原创 Spark Streaming编程实战（开发实例）

本节介绍如何编写 Spark Streaming 应用程序，由简到难讲解使用几个核心概念来解决实际应用问题。流数据模拟器在实例演示中模拟实际情况，需要源源不断地接入流数据，为了在演示过程中更接近真实环境，首先需要定义流数据模拟器。该模拟器的主要功能是通过 Socket 方式监听指定的端口号，当外部程序通过该端口进行连接并请求数据时，模拟器将定时将指定的文件数据进行随机获取，并发送给外部程序...

2020-02-11 20:59:07 313

原创 Spark Streaming编程模型

DStream 的操作流程DStream 作为 Spark Streaming 的基础抽象，它代表持续性的数据流。这些数据流既可以通过外部输入源来获取，也可以通过现有的 DStream 的 Transformation 操作来获得。在内部实现上，DStream 由一组时间序列上连续的 RDD 来表示。如图 1 所示，每个 RDD 都包含了自己特定时间间隔内的数据流。图 1DStr...

2020-02-11 20:53:53 261

原创 Spark Streaming的系统架构

传统流处理系统架构流处理架构的分布式流处理管道执行方式是，首先用数据采集系统接收来自数据源的流数据，然后在集群上并行处理数据，最后将处理结果存放至下游系统。为了处理这些数据，传统的流处理系统被设计为连续算子模型，其工作方式如图 1 所示。系统包含一系列的工作结点，每组结点上运行一至多个连续算子。对于流数据，每个连续算子（ContinuousOperator）一次处理一条记录，并且将记录...

2020-02-11 20:52:39 251

原创 Spark Streaming简介

Spark Streaming 是 Spark 核心 API 的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据，包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后，可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算...

2020-02-11 20:49:51 362

原创 Spark开发实例（编程实践）

本节将介绍如何实际动手进行 RDD 的转换与操作，以及如何编写、编译、打包和运行 Spark 应用程序。启动 SparkShellSpark 的交互式脚本是一种学习 API 的简单途径，也是分析数据集交互的有力工具。Spark 包含多种运行模式，可使用单机模式，也可以使用分布式模式。为简单起见，本节采用单机模式运行 Spark。无论采用哪种模式，只要启动完成后，就初始化了一个 Spa...

2020-02-11 20:47:19 503

原创 Spark生态圈简介

Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的，是一个力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的平台。AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案，对海量不透明的数据进行甄别并转化为有用的信息，以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处...

2020-02-11 20:44:42 385

原创 Spark总体架构和运行流程

本节将首先介绍 Spark 的运行架构和基本术语，然后介绍 Spark 运行的基本流程，最后介绍 RDD 的核心理念和运行原理。Spark 总体架构Spark 运行架构如图 1 所示，包括集群资源管理器（Cluster Manager）、多个运行作业任务的工作结点（Worker Node）、每个应用的任务控制结点（Driver）和每个工作结点上负责具体任务的执行进程（Executor）。...

2020-02-11 20:42:33 291

原创 Spark RDD是什么？

Spark 的核心是建立在统一的抽象弹性分布式数据集（Resiliennt Distributed Datasets，RDD）之上的，这使得 Spark 的各个组件可以无缝地进行集成，能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。RDD 的基本概念RDD 是 Spark 提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分...

2020-02-11 20:30:01 705 1

原创 Spark Redis MongoDB大数据平台数据服务框架scala源码推荐

大数据平台数据服务框架。实现了Kafka实时数据过滤、清洗、转换、消费，实现了Spark SQL对Redis、MongoDB等非关系型数据库的数据的读写；集成了规则引擎，可基于规则引擎实现客户标签、画像等相关功能。DataService-Framework项目介绍基于大数据平台的数据处理服务框架。结合大数据项目实际使用场景，提取出的一些通用的功能，形成大数据平台数据处理...

2020-02-10 16:09:59 287

原创技术分享：基于HBase和Spark构建企业级数据处理平台

基于HBase和Spark构建企业级数据处理平台,面临的场景:金融风控;个性化推荐；社交Feeds;时空时序以及大数据等。作者：大数据与机器学习面临的场景金融风控用户画像库爬虫抓取信息反欺诈系统订单数据个性化推荐用户行为分析用户画像推荐引擎海量实时数据处理社交Feeds海量帖子、文章聊天、评论海量实时数据处理时空时序监控数...

2020-02-10 16:08:24 222

原创 Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践

一、前言随着IT技术的飞速发展，各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务。目前，医疗IT系统收集了大量极具价值的数据，但这些历史医疗数据并没有发挥出其应有的价值。为此，本文拟利用医院现有的历史数据，挖掘出有价值的基于统计学的医学规则、知识，并基于这些信息构建专业的临床知识库，提供诊断、处方、用药推荐功能，基于强大的关联推荐能力，极大地提高医疗服务质量，减轻医疗人员的工作...

2020-02-10 16:04:55 866

原创大数据技术学习：如何衔接Spark 和Tensorflow？

001、Spark&Tensorflow我们知道，Spark 目前是大数据处理组件的王者，实现了让大数据处理更轻松的远景。Tensorflow则是深度学习当之无愧最热的框架。而在现实当中，Spark 和Tensorflow的衔接往往是脱节的。我们希望保留Spark/TF各自的优势和习惯，并且能够实现无缝衔接。因为我自身是比较熟悉Spark的，Spark一开始就立足于提供一个完整技术...

2020-02-10 16:03:15 1257

原创大数据开发零基础需要学习什么内容？（3）Spark生态体系

前面我们说到0基础学习大数据开发需要的Java基础、大数据基础和大数据技术学习的重点之一Hadoop，今天小编继续来介绍大数据学习的重点之二：Spark。四、Spark生态体系（1）Spark简介：Spark 是专为大规模数据处理而设计的快速通用的计算引擎。用来构建大型的、低延迟的数据分析应用程序。可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等。S...

2020-02-10 16:00:52 308 1

原创大数据技术分享：Spark开发调优性能优化（基础篇）

1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。大多数同学，最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。今天，成都加米谷大数据就将spark开发调优的性能优化篇（基础...

2020-02-10 15:51:23 393

原创大数据Spark实战高手之路职业学习路线图

从零起步，分阶段无任何障碍逐步掌握大数据统一计算平台Spark，从Spark框架编写和开发语言Scala开始，到Spark企业级开发，再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试，一次性彻底掌握Spark，成为云计算大数据时代的幸运儿和弄潮儿，笑傲大数据职场和人生！学习目标：1、掌握Scala；2、精通Spark企业及开发；3、精通Spark框架源...

2020-02-10 15:44:22 1629

原创 Hadoop、Spark和Storm有什么关系，未来大数据架构会走向何方

短短几年时间，大数据这个词便已家喻户晓。但在大数据这个名词被命名之前，人类对数据的搜集与分析已有着悠久的历史。从人工统计分析到电脑/大型机再到今天的分布式计算平台，数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于Hadoop，Spark和Storm这三种，而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头，也让网上逐渐开始有一种声音说Hadoop的日...

2020-02-10 11:44:08 216

原创大数据计算：Storm和Spark Streaming、Hadoop有什么区别？

目前主流的三大分布式计算系统分别为Hadoop、Spark和Strom，它们三者之间有什么区别呢？今天加米谷大数据就来简单介绍一下。Storm与Spark Streaming的区别（1）Apache Storm：是一个分布式的，可靠的，容错的数据流处理系统。Storm可用于：“流处理”之中，实时处理消息并更新数据库；用户行为日志有准事实的查询需求，对数据流做连续查询；还...

2020-02-07 17:28:19 1105

原创大数据处理为何选择spark？

大数据处理为何选择Spark，而不是Hadoop？一、基础知识1、SparkSpark是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调...

2020-02-07 17:25:37 612

原创大数据Spark性能调优之数据倾斜

如今学习大数据开发的人不断的增加，但是关于大数据也有不少的小伙伴不是很了解，本篇文章小编就和大家一块来看一下大数据分析之大数据Spark性能调优之数据倾斜，希望可以帮到喜欢或者准备学习大数据的小伙伴们。大数据培训绝大多数task执行得都非常快，但个别task执行极慢。比如总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时，这种情况很常...

2020-02-07 17:15:16 156

原创 Spark 2.4 正式发布，重要功能详细介绍

如下：♦ 添加一种支持屏障模式(barrier mode)的调度器，以便与基于MPI的程序更好地集成，例如，分布式深度学习框架;♦ 引入了许多内置的高阶函数，以便更容易处理复杂的数据类型(比如数组和 map);♦ 开始支持 Scala 2.12;♦ 允许我们对 notebooks 中的 DataFrame 进行热切求值(eager evaluation)，以便于调试和排...

2020-02-07 17:12:45 450

原创大数据开发技术生态Hadoop、Hive、Spark之间是什么关系

大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所有需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据。传统的文件系统是单机的，不能横跨不同的...

2020-02-07 16:31:15 341

原创大数据实时流计算平台Spark Streaming二次封装开源框架源码分享

一个完善的Spark Streaming二次封装开源框架，包含：实时流任务调度、kafka偏移量管理，web后台管理，web api启动、停止spark streaming，宕机告警、自动重启等等功能支持，用户只需要关心业务代码，无需关注繁琐的技术细节，大大提高实时流开发效率和难度(附demo)。Spark Streaming Framework简称SSF（一个完善的Spark Streami...

2020-02-07 16:29:09 814 2

原创 PySpark和大数据处理初探

由于数据量太大而不能在一台机器上进行处理这样的情况已经越来越常见了。幸运的是，已经有Apache Spark、Hadoop等技术被开发出来，去解决这个确切的问题。这些系统的强大功能可以直接在Python中使用PySpark来发掘!有效地处理GB及以上级别的数据集是任何Python开发者都应该会的，无论你是一个数据科学家、web开发人员还是介于两者之间的任何人员。在本教程中，你将学习:什...

2020-02-07 16:26:53 1324 1

原创大数据系列：Spark学习笔记

1.关于Spark2009年，spark诞生于伯克利大学的amplab。最重要的是，spark只是一个实验项目，只包含很少的代码，属于轻量级框架。 2010年，伯克利大学正式启动了Spark项目。 2013年6月，Spark成为Apache基金会的一个项目，并进入了高速开发阶段。第三方开发人员贡献了大量代码，并且非常活跃 2014年2月，Spark被称为Apache的顶级项目。...

2020-02-07 16:20:39 370

原创 Spark核心技术原理透视一（Spark运行原理）

在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位。Spark的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。Spark提供的基于RDD的一体化解决方案，将MapReduce、Streaming、SQL、Machine Learning、Graph Proce...

2020-02-06 16:12:33 235

原创手把手带你入门PySpark！

PySpark数据科学入门PySpark是一种很好的语言，可以大规模地进行探索性数据分析、构建机器学习管道以及为数据平台创建ETL。如果您已经熟悉Python和Pandas等库，那么PySpark是一种很好的语言，可以用来创建更具扩展性的分析和管道。这篇文章的目的是展示如何启动和运行PySpark并执行常见任务。我们将使用Databricks作为Spark环境，将Kaggle的NHL数据集...

2020-02-06 16:03:56 3533 1

原创新手福利：Apache Spark入门攻略

【编者按】时至今日，Spark已成为大数据领域最火的一个开源项目，具备高性能、易于使用等特性。然而作为一个年轻的开源项目，其使用上存在的挑战亦不可为不大，这里为大家分享SciSpike软件架构师Ashwini Kuntamukkala在Dzone上进行的Spark入门总结（虽然有些地方基于的是Spark 1.0版本，但仍然值得阅读）——Apache Spark：An Engine for Larg...

2020-02-06 15:55:28 909 1

原创零基础学大数据开发，Spark 学习资源分享

本系列是基于目前最新的 spark 1.6.0 系列开始的，spark 目前的更新速度很快，记录一下版本好还是必要的。来源：segmentfault1. 书籍Learning Spark Mastering Apache Spark2. 网站official site user mailing list spark channel on youtube ...

2020-02-06 15:53:34 226

原创 30分钟理解Spark的基本原理

01Spark优势特点作为大数据计算框架 MapReduce 的继任者，Spark 具备以下优势特性。01高效性不同于 MapReduce 将中间计算结果放入磁盘中，Spark 采用内存存储中间计算结果，减少了迭代运算的磁盘 IO，并通过并行计算 DAG 图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。内存计算下，Spark 比 MapReduce 快 100 倍。...

2020-02-06 15:47:16 239

原创 Hadoop Spark：全面比拼（架构、性能、成本、安全）

每年，市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中，Hadoop和Spark是获得最大关注的两个。然而该怎么判断哪一款适合你?如果想批处理流量数据，并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模，Mahout或MLLib会更好地满足你的需求吗?为了增加混淆，Spark和Hadoop经常与位于HDFS，Ha...

2020-02-06 15:44:50 377

原创深度预警:Spark运行原理

本文主要分以下章节：一、Spark专业术语定义二、 Spark的任务提交机制一、Spark专业术语定义1、Application：Spark应用程序指的是用户编写的Spark应用程序，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序，由一个或多个作业JOB组成，如下图所示:image2、Driver：驱动程序S...

2020-02-06 15:35:44 258

原创大数据实战丨如何快速搭建一个自己的Spark分布式架构

从零开始搭建我们的Spark平台1、准备centeros环境为了搭建一个真正的的集群环境，并且要做到高可用的架构，我们至少准备三个虚拟机来作为集群节点。因此我购买了三台阿里云的服务器，来作为我们的集群节点。注意到，master是主节点，而slave顾名思义就是奴隶，自然就是为主节点工作的节点。实际上，在我们这个集群中，master和slave并没有那么明确的区分，因为事实上他...

2020-02-05 15:39:54 491

原创如何用Spark进行数据分析

小编和大家分享一下Spark是什么?如何用Spark进行数据分析，对大数据感兴趣的小伙伴就随着小编一起来了解一下吧。如何用Spark进行数据分析什么是Apache Spark?Apache Spark是一个为速度和通用目标设计的集群计算平台。从速度的角度看，Spark从流行的MapReduce模型继承而来，可以更有效地支持多种类型的计算，如交互式查询和流处理。速度在大数据集的处...

2020-02-05 15:36:23 5304

空空如也

空空如也