BAO7988-CSDN博客

原创深度解析Spark

Spark是UC Berkeley AMP lab所开发类似于Hadoop MapReduce的通用并行计算框架，Spark是基于map reduce算法实现分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出的结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce算法。...

2019-12-24 12:59:42 280

原创大数据Spark性能优化指南基础

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能...

2019-12-09 14:22:28 198

原创大数据计算框架Spark之内存模型

Executor 端的内存模型,包括堆内内存(On-heap Memory)和堆外内存(Off-heap Memory)存管理接口（MemoryManager ）Spark 为Execution 内存和Storage 内存的管理提供了统一的接：MemoryManager。MemoryManager 的具体实现上，Spark 1.6 之后默认为统一管理（Unified Memo...

2019-12-25 12:09:56 417

原创最详细的Spark内存管理

spark 各版本的内存参数:一.Spark 1.6内存管理：spark 1.6之前使用StaticMemoryManager，叫legacy模式，默认是关闭的。spark1.6开始，使用UnifiedMemoryManager。1.6开始的内存结构：由上图知道，内存由三部分组成。1.Reserved Memory ,系统保留的内存，是硬编码写死的，s...

2019-12-25 12:06:02 771

原创 Spark大数据集群计算的生产实践

本文会介绍 Spark 核心社区开发的生态系统库，以及 ML MLlib 及 Spark Streaming 的 Spark 库的具体用法，对于企业的各种用例及框架也进行了说明。spark拥有一个庞大的、不断增长的社区，还有在企业环境中不可或缺的生态系统。这些生态系统提供了不同生产环境案例所需的许多功能。一般来说，Spark 应用做的是机器学习算法、日志聚合分析或者商务智能相关的...

2019-12-25 12:00:56 351

原创大数据技术分享：Spark Streaming 技术点汇总

park Streaming支持实时数据流的可扩展(Scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。架构图特性如下：• 可线性伸缩至超过数百个节点;• 实现亚秒级延迟处理;• 可与 Spark 批处理和交互式处理无缝集成;• 提供简单的API实现复杂算法;• 更多的...

2019-12-25 11:56:28 275

原创 Spark RDD 概念以及核心原理

2、依赖关系下的数据流视图　　　　　　在spark中，会根据RDD之间的依赖关系将DAG图划分为不同的阶段，对于窄依赖，由于partition依赖关系的确定性，partition的转换处理就可以在同一个线程里完成，窄依赖就被spark划分到同一个stage中，而对于宽依赖，只能等父RDD shuffle处理完成后，下一个stage才能开始接下来的计算。　　因此spark划...

2019-12-25 11:28:37 245

原创 Spark 与 Mapreduce 对比（多进程、多线程）

多进程模型，多线程模型Hadoop MapReduce采用了多进程模型，而Spark采用了多线程模型：Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver 端采用的模型），这与Hadoop 2.X（包括YARN和MapReduce）是一致的。Hadoop 2.X自己实现了类似Actor的异步并发模型，实现方式是epoll+...

2019-12-25 11:21:19 527

原创大数据流计算引擎丨Spark和Flink的巅峰对决，究竟谁才是大哥

2018和2019年是大数据领域蓬勃发展的两年，自2019年伊始，实时流计算技术开始步入普通开发者视线，各大公司都在不遗余力地试用新的流计算框架，实时流计算引擎Spark Streaming、Kafka Streaming、Beam和Flink持续火爆。最近Spark社区，来自Databricks、NVIDIA、Google以及阿里巴巴的工程师们正在为Apache Spark 3.0添加原生的...

2019-12-25 11:19:44 399

原创大数据处理 | Spark集群搭建及基本使用

本文来详细介绍一下Spark集群的搭建及Spark的运行原理、运行模式。—▼—Spark集群环境搭建如果已经理解了前文Hadoop集群环境的搭建，那么学习Spark集群环境的搭建会容易很多，因为Hadoop和Spark不仅安装包目录结构非常相似，在配置方面也十分接近。均是在master节点上进行所有配置，然后打包复制到每个slave节点，然后启动集群Spark即可，下面就...

2019-12-25 11:16:12 551

原创大数据 | Spark机器学习工作流开发指南

Spark.ml是在Spark 1.2开始引入的一个包，它旨在提供一套统一的高级API，帮助用户创建和优化实用的机器学习工作流，它在原来的MLlib的基础上进行了大量的改进和优化，让Spark生态更见坚不可摧，本文就来详细介绍一下Spark机器学习工作流的基本概念和用法。—▼—我建了一个QQ学习交流群，旨在“分享、讨论、学习、资源分享、就业机会、互联网内推、共同进步！”，感兴趣的可以加...

2019-12-25 11:14:09 263

原创每周一书《Spark与Hadoop大数据分析》分享！

Spark与Hadoop大数据分析比较系统地讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法，既涵盖ApacheSpark和Hadoop的基础知识，又深入探讨所有Spark组件——SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx，以及Hadoop的核心组件（HDFS、MapReduce和Yarn）等...

2019-12-25 11:08:53 284

原创 5分钟图解《Spark快速大数据分析》步骤4：将Shell日志信息精简化

第1步：进入E盘spark安装目录下的conf文件夹，将log4j.properties.template在本文件夹下复制一份，并重命名为log4j.properties第2步：用记事本打开log4j.properties文件，将按照下图红框修改，由INFO改成WARN，并保存。第3步：重新启动Spark Shell，发现日志信息大量减少。Spark...

2019-12-24 12:57:31 184

原创 5分钟图解《Spark快速大数据分析》步骤3：安装Spark（win7版）

第1步：进入官网，下载spark安装包http://spark.apache.org/downloads.html第2步：将spark安装包解压到E盘第3步：键盘按下Windows+R，输入cmd，点击确认第4步：输入以下命令第5步：屏幕应当出现以下内容第6步：输入以下内容，反应和下图所示相同，说明安装成功...

2019-12-24 12:55:15 148

原创 5分钟图解《Spark快速大数据分析》步骤2：安装scala（win7版）

第1部：登录scala官网：https://www.scala-lang.org/download/第2步：在首页就能找到下载链接，点击下载第3步：在E盘新建一个文件夹scala第4步：双击安装包，点击下一步第5步：修改安装路径（这里建议不要选择默认的安装路径，后续可能会报错），然后继续安装。安装路径为：E:\scala第6步：...

2019-12-24 12:53:28 178

原创 5分钟图解《Spark快速大数据分析》步骤1：安装JAVA（win7版）

第1步：进入官网下载1.8版本以上的JDK直接复制链接：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html第2步：在D盘新建Java文件夹，并在Java文件夹里新建jdk、jre这两个文件夹第3步：双击安装第4步：设置jdk安装路径...

2019-12-24 12:47:32 154

原创 5分钟图解《Spark快速大数据分析》步骤5：Spark第一个简单案例

第0步：先欣赏下图红框内容，下面三行代码，就是一个完整的简单案例。第1步：通过读取文件“README.md”，创建一个名为lines的RDD。这个源文件就位于spark的根目录下，可以在E盘spark安装文件夹里找到。第2步：使用count（）方法，统计RDD中元素的个数，结果显示有103个元素。第3步：使用first（）方法，统计RDD中的第一...

2019-12-24 12:46:01 512

原创 Apache Spark 实现可扩展日志分析，挖掘系统最大潜力（1）

几乎每个大大小小的组织都有多个系统和基础设施日复一日地运行。为了有效地保持业务运行，组织需要知道他们的基础设施是否发挥了最大潜力。这包括分析系统和应用程序日志，甚至可能对日志数据应用预测分析。引言现如今，在利用分析的案例中，日志分析是最流行、最有效的企业案例之一。几乎每个大大小小的组织都有多个系统和基础设施日复一日地运行。为了有效地保持业务运行，组织需要知道他们的基础设施是否...

2019-12-24 12:41:35 221

原创 Apache Spark大数据分析入门（一）教程

Apache Spark的出现让普通人也具备了大数据及实时数据分析能力。鉴于此，本文通过动手实战操作演示带领大家快速地入门学习Spark。本文是Apache Spark入门系列教程（共四部分）的第一部分。全文共包括四个部分：第一部分：Spark入门，介绍如何使用Shell及RDDs 第二部分：介绍Spark SQL、Dataframes及如何结合Spark与Cassandra一起使用 ...

2019-12-24 12:33:24 1223

原创「Spark大数据系列」spark RDD 深入浅出之理解RDD 是什么

一．理解RDD 是什么RDD的全称是：Resilient Distributed Dataset （弹性分布式数据集），它有几个关键的特性：RDD是只读的，表示它的不可变性。可以并行的操作分区集合上的所有元素。怎么做到的呢？我们可以从RDD的内部实现来进行了解。每个RDD的内部，有5个主要特性：A list of partitions （一个分区列表，可以获取所有的数据分区）A ...

2019-12-24 12:29:55 189

原创大数据干货丨京东基于 Spark 的风控系统架构实践和技术细节

背景京东作为国内电商的龙头企业，在今天遭受着严酷的风险威胁。机器注册账号、恶意下单、黄牛抢购、商家刷单等等问题如果不被有效阻止，会给京东和消费者带来难以估量的损失互联网行业中，通常使用风控系统抵御这些恶意访问。在技术层面上来讲，风控领域已逐渐由传统的“rule-base”（基于规则判断）发展到今天的大数据为基础的实时+离线双层识别。Hadoop，Spark等大数据大集群分布式处理框架的不断...

2019-12-24 12:27:46 796

原创 5分钟图解《Spark快速大数据分析》步骤6：RDD基本概念精炼版

第1步：RDD是什么？RDD其实就是一个分布式的元素集合。作为一个数据集合，它感觉起来跟Array、List等集合差不多，只不过它复杂一些，这些集合中的数据，是分布在不同的电脑主机上的。第2步：白话RDD计算流程（Spark Shell版）：1、进入WindowsDOS 命令行（开始--->运行--->cmd）2、启动Spark shell。（Spark shell是一...

2019-12-21 18:12:45 232

原创从WordCount看Spark大数据处理的核心机制

大数据处理肯定是分布式的了，那就面临着几个核心问题：可扩展性，负载均衡，容错处理。Spark是如何处理这些问题的呢?接着上一篇的“动手写WordCount”，今天要做的就是透过这个大数据界的HelloWorld来看看Spark隐藏了哪些魔法。请各位看官，带着分布式的问题往下看。分布式架构大数据时代，单机装下PB级的数据，然后在可接受的时间内处理完，不可能，所以一定是分布式的。▶ 分...

2019-12-21 18:10:18 151

原创大数据开发学习：Spark和Hadoop MapReduce有什么区别？

很多人认为Spark 将代替 Hadoop MapReduce，成为未来大数据处理发展的方向，MapReduce和Spark之间存在哪些区别？Spark会取代Hadoop吗？大数据技术学习为什么要既要学习Hadoop又要学习Spark？今天就来说说这二者。Hadoop MapReduce：一种编程模型，是面向大数据并行处理的计算模型、框架和平台，用于大规模数据集（大于1T...

2019-12-21 18:04:06 374

原创大数据Spark中对RDD的理解

大数据开发技术在各大公司企业中一直备受关注，因此想要参加大数据培训学习大数据开发技术的人有很多，本篇文章小编就给读者们分享一下大数据Spark中对RDD的理解。RDD(Resilient Distributed Datasets)，RDD是一个弹性分布式数据集，是分布式内存的一个抽象概念，提供了一种高度受限共享内存模型。关于大数据Spark中对RDD的理解，现在分享给大家。RDD的特...

2019-12-21 17:59:41 236

原创大数据系列：Spark的工作原理及架构

介绍本Apache Spark教程将说明Apache Spark的运行时架构以及主要的Spark术语，例如Apache SparkContext，Spark shell，Apache Spark应用程序，Spark中的任务（Task），作业（job）和阶段（stage）。此外，我们还将学习Spark运行时体系结构的组件，例如Spark driver，集群管理器（cluster m...

2019-12-21 17:57:43 461

原创 3分钟让你学会大数据：Spark生态原理剖析

Spark是基于内存计算的通用大规模数据处理框架。Spark快的原因：Spark基于内存，尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle Spark对于反复用到的数据进行了缓存 Spark对于DAG进行了高度的优化，具体在于Spark划分了不同的stage和使用了延迟计算技术弹性数据分布集RDD：Spark将数据保存分布式内存中，对分布式内存的抽象理解...

2019-12-21 17:55:49 123

原创 Spark大数据处理框架入门-包括生态系统、运行流程以及部署方式

Spark 大数据处理框架简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而...

2019-12-21 17:54:08 419

原创权威指南：Hadoop vs Spark vs Flink –大数据框架比较

一、目的在本文中，我们将对 Apache Hadoop、Spark、 Flink三者之间的功能进行比较。它们都是大数据处理技术，以各种特色和优势迅速占领了IT大数据处理市场。本文您将了解Spark所针对的Hadoop的局限性以及由于 Spark的缺点而产生Flink数据处理引擎。因此，让我们开始Hadoop vs Spark vs Flink吧。Hadoop vs Spark vs F...

2019-12-21 17:47:10 3630

原创 Hadoop、Spark、Kylin...你知道大数据框架名字背后的故事吗？

对软件命名并不是一件容易的事情，名字要朗朗上口，易于记忆，既不能天马行空，又要代表软件本身的功能和创新。本文将例数几款大数据框架及其创始背后的故事。Hadoop：最具童心2004年，Apache Hadoop（以下简称Hadoop）的创始人Doug Cutting和Mike Cafarella受MapReduce编程模型和Google File System等论文的启发，对论文中提及的思想...

2019-12-21 17:44:45 419

原创深入浅出理解 Spark：环境部署与工作原理

一、Spark 概述Spark 是 UC Berkeley AMP Lab 开源的通用分布式并行计算框架，目前已成为 Apache 软件基金会的顶级开源项目。Spark 支持多种编程语言，包括 Java、Python、R 和 Scala，同时 Spark 也支持 Hadoop 的底层存储系统 HDFS，但 Spark 不依赖 Hadoop。1.1 Spark 与 HadoopSpark...

2019-12-21 17:42:10 252

原创 Spark成为大数据分析领域新核心的五个理由

在过去几年当中，随着Hadoop逐步成为大数据处理领域的主导性解决思路，原本存在的诸多争议也开始尘埃落定。首先，Hadoop分布式文件系统是处理大数据的正确存储平台。其次，YARN是大数据环境下理想的资源分配与管理框架选项。第三也是最重要的一点，没有哪套单一处理框架能够解决所有问题。虽然MapReduce确实是一项了不起的技术成果，但仍然不足以成为百试百灵的特效药。依赖于Hadoop的企业...

2019-12-20 15:34:07 235

原创大数据：Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。Spark性能优化指南——基础篇数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方...

2019-12-20 15:30:05 585

原创大数据技术应用干货：Spark在360商业数据部的应用实践

Spark是一个正在快速成长的开源集群计算系统，生态系统中的包和框架日益丰富，使得Spark能够进行高级数据分析。功能强大、易于使用性，相比于传统的MapReduce大数据分析，Spark效率更高、运行时速度更快。成都加米谷大数据开发培训，学习hadoop、spark等技术。Spark的应用现状Spark需求背景随着数据规模的持续增长，数据需求越来越多，原有的以MapRedu...

2019-12-20 15:26:51 276

原创大数据分析工程师面试集锦：Spark 面试指南

本篇文章为大家带来spark面试指南，文内会有两种题型，问答题和代码题，题目大部分来自于网络上，有小部分是来自于工作中的总结，每个题目会给出一个参考答案。为什么考察Spark？Spark作为大数据组件中的执行引擎，具备以下优势特性。1.高效性。内存计算下，Spark 比 MapReduce 快100倍。Spark使用最先进的DAG调度程序、查询优化程序和物理执行引擎，实现批量...

2019-12-20 15:18:03 286

原创大数据技术之SparkSQL（四）RDD、DataFrame、DataSet异同

2.5 RDD、DataFrame、DataSet在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后...

2019-12-20 15:16:23 246 1

原创大数据技术之Spark入门（二）Spark运行模式

2.1 Spark安装地址1．官网地址http://spark.apache.org/2．文档查看地址https://spark.apache.org/docs/2.1.1/3．下载地址https://spark.apache.org/downloads.html2.2 重要角色2.2.1 Driver（驱动器）Spark的驱动器是执行开发程序中的main方法的...

2019-12-20 15:13:16 381

原创大数据学习笔记之Spark：Spark基础解析

第1章Spark概述spark的产生背景spark是如何产生的，这要先送大数据说起，大数据是如何产生的？Google就是处理大数据的，网页和网页之间有很多的关联关系，为了处理排序啊这些算法，所以Google就发明了，Google就发布了三个论文，基于这三个论文的开源，实现了Hadoop、Hdfs、MapReduce、Hbase等，但是感觉好像每次MapReduce只能处理一次数据...

2019-12-20 15:06:52 446

原创大数据技术，Spark核心技术之运行原理

在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位。Spark的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。Spark提供的基于RDD的一体化解决方案，将MapReduce、Streaming、SQL、Machine Learning、Graph Process...

2019-12-20 15:04:15 270

原创 Python与Spark大数据！

数据分析经常会遇到数据量大的问题，比如用Python语言时经常会遇到内存溢出的问题，即使把整个机器内存全部使用，达到最大使用率，还是无济于事，比如数据量是10T，并且在大数据量下，既要保证数据能够得出结果，还要一个好的模型进行迭代训练，得到一个好的模型。这些很难。这里有两个问题数据量大模型训练准确性对于第一个问题，就算单机内存再大，也是不可能处理未来不可预知的增长的数据的，这时候就需...

2019-12-20 15:02:09 560

空空如也

空空如也