自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据基础学习

大数据基础学习

  • 博客(70)
  • 收藏
  • 关注

原创 基于HBase的大数据存储的应用场景分析

引言HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。为何使用HBaseHBase的优点:列可以动态增加,并且列为空就不存储数据,节省存储空间。Hbase自动切分数据,使得数据存储自动具有...

2019-07-08 10:10:01 1060

原创 大数据、机器学习和人工智能未来发展的8个因素

人工智能和机器学习以及不断增加的数据量正在改变当前的商业和社会格局。这些领域中出现了许多需要CIO注意的主题和问题。日前,O'Reilly 公司在伦敦Strata举办了一个为期数天的数据会议,与会者为此更好地了解大数据、机器学习(ML)和人工智能的发展方向。这些新兴技术在过去5年中发展迅速,而新技术、流程和应用程序改变了组织管理数据的方式。此次数据会议提供了一个很好的技术发展晴雨表,与会者...

2019-07-08 10:09:58 2162

原创 老程序员告诉你什么是大数据框架

大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统,因此可以针对业务目的进行分析。该架构可视为基于组织业务需求的大数据解决方案的蓝图。大数据架构旨在处理以下类型的工作:•批量处理大数据源。•实时处理大数据。•预测分析和机器学习。精心设计的大数据架构可以节省企业资金,并帮助其预测未来趋势,从而做出明智的业务决策。大数据架构的好处...

2019-07-08 10:09:57 848

原创 顶尖工程师处理大数据所需的技能

数据分析师的工作包括收集、清理、可视化信息块,并将原始数据转换或建模为营销人员、开发人员、会计师使用。数据分析师的工作流程是由组织的需求定义的,但最终的可交付成果总是相同的:结构良好且易于检索的数据。作为一名数据分析师,需要具有分析头脑、强大的数学技能和灵活性。虽然这主要是数据科学家的先决条件,但也需要一系列的编程知识。根据Payscale公司发布的统计数据,数据分析师的年薪在...

2019-07-08 10:09:55 477

原创 大数据所具备的四个特点,清楚知道大数据原理原则

说起大数据,估计大家都觉得只听过概念,但是具体是什么东西,怎么定义,没有一个标准的东西,因为在我们的印象中好像很多公司都叫大数据公司,业务形态则有几百种,感觉不是很好理解,所以我建议还是从字面上来理解大数据,在维克托迈尔-舍恩伯格及肯尼斯库克耶编写的《大数据时代》提到了大数据的4个特征:1.大量大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的...

2019-07-08 10:00:22 5757

原创 大数据在物流行业的应用

物流大数据就是通过海量的物流数据,即运输、仓储、搬运装卸、包装及流通加工等物流环节中涉及的数据、信息等,挖掘出新的增值价值,通过大数据分析可以提高运输与配送效率,减少物流成本,更有效地满足客户服务要求。1. 物流大数据的作用物流大数据应用对于物流企业来讲具有以下 3 个方面的重要作用。1)提高物流的智能化水平通过对物流数据的跟踪和分析,物流大数据应用可以根据情况为物流企业做出...

2019-07-05 20:59:59 57087

原创 大数据在互联网行业的应用

互联网企业拥有大量的线上数据,而且数据量还在快速增长,除了利用大数据提升自己的业务之外,互联网企业已经开始实现数据业务化,利用大数据发现新的商业价值。以阿里巴巴为例,它不仅在不断加强个性化推荐、“千人千面”这种面向消费者的大数据应用,并且还在尝试利用大数据进行智能客户服务,这种应用场景会逐渐从内部应用延展到外部很多企业的呼叫中心之中。在面向商家的大数据应用中,以“生意参谋”为例,超过 60...

2019-07-05 20:59:57 32606 1

原创 大数据在金融行业的应用

如果能够引入外部数据,还可以进一步加快数据价值的变现。外部数据中比较好的有社交数据、电商交易数据、移动大数据、运营商数据、工商司法数据、公安数据、教育数据和银联交易数据等。大数据在金融行业的应用范围较广,典型的案例有花旗银行利用 IBM 沃森电脑为财富管理客户推荐产品,并预测未来计算机推荐理财的市场将超过银行专业理财师;摩根大通银行利用决策树技术,降低了不良贷款率,转化了提前还款客户,一年为摩...

2019-07-05 20:59:54 46891

转载 大数据可以应用在哪些行业?

经过近几年的发展,大数据技术已经慢慢地渗透到各个行业。不同行业的大数据应用进程的速度,与行业的信息化水平、行业与消费者的距离、行业的数据拥有程度有着密切的关系。总体看来,应用大数据技术的行业可以分为以下 4 大类。1)第一大类是互联网和营销行业。互联网行业是离消费者距离最近的行业,同时拥有大量实时产生的数据。业务数据化是其企业运营的基本要素,因此,互联网行业的大数据应用的程度是最高的。与互...

2019-07-05 20:59:52 8178

原创 大数据的其他应用领域

1.大数据帮助企业挖掘市场机会,探寻细分市场大数据能够帮助企业分析大量数据,从而进一步挖掘市场机会和细分市场,然后对每个群体量体裁衣般地釆取独特的行动。获得好的产品概念和创意,关键在于如何去搜集消费者相关的信息,如何获得趋势,如何挖掘出人们头脑中未来可能会消费的产品概念。用创新的方法解构消费者的生活方式,剖析消费者的生活密码,才能让吻合消费者未来生活方式的产品研发不再成为问题。企业了...

2019-07-05 20:59:51 1125

原创 大数据预测(大数据核心应用)

大数据预测是大数据最核心的应用,它将传统意义的预测拓展到“现测”。大数据预测的优势体现在,它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统小数据集根本无法企及的。从预测的角度看,大数据预测所得出的结果不仅仅是用于处理现实业务的简单、客观的结论,更是能用于帮助企业经营的决策。1. 预测是大数据的核心价值大数据的本质是解决问题,大数据的核心价值就在于预测,而企业经营的核心也...

2019-07-05 20:59:05 30590

原创 基于大数据的个性化推荐系统

随着互联网时代的发展和大数据时代的到来,人们逐渐从信息匮乏的时代走入了信息过载的时代。为了让用户从海量信息中高效地获取自己所需的信息,推荐系统应运而生。推荐系统的主要任务就是联系用户和信息,它一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。基于大数据的推荐系统通过分析用户的历史记录了解用户的喜好,从而主动为用户推荐其感兴...

2019-07-05 20:59:03 49918 19

原创 基于大数据的精准营销

在大数据时代到来之前,企业营销只能利用传统的营销数据,包括客户关系管理系统中的客户信息、广告效果、展览等一些线下活动的效果。数据的来源仅限于消费者某一方面的有限信息,不能提供充分的提示和线索。互联网时代带来了新类型的数据,包括使用网站的数据、地理位置的数据、邮件数据、社交媒体数据等。大数据时代的企业营销可以借助大数据技术将新类型的数据与传统数据进行整合,从而更全面地了解消费者的信息,对顾客群体...

2019-07-03 21:45:04 15480

原创 Apriori算法和FP-Tree算法简介

Apriori关联分析算法Apriori 算法是挖掘产生关联规则所需频繁项集的基本算法,也是最著名的关联分析算法之一。1. Apriori 算法Apriori 算法使用了逐层搜索的迭代方法,即用 k-项集探索(k+1)-项集。为提高按层次搜索并产生相应频繁项集的处理效率,Apriori 算法利用了一个重要性质,该性质还能有效缩小频繁项集的搜索空间。Apriori 性质:一个频繁项集...

2019-07-03 21:45:02 776

原创 数据挖掘之关联规则分析简介

关联分析是指从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。在大数据时代,关联分析是最常见的数据挖掘任务之一。概述关联分析是一种简单、实用的分析技术,是指发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时岀现的规律和模式。关联分析可从大量数据中发现事物、特征或者数据之间的,频繁出现的相互依赖关系和关联关系。这些关联并不总是事先知道的...

2019-07-03 21:19:58 5410

原创 DBSCAN聚类算法简介

DBSCAN(Density—Based Spatial Clustering of Application with Noise)算法是一种典型的基于密度的聚类方法。它将簇定义为密度相连的点的最大集合,能够把具有足够密度的区域划分为簇,并可以在有噪音的空间数据集中发现任意形状的簇。1. 基本概念DBSCAN 算法中有两个重要参数:Eps 和 MmPtS。Eps 是定义密度时的邻域半径,M...

2019-07-03 21:19:57 32184 4

原创 k-means聚类算法简介

k-means 算法是一种基于划分的聚类算法,它以 k 为参数,把 n 个数据对象分成 k 个簇,使簇内具有较高的相似度,而簇间的相似度较低。1. 基本思想k-means 算法是根据给定的 n 个数据对象的数据集,构建 k 个划分聚类的方法,每个划分聚类即为一个簇。该方法将数据划分为 n 个簇,每个簇至少有一个数据对象,每个数据对象必须属于而且只能属于一个簇。同时要满足同一簇中的数据对象相...

2019-07-03 21:10:00 2936

原创 什么是聚类分析?聚类分析方法的类别

聚类分析是指将数据对象的集合分组为由类似的对象组成的多个类的分析过程。基本概念聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。聚类技术通常又被称为无监督学习,与监督学习不同的是,在簇中那些表示数据类别的分类或者分组信息是没有的。数据之间的相似性是通过...

2019-07-03 21:09:55 107960

原创 决策树和朴素贝叶斯算法简介

本节主要介绍数据挖掘中常见的分类方法决策树和朴素贝叶斯算法。决策树算法决策树(Decision Tree,DT)分类法是一个简单且广泛使用的分类技术。决策树是一个树状预测模型,它是由结点和有向边组成的层次结构。树中包含3种结点:根结点、内部结点和叶子结点。决策树只有一个根结点,是全体训练数据的集合。树中的一个内部结点表示一个特征属性上的测试,对应的分支表示这个特征属性在某个值域上的...

2019-07-03 21:00:00 4032

原创 数据挖掘之分类和预测简介

分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的、无序的。预测则是用于预测数据对象的连续取值的,需要预测的属性值是连续的、有序的。例如,在银行业务中,根据贷款申请者的信息来判断贷款者是属于“安全”类还是“风险”类,这是数据挖掘中的分类任务。而分析给贷款人的贷款量就是数据挖掘中的预测任务。本节将对常用的分类与预...

2019-07-03 20:59:56 8805

原创 Spark MLlib简介

MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 API。本节将对 Spark MLlib 进行简单介绍,在介绍数据挖掘算法时,将使用 Spark MLlib 提供的算法进行实例讲解。Spark MLlib的构成Sp...

2019-07-03 20:59:54 259

原创 Spark MLlib简介

MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 API。本节将对 Spark MLlib 进行简单介绍,在介绍数据挖掘算法时,将使用 Spark MLlib 提供的算法进行实例讲解。Spark MLlib的构成Sp...

2019-07-03 20:59:52 756

原创 Spark MLlib简介

MLlib 是 Spark 的机器学习库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道 API。本节将对 Spark MLlib 进行简单介绍,在介绍数据挖掘算法时,将使用 Spark MLlib 提供的算法进行实例讲解。Spark MLlib的构成Sp...

2019-06-29 17:49:03 467

原创 Spark Streaming编程实战(开发实例)

本节介绍如何编写 Spark Streaming 应用程序,由简到难讲解使用几个核心概念来解决实际应用问题。流数据模拟器在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境,首先需要定义流数据模拟器。该模拟器的主要功能是通过 Socket 方式监听指定的端口号,当外部程序通过该端口进行连接并请求数据时,模拟器将定时将指定的文件数据进行随机获取,并发送给外部程序...

2019-06-29 17:47:13 874

原创 Spark DStream相关操作

与 RDD 类似,DStream 也提供了自己的一系列操作方法,这些操作可以分成 3 类:普通的转换操作、窗口转换操作和输出操作。普通的转换操作普通的转换操作如表 1 所示表 1 普通的转换操作 Suo 描述 map(func) 源 DStream 的每个元素通过函数 func 返回一个新的 DStream。 flatMap(func) 类似于 map 操作...

2019-06-29 17:46:52 1064

原创 Spark Streaming编程模型

DStream 的操作流程DStream 作为 Spark Streaming 的基础抽象,它代表持续性的数据流。这些数据流既可以通过外部输入源来获取,也可以通过现有的 DStream 的 Transformation 操作来获得。在内部实现上,DStream 由一组时间序列上连续的 RDD 来表示。如图 1 所示,每个 RDD 都包含了自己特定时间间隔内的数据流。图 1DStr...

2019-06-29 17:46:25 215

原创 Spark Streaming的系统架构

传统流处理系统架构流处理架构的分布式流处理管道执行方式是,首先用数据采集系统接收来自数据源的流数据,然后在集群上并行处理数据,最后将处理结果存放至下游系统。为了处理这些数据,传统的流处理系统被设计为连续算子模型,其工作方式如图 1 所示。系统包含一系列的工作结点,每组结点上运行一至多个连续算子。对于流数据,每个连续算子(ContinuousOperator)一次处理一条记录,并且将记录...

2019-06-29 17:46:10 653

原创 Spark Streaming简介

Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后,可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算...

2019-06-29 17:45:54 2763

原创 Spark开发实例(编程实践)

本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。启动 SparkShellSpark 的交互式脚本是一种学习 API 的简单途径,也是分析数据集交互的有力工具。Spark 包含多种运行模式,可使用单机模式,也可以使用分布式模式。为简单起见,本节采用单机模式运行 Spark。无论采用哪种模式,只要启动完成后,就初始化了一个 Spa...

2019-06-29 17:45:37 12421

原创 Spark生态圈简介

Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处...

2019-06-29 17:45:19 824

原创 Spark总体架构和运行流程

本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。Spark 总体架构Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster Manager)、多个运行作业任务的工作结点(Worker Node)、每个应用的任务控制结点(Driver)和每个工作结点上负责具体任务的执行进程(Executor)。...

2019-06-29 17:45:05 2614

原创 大数据框架基础Spark是什么?Spark和Hadoop的区别

Spark 是加州大学伯克利分校 AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算框架。Spark 在 2013 年 6 月进入 Apache 成为孵化项目,8 个月后成为 Apache 顶级项目。Spark 以其先进的设计理念,迅速成为社区的热门项目,围绕着 Spark 推出了 SparkSQL、SparkStreaming、MLlib 和 Gr...

2019-06-28 11:39:46 708

原创 大数据框架基础MapReduce编程实例:单词计数

本节介绍如何编写基本的 MapReduce 程序实现数据分析。本节代码是基于 Hadoop 2.7.3 开发的。任务准备单词计数(WordCount)的任务是对一组输入文档中的单词进行分别计数。假设文件的量比较大,每个文档又包含大量的单词,则无法使用传统的线性程序进行处理,而这类问题正是 MapReduce 可以发挥优势的地方。在前面《MapReduce实例分析:单词计数》教程中已经介...

2019-06-28 11:38:00 1089

原创 大数据框架基础MapReduce执行流程和Shuffle过程

本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduce 解决实际问题。Hadoop MapReduce作业执行流程整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。...

2019-06-28 11:37:04 205

原创 大数据框架基础MapReduce实例分析:单词计数

单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述采用 MapReduce 解决实际问题的基本思路和具体实现过程。设计思路首先,检查单词计数是否可以使用 MapReduce 进行处理。因为在单词计数程序任务中,不同单词的出现次数之...

2019-06-28 11:35:59 399

原创 大数据框架基础MapReduce执行流程和Shuffle过程

本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduce 解决实际问题。Hadoop MapReduce作业执行流程整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。...

2019-06-28 11:34:58 652

原创 大数据框架基础MapReduce实例分析:单词计数

单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。单词计数的主要功能是统计一系列文本文件中每个单词出现的次数。本节通过单词计数实例来阐述采用 MapReduce 解决实际问题的基本思路和具体实现过程。设计思路首先,检查单词计数是否可以使用 MapReduce 进行处理。因为在单词计数程序任务中,不同单词的出现次数之...

2019-06-28 11:32:59 1705

原创 大数据框架基础Hadoop MapReduce工作流程

MapReduce 就是将输入进行分片,交给不同的 Map 任务进行处理,然后由 Reduce 任务合并成最终的解。MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Output 等阶段,具体的工作流程如图 1 所示。图 1 MapReduce 的工作流程在 Input 阶段,框架根据数据的存储位置,把数据...

2019-06-28 11:31:59 316

原创 大数据框架基础Hadoop MapReduce架构

Hadoop MapReduce 是 Hadoop 平台根据 MapReduce 原理实现的计算框架,目前已经实现了两个版本,MapReduce 1.0 和基于 YARN 结构的 MapReduce 2.0。尽管 MapReduce 1.0 中存在一些问题,但是整体架构比较清晰,更适合初学者理解 MapReduce 的核心概念。所以,本教程首先使用 MapReduce 1.0 来介绍 MapR...

2019-06-28 11:31:36 616 1

原创 大数据框架基础Hadoop MapReduce简介

然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。批处理模式批处理模式是一种最早进行大规模数据处理的模式。批处理主要操作大规模静态数据集,并在整体数据处理完毕后返回结果。批处理非常适合需要访问整个数据集合才能完成的计算工作。例如,在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。这些操作要求在计算...

2019-06-28 11:31:02 434

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除