自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据学习博客

大数据学习博客

  • 博客(38)
  • 收藏
  • 关注

原创 大数据入门玩转Hadoop分布式集群搭建

终于要开始玩大数据了,之前对haoop生态几乎没有太多的了解,现在赶鸭子上架,需要完全使用它来做数据中心,这是我的haoop第一篇文章,以后估计会写很多大数据相关的文章。Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。这篇文件介绍如何搭建完全分布式的hadoop集群,一个主节点,三个数据节点为例来讲解。在这里我还是要推荐下我自己建的...

2019-05-19 21:22:15 348

原创 大数据架构师必看:常见的七种Hadoop和Spark项目案例

如果你的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常...

2019-05-19 21:20:53 708

原创 大数据框架Spark 优于 Hadoop 吗?

对于任何一个进入大数据世界的人来讲,大数据和Hadoop 就成了同义词。随着人们学习了大数据生态系统及其工具和运作原理,他们更能理解大数据的实际意义以及Hadoop 在生态系统中所扮演的角色。维基百科对大数据这样解释:大数据是一个宽泛的术语,它指传统数据处理应用程序无法处理的巨大而复杂的数据集。简单来讲,随着数据量的增加,采用常规处理方法需要花费大量时间且价格不菲。Doug Cutti...

2019-05-19 21:19:46 286

原创 Hadoop新手学习指导之hadoop核心知识学习

hadoop核心知识学习:hadoop分为hadoop1.X和hadoop2.X,并且还有hadoop生态系统。这里只能慢慢介绍了。一口也吃不成胖子。那么下面我们以hadoop2.x为例进行详细介绍:Hadoop的核心是mapreduce和hdfs。Mapreduce:mapreduce是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了mapreduce程序,但是还是摸...

2019-05-18 12:35:35 294

原创 大数据工具和数据库区别和关联

当今时代工作任务种类繁多和任务处理机制逐渐多样化,对此您有什么看法?John Myers:我们真正看到的是混合数据生态系统的出现。我们并不指望单个数据管理平台就能满足所有数据处理和管理需求。人们在考虑Hadoop和NoSQL技术,例如考虑Mongo和Cassandra。也可能利用如Apache Spark或者其它不同类似的数据库,对吗?Myers:是的,我认为Spark更是一个处理引擎...

2019-05-18 12:34:39 2837

原创 大数据领域最全的开源技术汇集,别以为大数据只有hadoop

大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展。想要深入发展大数据,闭门造车是不可能的,共通共融是现在趋势,因此,开源让越来越多的项目可以直接采用大数据技术。如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析。借助开源...

2019-05-18 12:32:50 272

原创 R语言和大数据的结合

R还是把数据load到本地进行计算的,这样的方式在大数据时代多少显得落伍。目前R和hadoop结合的有hadoop、rhive、rhbase、sparkr等等,rhive和rodps采用的方法是类似的,用lib结合接口进行访问。安装R语言R3.3版本会出现各种so不存在的问题,退回去到R3.1版本时候就顺利安装。在安装R环境之前,先安装好中文(如果没有的话图表中显示汉字成框框了)和tcl...

2019-05-18 12:30:54 2949

原创 大数据技术生态圈Hadoop、Hive、Spark之间的关系

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的...

2019-05-18 12:27:50 612

原创 R、Python、Scala 和 Java,到底该使用哪一种大数据编程语言?

有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。当然,没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作。但通常来说,如今大数据方...

2019-05-17 11:57:54 1855

原创 Hadoop迎来Spark Stream 激发大数据应用新变革

批处理本是大型机时代的主题,近十年来随着Hadoop MapReduce的关注度逐渐增加,批处理现在又重新成为热门主题。但是 Hadoop分布式供应商的高级管理人员认为,Apache Spark和其它流处理架构正在改变现状。Jack Norris是MapR公司前任首席营销官及现任数据和应用高级副总裁,他认为,随着Apache Spark加入Hadoop,我们将看到更多实时应用和批处理架构,事件...

2019-05-17 11:56:40 204

原创 大数据之快速搭建hadoop2.6集群指南

在RedHat6.2以上版本的Linux服务器之上快速搭建hadoop2.6版本的集群方法。以下操作步骤是笔者在安装hadoop集群的安装笔记,如有对hadoop感兴趣的博友可按照本文操作进行无障碍搭建。可以确认以下所有操作步骤的准确性和可行性,如在搭建过程中遇到任何问题欢迎随时交流。OK话不多说啦,具体操作详见如下操作步骤~~在部署hadoop2.6之前的前置任务:1、禁止se...

2019-05-17 11:55:40 265

原创 大数据处理和编程实践Hadoop

首先也是非常支持天善搞的读书分享这种活动,对于知识的沉淀和分享都非常有益处,数据分析和数据挖掘都吐的比较多,而刚入门时一手操刀的数据仓库和数据处理在11年的时候是写了不少,很多文档现在也都找不到了,很可惜当时也没有那样的意识都整理下来。现在回头来看,慢慢都是泪,从MySQL、sql server、oracle到Hadoop、mapreduce。14年的时候也出过不少这块Hadoop、mapredu...

2019-05-17 11:54:42 533

原创 五大步骤帮你实现Hadoop价值最大化

大数据仍然是相对较新的领域,有效管理项目所需的技巧少得可怜。生产环境中使用Hadoop需要有Sqoop、Hive、Pig和MapReduce编程语言经验。企业在部署Hadoop时总会遇到一些问题。例如,企业要在生产环境中使用Hadoop,但是很难找到熟悉Sqoop、Hive、Pig和MapReduce编程语言的开发人员。为了使大数据项目中Hadoop的价值最大化,企业需要重视一些关键步骤。你...

2019-05-17 11:53:48 272

原创 从Hadoop洞悉大数据市场:大公司更爱大数据

用大数据分析大数据市场现今科技界红到发紫的大数据革命的代表性技术就是Hadoop(注:一个分布式系统基础架构)。Hadoop是一个由一系列不同的技术组成的生态系统。做Hadoop相关产品的公司有很多,其中也有很多不一样的选择和变种,比如Cloudera,Hortonworks,亚马逊EMR,Storm和Spark都是其中的一部分。而Hadoop作为一个整体来说仍然是采用量最多,讨论最火爆的大数...

2019-05-17 11:52:45 369

原创 谈Hadoop生态的最新发展

在2016年Hadoop十岁生日之际,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励当下。本文是对卢亿雷老师进行的采访,对大家关心的问题进行了专业的解答。问:Hadoop会考虑内存或磁盘动态管理技术吗?卢亿雷:随着实时计算的发展,Hadoop会考虑内存管理技术的。动态管理的目的一个是资源自动发现, 一个是系统的效率.从资源自动发现来看,比如新的 Hadoop 版本已经...

2019-05-17 11:51:12 462

原创 从Hadoop洞悉大数据市场

现今科技界红到发紫的大数据革命的代表性技术就是Hadoop(注:一个分布式系统基础架构)。Hadoop是一个由一系列不同的技术组成的生态系统。用大数据分析大数据市场现今科技界红到发紫的大数据革命的代表性技术就是Hadoop(注:一个分布式系统基础架构)。Hadoop是一个由一系列不同的技术组成的生态系统。做Hadoop相关产品的公司有很多,其中也有很多不一样的选择和变种,比如Cloudera...

2019-05-17 11:50:04 324

原创 大数据处理和编程实践Hadoop

Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关内容,都是一个新手的学习过程,难免会有...

2019-05-17 11:44:55 922 2

原创 顶级Hadoop管理员面试的问与答

专业人士正在尝试为Hadoop开发者和管理者工作,不仅仅是要努力准备hadoop管理者的面试题。当人们处在hadoop开发者的位置,可以自由的准备与管理相关的hadoop面试问题,这对于那些正在准备进入hadoop管理者的角色的人们是很重要的,获得hadoop管理者面试问题的细节。在我之前的TOP100的帖子里的面试问题及答案和TOP50的Hadoop的面试问题,我们列出了所有可能对Hadoop开...

2019-05-17 11:42:52 244

原创 HPCC 和 Hadoop 的详细区别比较

硬件环境通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机),如果 集群节点很多,也可以使用分层交换。集群内的节点是对等的(所有资源可以简化为相同配置),但这一点并非必须。操作系统Linux或windows系统配置实现HPCC集群用两种配置:数据加工(Thor)类似于Ha...

2019-05-13 11:02:07 641

原创 大数据:一种收集、分析和使用数据的文化

真正的问题不是在于技术,而是在于过程。与所有IT投资一样,大数据成功的关键在于迭代,而不是关于Hadoop、NoSQL、Splunk或者任何特定的供应商或技术。Gartner发现,虽然64%的企业正在投资于大数据,但约60%不知道如何进行大数据处理。真正的问题不是在于技术,而是在于过程。与所有IT投资一样,大数据成功的关键在于迭代,而不是关于Hadoop、NoSQL、Splunk或者任何特定的...

2019-05-13 11:00:19 1358

原创 大数据技术意义何在?

大数据到底是什么?我们为什么需要大数据技术?从本质上来说,大数据就是曾经被称为数据仓库的逻辑延伸。顾名思义,大数据就是一个大型的数据仓库,一般有一个能支持业务决策的业务重点。但是,它和传统数据库不同的是,大数据不用构建。在典型的数据库中,数据会被组织成标准的字段,并使用特定的密钥索引。如果你熟悉Microsoft Access应用程序,那么你就能完全理解这个概念。比如,一个顾客记录可以由姓氏、...

2019-05-13 10:59:21 3151

原创 九种从大数据中获取价值的方法

现在已经有了许多利用大数据获取商业价值的案例,我们可以参考这些案例并以之为起点,我们也可以从大数据中挖掘出更多的金矿。去年TDWI关于管理大数据的调查显示,89%的受访者认为大数据是一个机会,而在2011年的大数据分析的调查中这个比例仅为70%。在这两次调查中受访问者均普遍认为,要抓住大数据的机会并从中获取商业价值,需要使用先进的分析方法。此外,其他从大数据中获取商业价值的方法包括数据探索、捕捉...

2019-05-13 10:57:50 2441

原创 oracle大数据处理方式

关于数据库大数据处理的方案,有很多不错的Blog,提出很多的解决方案,所以呢自己也想整理一下关于这方面的内容,如果只是把别人整理的总结Copy到这就没什么意思了,甚至在面试的时候会经常被问到怎么样来处理大数据和高并发的解决方案,再说了网上也有很多重复的内容,把一篇文章Copy来Copy去的!来点个人见解吧!现在的做的Java WEB项目有几个算得上是大数据的,很少的,基本上整个数据库加起来也就几...

2019-05-13 10:56:52 491

原创 Hadoop与大数据之间的关系

走进大数据,一种新兴的数据挖掘技术,它正在让大数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。在计算机世界里,大数据被定义为一种使用非传统的数据过滤工具,对大量有序或无序数据集合进行的挖掘过程,它包括但不仅限于分布式计算(Hadoop)。大数据已经站在了数据存储宣传的风口浪尖,也存在着大量不确定因素,这...

2019-05-13 10:55:45 536

原创 如何在Hadoop中控制Map的数量?

Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导致崩溃。这些逻辑...

2019-05-13 10:54:50 815

原创 Hadoop中的一些基本操作

先粗略说一下“hadoop fs”和“hadoop dfs”的区别:fs是各比较抽象的层面,在分布式环境中,fs就是dfs,但在本地环境中,fs是local file system,这个时候dfs不可用。1、列出HDFS文件:hadoop fs –lsa) –ls后面不跟任何内容的话是列出HDFS的"/user/用户名/"目录下的内容b) 如果要列出某个文件夹中的内容,则-ls后面跟该文件...

2019-05-13 10:53:50 305

原创 大数据行业最顶尖的20位明星人才

大数据不只是要处理很多的数字,还得要通过这些数字建立模型、深入挖掘,并且寻找那些有可能改变企业运营方式的信息。以下谨为大家介绍20位大数据领域的顶尖人才。Pinterest数据科学家安德莉亚•伯班克Pinterest是一家以图片为主的社交网络,数据科学家安德莉亚•伯班克主要负责该公司的A/B测试,评估公司网站、APP的外观或功能变化会对它的6000万全球用户产生哪...

2019-05-13 10:52:04 4575

原创 浅析大数据的三大迷思

现在很多有关大数据的讨论都是围绕着数据收集进行的,但是除非内外部用户能够方便地消费这些数据,否则它们将一文不值。Michel Guillet 来自提供数据可视化的 Juice Analytics 公司,他认为有些公司在跟大数据打交道时往往会陷入这三大迷思:迷思1:我们的客户没有要求客户虽然未必直接要求数据产品,但是间接的表达是会有的。在他们对你、你的销售或者支撑团队的只言片语中可以感受到:...

2019-05-13 10:49:59 393

原创 五大未来大数据技术发展趋势

过去几年当中,大数据技术已经迎来长足发展;从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追求。所谓“大数据”及其相关技术在经历了高度重视、详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异。如今自动化与智能化已经成为整个世界运转的新方向,这一趋势在简化数据发掘工作的同时、也把智能化特性引入万事万物——从移动应用到交通系统无所不包。大数据...

2019-05-12 13:18:18 8348

原创 大数据、云计算将催生IT产业大革命

据国外媒体报道,投资公司CanaccordGenuity分析师理查德·戴维斯(RichardDavis)表示,由云计算技术催生的信息科技产业的结构性变化将为系统和架构软件厂商未来数年的“大革命”奠定基础。戴维斯在周一发表的一份报告中说,这场革命将创造长期的投资机遇,可能催生1或2家像Salesforce.com和Workday这种规模的公司。报告列出了可能对投资者有影响的16家尚未上市的公司,其...

2019-05-12 13:17:00 3197 1

原创 如何正确使用大数据处理技术?

发展大数据产业有利于发展信用服务市场。市场诚信体系的正常运行离不开发育良好的信用服务市场,大数据产业作为新兴的信息服务业,未来大有可为。在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎...

2019-05-12 13:16:03 782

原创 基于大数据分析系统Hadoop的13个开源工具

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统,然而其赖以生存的HDFS和MapReduce组件却让...

2019-05-12 13:15:01 803

原创 大数据时代:如何正确认识大数据?

言必称大数据的时代,让我们多少有些“审美疲劳”。但如果严格按照大数据的定义来判断,相信大多数公司是根本不存在大数据问题的。你也许有很多数据,但那并不意味着就是大数据。数据库即服务公司MongoHQ的@Codepope最近在博客上探讨了这个问题,以及为何我们要存储这么多的数据,但无法从中获取相应的价值。大数据实际上是范围极广、数量极大的,超乎你的想象。你也许认为维基百科的数据很大,但它也只是冰山...

2019-05-12 13:13:49 1148

原创 大数据时代:大数据的十大误解

事实上,如果企业能够搞清楚围绕着大数据的一些误解,可能能够帮助他们避免制定错误的业务发展方向,进而化险为夷,防止浪费大量的时间和金钱,耗费企业的市场竞争地位,或者损害企业的声誉。如下,是一些关于围绕大数据理解的最大的误区。误解1:只有数据科学专家才能处理大数据事实上,仅仅依靠数据科学专家本身是远远不够的。“如果企业自身从一开始都不知道他们希望通过大数据分析中寻找到什么,那么,您企业所聘请的...

2019-05-12 13:12:48 587

原创 大数据是不是互联网思维?

在移动互联网时代显得越来越重要,不仅仅是因为用户的习惯碎片化的趋势明显,更多的是因为在营销多元化情况下用户选择繁多。把握用户属性和用户有效转化是不论传统还是创新企业都同样要面对的问题。在大家都在探讨互联网思维的时候,到底什么是互联网思维?各家有各家的说法,但是万变不离其宗的是离不开的数据挖掘和分析应用。关注大数据,关注互联网思维,并不是大家茶余饭后的闲聊话题,大家的目标是提高商业运营效益。但要...

2019-05-12 13:11:40 939

原创 利用大数据分析挖掘出的五大安全线索

越来越多的CSO们开始依靠数据分析来从海量数据中发现新的安全威胁,并且越来越多的企业IT部门开始利用安全分析技术,信息安全专业人员已经开始从安全分析有所收获。其中最明显的是对IT安全数据来源更广泛和更深入的可视性,这能够通过大数据分析来更好地了解安全风险以及实现更快的响应时间。随着安全分析技术不断成熟,企业会惊喜地发现对安全相关数据的系统分析能够为他们挖掘出很多有价值的信息,下面是5个从安全分析...

2019-05-12 13:10:23 541

原创 大数据未必需要大数据架构

大数据已经成为大多数企业管理者关心的问题。显而易见,数据分析能够在大数据时代打来大机遇。但是,数据集需要如此之大吗?现在广为接受的大数据的定义是Gartner提出的三个V的概念,即数量大、种类多和变化快(volume、variety、velocity)。本世纪初,大数据开始流行。管理者也在积极寻求发展自己大数据架构的方法。然而管理者忽视的是,大数据分析的难题可能通过内部部署就足以解决,而且比预想...

2019-05-12 13:09:23 298

原创 Facebook教你如何玩转大数据

概念是不是个陷阱,我们的时代,互联网巨头坐拥海量信息是无人可以否认的事实,社区产品和社交产品赖以生存的基础就是从用户那儿来的数据。他们都是怎样八仙过海、各显神通让你感受到大数据的?比如,去年年终的时候,你肯定看到众多好友在微信朋友圈儿分享了一张“订制”的图片,在微信产品成长历程的时间轴中标注你加入的时点;你可能在登录豆瓣电台后,才发现通过一个特别的回忆通道,豆瓣已经帮你记录了一年来的音乐足迹,从...

2019-05-12 13:07:51 1425

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除