0 程序猿广坤

尚未进行身份认证

暂无相关描述

等级
TA的排名 16w+

大数据入门玩转Hadoop分布式集群搭建

终于要开始玩大数据了,之前对haoop生态几乎没有太多的了解,现在赶鸭子上架,需要完全使用它来做数据中心,这是我的haoop第一篇文章,以后估计会写很多大数据相关的文章。Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。这篇文件介绍如何搭建完全分布式的hadoop集群,一个主节点,三个数据节点为例来讲解。在这里我还是要推荐下我自己建的...

2019-05-19 21:22:15

大数据架构师必看:常见的七种Hadoop和Spark项目案例

如果你的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常...

2019-05-19 21:20:53

大数据框架Spark 优于 Hadoop 吗?

对于任何一个进入大数据世界的人来讲,大数据和Hadoop就成了同义词。随着人们学习了大数据生态系统及其工具和运作原理,他们更能理解大数据的实际意义以及Hadoop在生态系统中所扮演的角色。维基百科对大数据这样解释:大数据是一个宽泛的术语,它指传统数据处理应用程序无法处理的巨大而复杂的数据集。简单来讲,随着数据量的增加,采用常规处理方法需要花费大量时间且价格不菲。DougCutti...

2019-05-19 21:19:46

Hadoop新手学习指导之hadoop核心知识学习

hadoop核心知识学习:hadoop分为hadoop1.X和hadoop2.X,并且还有hadoop生态系统。这里只能慢慢介绍了。一口也吃不成胖子。那么下面我们以hadoop2.x为例进行详细介绍:Hadoop的核心是mapreduce和hdfs。Mapreduce:mapreduce是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了mapreduce程序,但是还是摸...

2019-05-18 12:35:35

大数据工具和数据库区别和关联

当今时代工作任务种类繁多和任务处理机制逐渐多样化,对此您有什么看法?JohnMyers:我们真正看到的是混合数据生态系统的出现。我们并不指望单个数据管理平台就能满足所有数据处理和管理需求。人们在考虑Hadoop和NoSQL技术,例如考虑Mongo和Cassandra。也可能利用如ApacheSpark或者其它不同类似的数据库,对吗?Myers:是的,我认为Spark更是一个处理引擎...

2019-05-18 12:34:39

大数据领域最全的开源技术汇集,别以为大数据只有hadoop

大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展。想要深入发展大数据,闭门造车是不可能的,共通共融是现在趋势,因此,开源让越来越多的项目可以直接采用大数据技术。如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析。借助开源...

2019-05-18 12:32:50

R语言和大数据的结合

R还是把数据load到本地进行计算的,这样的方式在大数据时代多少显得落伍。目前R和hadoop结合的有hadoop、rhive、rhbase、sparkr等等,rhive和rodps采用的方法是类似的,用lib结合接口进行访问。安装R语言R3.3版本会出现各种so不存在的问题,退回去到R3.1版本时候就顺利安装。在安装R环境之前,先安装好中文(如果没有的话图表中显示汉字成框框了)和tcl...

2019-05-18 12:30:54

大数据技术生态圈Hadoop、Hive、Spark之间的关系

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的...

2019-05-18 12:27:50

R、Python、Scala 和 Java,到底该使用哪一种大数据编程语言?

有一个大数据项目,你知道问题领域(problemdomain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。当然,没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作。但通常来说,如今大数据方...

2019-05-17 11:57:54

Hadoop迎来Spark Stream 激发大数据应用新变革

批处理本是大型机时代的主题,近十年来随着HadoopMapReduce的关注度逐渐增加,批处理现在又重新成为热门主题。但是Hadoop分布式供应商的高级管理人员认为,ApacheSpark和其它流处理架构正在改变现状。JackNorris是MapR公司前任首席营销官及现任数据和应用高级副总裁,他认为,随着ApacheSpark加入Hadoop,我们将看到更多实时应用和批处理架构,事件...

2019-05-17 11:56:40

大数据之快速搭建hadoop2.6集群指南

在RedHat6.2以上版本的Linux服务器之上快速搭建hadoop2.6版本的集群方法。以下操作步骤是笔者在安装hadoop集群的安装笔记,如有对hadoop感兴趣的博友可按照本文操作进行无障碍搭建。可以确认以下所有操作步骤的准确性和可行性,如在搭建过程中遇到任何问题欢迎随时交流。OK话不多说啦,具体操作详见如下操作步骤~~在部署hadoop2.6之前的前置任务:1、禁止se...

2019-05-17 11:55:40

大数据处理和编程实践Hadoop

首先也是非常支持天善搞的读书分享这种活动,对于知识的沉淀和分享都非常有益处,数据分析和数据挖掘都吐的比较多,而刚入门时一手操刀的数据仓库和数据处理在11年的时候是写了不少,很多文档现在也都找不到了,很可惜当时也没有那样的意识都整理下来。现在回头来看,慢慢都是泪,从MySQL、sqlserver、oracle到Hadoop、mapreduce。14年的时候也出过不少这块Hadoop、mapredu...

2019-05-17 11:54:42

五大步骤帮你实现Hadoop价值最大化

大数据仍然是相对较新的领域,有效管理项目所需的技巧少得可怜。生产环境中使用Hadoop需要有Sqoop、Hive、Pig和MapReduce编程语言经验。企业在部署Hadoop时总会遇到一些问题。例如,企业要在生产环境中使用Hadoop,但是很难找到熟悉Sqoop、Hive、Pig和MapReduce编程语言的开发人员。为了使大数据项目中Hadoop的价值最大化,企业需要重视一些关键步骤。你...

2019-05-17 11:53:48

从Hadoop洞悉大数据市场:大公司更爱大数据

用大数据分析大数据市场现今科技界红到发紫的大数据革命的代表性技术就是Hadoop(注:一个分布式系统基础架构)。Hadoop是一个由一系列不同的技术组成的生态系统。做Hadoop相关产品的公司有很多,其中也有很多不一样的选择和变种,比如Cloudera,Hortonworks,亚马逊EMR,Storm和Spark都是其中的一部分。而Hadoop作为一个整体来说仍然是采用量最多,讨论最火爆的大数...

2019-05-17 11:52:45

谈Hadoop生态的最新发展

在2016年Hadoop十岁生日之际,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励当下。本文是对卢亿雷老师进行的采访,对大家关心的问题进行了专业的解答。问:Hadoop会考虑内存或磁盘动态管理技术吗?卢亿雷:随着实时计算的发展,Hadoop会考虑内存管理技术的。动态管理的目的一个是资源自动发现,一个是系统的效率.从资源自动发现来看,比如新的Hadoop版本已经...

2019-05-17 11:51:12

从Hadoop洞悉大数据市场

现今科技界红到发紫的大数据革命的代表性技术就是Hadoop(注:一个分布式系统基础架构)。Hadoop是一个由一系列不同的技术组成的生态系统。用大数据分析大数据市场现今科技界红到发紫的大数据革命的代表性技术就是Hadoop(注:一个分布式系统基础架构)。Hadoop是一个由一系列不同的技术组成的生态系统。做Hadoop相关产品的公司有很多,其中也有很多不一样的选择和变种,比如Cloudera...

2019-05-17 11:50:04

大数据处理和编程实践Hadoop

Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关内容,都是一个新手的学习过程,难免会有...

2019-05-17 11:44:55

顶级Hadoop管理员面试的问与答

专业人士正在尝试为Hadoop开发者和管理者工作,不仅仅是要努力准备hadoop管理者的面试题。当人们处在hadoop开发者的位置,可以自由的准备与管理相关的hadoop面试问题,这对于那些正在准备进入hadoop管理者的角色的人们是很重要的,获得hadoop管理者面试问题的细节。在我之前的TOP100的帖子里的面试问题及答案和TOP50的Hadoop的面试问题,我们列出了所有可能对Hadoop开...

2019-05-17 11:42:52

HPCC 和 Hadoop 的详细区别比较

硬件环境通常使用基于Intel或AMDCPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机),如果集群节点很多,也可以使用分层交换。集群内的节点是对等的(所有资源可以简化为相同配置),但这一点并非必须。操作系统Linux或windows系统配置实现HPCC集群用两种配置:数据加工(Thor)类似于Ha...

2019-05-13 11:02:07

大数据:一种收集、分析和使用数据的文化

真正的问题不是在于技术,而是在于过程。与所有IT投资一样,大数据成功的关键在于迭代,而不是关于Hadoop、NoSQL、Splunk或者任何特定的供应商或技术。Gartner发现,虽然64%的企业正在投资于大数据,但约60%不知道如何进行大数据处理。真正的问题不是在于技术,而是在于过程。与所有IT投资一样,大数据成功的关键在于迭代,而不是关于Hadoop、NoSQL、Splunk或者任何特定的...

2019-05-13 11:00:19

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。