自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员生活网

程序员生活网

  • 博客(76)
  • 收藏
  • 关注

原创 大数据处理和编程实践Hadoop

Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关内容,都是一个新手的学习过程,难免会有...

2019-06-24 22:00:10 462

原创 认知计算与大数据 人工智能有啥区别?

人工智能的概念已经有二十多年了,人工智能从历史和研究角度来讲主要目的是为了让机器表现得“更像人”,我们称之为IntelligentBehavior。对于认知计算而言,洞察和预测只是其中的一种。但是,认知计算更为强调人和机器之间自然的交互,这些维度都不是传统的大数据分析所强调。认知计算是通过与人的自然语言交流及不断地学习,从而帮助人们做到更多的系统,是从硬件架构到算法策略、从程序设计到行业专...

2019-06-24 22:00:08 1052

原创 在大数据认知观和真实性不一样的?

大数据能起这名字肯定是因为它的体量大。在过去的两年,所产生的数据已经是人类有史以来产生的数据90%。而未来两年,医疗数据将增加99%,政府数据将增加94%,媒体数据将增加97%。今天要切切实实的和各位看官聊一聊大数据。在之前的文章里,我们为大家呈现了很多大数据相关的解决方案,应用的成功案例,但是从来没有一篇文章是针对大数据本身的理念介绍。一直在说大数据,但是你真的了解它吗?陈黎明先生在...

2019-06-24 22:00:06 961

原创 顶级Hadoop管理员面试的问与答

在大数据的空间里,Hadoop被各行业应用,Hadoop管理的重要性是不容忽视的。无数的行业招聘Hadoop管理人员,确保他们的大数据系统可以在最复杂和动态的环境下被选中。在2010年,没有人知道什么是Hadoop,但是今天,房间里的大象这个标志已经成为了大数据的宠儿。根据Wikibon, Hadoop市场在2012年,供应商的收入已经有256美元,预计2017年底增加到17亿、程序员、架构师...

2019-06-24 22:00:05 221

原创 顶级Hadoop管理员面试的问与答

在大数据的空间里,Hadoop被各行业应用,Hadoop管理的重要性是不容忽视的。无数的行业招聘Hadoop管理人员,确保他们的大数据系统可以在最复杂和动态的环境下被选中。在2010年,没有人知道什么是Hadoop,但是今天,房间里的大象这个标志已经成为了大数据的宠儿。根据Wikibon, Hadoop市场在2012年,供应商的收入已经有256美元,预计2017年底增加到17亿、程序员、架构师...

2019-06-24 22:00:03 221

原创 五大步骤帮你实现Hadoop价值最大化

大数据仍然是相对较新的领域,有效管理项目所需的技巧少得可怜。生产环境中使用Hadoop需要有Sqoop、Hive、Pig和MapReduce编程语言经验。企业在部署Hadoop时总会遇到一些问题。例如,企业要在生产环境中使用Hadoop,但是很难找到熟悉Sqoop、Hive、Pig和MapReduce编程语言的开发人员。为了使大数据项目中Hadoop的价值最大化,企业需要重视一些关键步骤。...

2019-06-24 22:00:02 189

原创 大数据应成为一种基本的使用和操作能力

“大数据”之“大”,不仅仅源于其体量的庞大,更表现在它的无处不在。数据充斥在我们生产生活的方方面面,从大数据分析中获得竞争优势,已不再是所谓的高精尖企业或是高大上的科研项目的专利。你承认吗?我们正生活在逐渐被大数据掌控的时代。我们在论坛里评论发帖,我们在社交平台晒照片,我们在网购后对产品留下评价……这些被传上网络的照片、视频、文字都作为数据储存起来,原本纷繁无序的数字变得规律而有意义。数据...

2019-06-23 22:00:01 477

原创 大数据是如何定义,多大的数据是大数据?

大数据是什么?多大的数据叫大数据?很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。企业端(B端)数据近十万的级别,就可以称为大数据;个人端(C端)的大数据要达到千万级别。收集渠道没有特定要求,PC端、移动端或传统渠道都可以,重点要达到这样数量级的有效数据,形成数据服务即可。很有趣,大...

2019-06-23 21:59:59 1135

原创 大数据平台开源实施的难点

开源大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为分析和挖掘海量数据价值的一个利器,甚至可以改变许多行业的商业模式。庞大的开源大数据技术体系,使得大数据平台在实施和使用的过程中遇到很多难点,Think Big团队总结了在开源大数据平台设施的整个过程及花费的时...

2019-06-23 21:59:57 659

原创 Java工程师最常使用的20个大数据工具

最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具。这是一个系列,主题为:语言web框架应用服务器SQL数据访问工具SQL数据库大数据构建工具云提供商今天我们就要说说大数据。根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任。在许多情况下,使用SQL数据库用于存储/检索...

2019-06-23 21:59:56 448

原创 大数据学习必备三个框架Hadoop,Spark,Storm概念和区别

大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括非结...

2019-06-23 21:59:55 661

原创 大数据行业应用精英为啥都在谈论hadoop框架

最近知乎上有这样一个问题“为什么很多公司都采用Hadoop方案处理大数据业务”,引来很多回答,笔者整理如下,其观点或有时而可商,欢迎讨论。先说一说什么样的公司比较倾向于使用Hadoop。有人认为,使用Hadoop的前提是自身有没有收集并分析数据的需要,并且数据量是否一直在增长并且不可丢弃。目前看起来,此类数据多数为日志数据,分析用户习惯,或者就是传感器之类的数据,分析环境等监控内容的变化规...

2019-06-23 21:59:53 175

原创 大数据框架Hadoop族群介绍

大数据是支持一系列技术(如各种Hadoop项目、NoSQL产品,甚至MPP数据库系统)的术语,它通过驱动更好的分析和从数据中获得有价值的信息为世界各地的组织机构极大地降低了成本,同时提供了新的见解和产品。在经济衰退时期,企业更希望从己有资产中获得更大的价值,而不是投资新的资产。大数据,特别是Hadoop,就是实现这个目标的理想手段。什么是Hadoop?Hadoop是一个由Apache基金会...

2019-06-23 21:59:52 230

原创 大数据架构Kafka如何实现每秒上百万的高并发写入?

篇文章来聊一下kafka的一些架构设计原理,这也是互联网公司面试时非常高频的技术考点。Kafka是高吞吐低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的Kafka集群甚至可以做到每秒几十万、上百万的超高并发写入。那么Kafka到底是如何做到这么高的吞吐量和性能的呢?这篇文章我们来一点一点说一下。一、页缓存技术 + 磁盘顺序写首先Kafka每次接收到数据都...

2019-06-22 22:00:01 1514

原创 大数据学习入门基础框架hadoop架构和原理

Hadoop 是目前大数据领域最主流的一套技术体系,包含了多种技术,例如 HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统)等等。有些朋友可能听说过 Hadoop,但是却不太清楚它到底是个什么东西,这篇文章就用大白话给各位阐述一下。年薪40+W的大数据开发【教程】,都在这儿!假如你现在公司里的数据都是放在 MySQL 里的,那么就...

2019-06-22 21:59:59 693 1

原创 大数据框架Hadoop新增校验功能,防数据损坏,保护端到端数据完整性

新的Apache Hadoop端到端数据完整性验证,有助于验证不同存储系统间传输数据的完整性,也能检测出因内存错误造成的数据损坏。为确保用户数据在传输过程未被更改,Google、twitter以及Apache Hadoop开源社区合作,为Apache Hadoop加入跨异构文件系统的端到端数据验证功能,能用于如HDFS以及Google Cloud Storage间数据传输的校验。...

2019-06-22 21:59:58 392

原创 不懂代码,如何做出实时刷新的数据大屏?

首先恭喜你,当你看到这篇文章的时候,不管你是小白还是大咖,你都将直接获得一个高级技能:轻松上手可实时刷新的酷炫大屏。制作可视化大屏,一般有这么几种方案:写代码调用数据和图表,比如写JS+Echarts ; 直接的数据可视化工具前者对于大部分人来说门槛较高,而且尤其是大屏需求比较多,比方说要做10个的情况下,亲身试验写代码容易奔溃。如果涉及大量的动态可视化,涉及大数据量,没有底层技术,性...

2019-06-22 21:59:57 4271

原创 大数据工程师常见数据挖掘分析处理工具

数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。数据科学家有其独特的基本思路与常用工具,本文全面梳理数据分析师和数据科学家使用的工具包,包括开源的技术平台相关工具、挖掘分析处理工具、其它常...

2019-06-21 22:00:06 1007

原创 一份关于大数据框架Hadoop的面试问答题

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,下面看看一般情况下,关于Hadoop的面试是会问哪些问题,以及该怎么回答。1. 简单描述如何安装配置一个apache开源版hadoop,只描述即可,无需列出完整步骤,能列出步骤更好。1) 安装JDK并配置环境变量...

2019-06-21 22:00:04 317

原创 从大数据到认知计算,未来需要更强的计算能力

大数据分析属于认知计算的一个维度。与大数据相比,认知计算的范围更广、技术也更为先进。认知计算是IBM提出的概念,认为“认知计算”是通过与人的自然语言交流及不断地学习,从而帮助人们做到更多的系统,是从硬件架构到算法策略、从程序设计到行业专长等多个学术领域的结合,能够使人们更好地从海量复杂的数据中获得更多洞察,从而做出更为精准的决策。IBM清晰地把认知计算定义为——具备规模化学习、根据目标推理以及...

2019-06-21 22:00:04 1956

原创 大数据流处理如何帮助世界新兴市场

多年来,大数据已经改变了很多事情,其中之一就是流处理。这就是它产生影响的方式和原因。随着当今技术的发展,对流处理的需求也越来越大。例如,必须快速处理数据,以便企业能够实时跟上不断变化的业务和市场状况。这就是实时流处理进入图片的地方,它可能会改变人们所知道的关于大数据的一切。在此,将解决大数据和流处理的问题。还将讨论大数据流处理如何帮助世界新兴市场。什么是大数据?大数据是指企...

2019-06-20 21:59:57 208

原创 大数据框架hadoop核心竞争力?

在大数据时代,Hadoop 有着得天独厚的优势。然而,每个企业的技术储备和需求特点不同,他们希望从海量的客户数据中挖掘真正的商业价值,像 Google 、Facebook 、Twitter 等这样的企业更是 Hadoop 的最早获益者。那么,今天我们就来聊一聊,万亿数据下 Hadoop 的核心竞争力。1. 前言在大数据时代,Hadoop有着得天独厚的优势。然而,每个企业的技术储备和需求特...

2019-06-20 21:59:55 347

原创 大数据零基础入门问题答疑汇总

根据最新的Garter大数据产业网络播报,整整有15%的受访者仍然把“了解大数据是什么”视作他们的前三大挑战之一。前几天我因为社交网站得以和一个老朋友重新取得联系,星期天时他从费城赶到挪威来,就为了约我给他解答一个问题,我想这个问题对他来说一定很重要。他问:“Jane,你说你是做大数据分析的,那大数据到底是什么呢?”他是一个IT人,了解关于电脑的大部分知识,但是因为有太多人在尝试定义大数据...

2019-06-19 21:54:59 245

原创 玩转大数据六大秘诀,三个大师集成汇总

有三位来自不同公司的大数据运营人员各自分享了他们运用大数据的经验。这三位是来自维亚康姆(Viacom)的Luzzi、Globys公司的Olly Downs以及知名市场顾问公司Dunnhumby的CEO Andy Hill。秘诀一:目标要明确就算一个公司拥有再多的数据,也不能代表它就一定会获得商业上的成功。只有真正懂得如何利用大数据,了解到公司利用大数据可以达到什么目标,公司最终才有可能真正...

2019-06-19 21:54:58 163

原创 使用hadoop框架,需要了解的八大大数据工具

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是它们都有什么功能,为什么会需要奇怪的名字(如Oozie、ZooKeeper、Flume)。Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有什么不同?现今企业数据仓库和关系型数据库擅...

2019-06-18 22:00:34 291

原创 企业常见的三种数据部门架构优与劣

在一个企业中,可能数据部门在一个公司中组织架构中的位置,决定了部门的定位和一些做的事情,所以笔者认为,数据部门所处的组织架构对数据价值实现是一个很重要因素。  问题:为什么传统BI没有达到今天互联网数据应用的高度呢?  在之前的传统BI可能因为这些因素,所以没有达到今天的数据在高度,可能是互联网本身发展的因素,数据对于互联网企业价值。但其中有一个很大的因素,可能...

2019-06-18 21:59:54 4535

原创 大数据的六大人工智能变现方式

大数据技术与移动互联技术和云计算技术一样,都属于颠覆性的信息技术。但是,大数据并非是高纯度的石油而是含金量非常低的矿石, 数据量大、种类繁杂、价值密度低、以及时时刻刻都在瞬息万变的特点,使得存储、统计、分类以及调用都困难异常,而其中隐藏的发展规律和社会经验则价值巨大。幸运的是,人工智能领域的一些理论和比较实用的方法,已经开始用于大数据分析方面,并显现出初步令人振奋的结果。至此大数据的价值变现潜...

2019-06-18 21:59:51 593

原创 怎样进行大数据的入门级学习?

数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法都可以来对付数据大数据从狭义上来看,我认为数据科学就是解决三个问题:1. data pre-processing;(数据预处理)2. data interpretation;(数据解读)3.data modeling and analysis.(数据建模与分析)这...

2019-06-17 21:59:59 1336

原创 高级大数据告诉你顶级工程师都会掌握九大技能

在大数据商品化之前, 利用大数据分析工具和技术来取得竞争优势已不再是秘密。2015年, 如果你还在职场上寻找大数据的相关工作, 那么, 这里介绍的9种技能,将帮助你得到一个工作机会。1. Apache HadoopHadoop现在已经进入第二个10年发展期了, 但不可否认的是, Hadoop在2014年出现了井喷式发展, 由于Hadoop从测试集群向生产和软件供应商方向不断转移, 其越来越...

2019-06-16 22:00:00 1552

原创 八大行业Hadoop大数据应用回顾和展望

任何新技术的发展都会经历一个从被公众了解到最终普遍应用的过程。大数据技术作为一个新兴的数据处理技术,经过了近十年的发展,刚刚开始在各个行业得到应用。但从媒体和公众视野中,大数据技术总是带有神秘的色彩,似乎有着挖掘财富和预测未来的神奇力量。广泛流传的大数据应用案例包括Target超市根据女孩的购物历史判断是否怀孕,信用卡公司根据用户在不同时空的购物行为预测客户的下一个购买行为,等等。大数据技术也为我...

2019-06-16 21:59:48 873

原创 如何高效的阅读hadoop源代码?

首先,不得不说,hadoop发展到现在这个阶段,代码已经变得非常庞大臃肿,如果你直接阅读最新版本的源代码,难度比较大,需要足够的耐心和时间,所以,如果你觉得认真一次,认真阅读一次hadoop源代码,一定要有足够的心理准备和时间预期。其次,需要注意,阅读Hadoop源代码的效率,因人而异,如果你有足够的分布式系统知识储备,看过类似的系统,则能够很快地读它的源代码进行通读,并快速切入你最关注的局部...

2019-06-16 21:59:47 312

原创 Hadoop时代的大数据架构

提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。为了给大家有个铺垫,简单讲一些相关开源组件。背景篇Hadoop:开源的数据分析平台,解决了大数据(大到一...

2019-06-16 21:59:45 197

原创 大数据框架Hadoop生态圈第五集

1.5 用Hadoop开发企业级应用为了满足大数据带来的新挑战,需要重新思考构建数据分析的程序的方式。传统的在数据库中存储数据,构建应用程序的方法,对于大数据处理将不再有效。主要因为:传统的应用程序基于事务处理型数据库,这种数据库将不再被Hadoop支持。随着存储在Hadoop上的数据量增大,实时访问仅仅能够访问到集群上的一部分数据。Hadoop的海量数据存储功能可以存储更多的数据...

2019-06-16 21:56:00 194

原创 大数据框架Hadoop生态圈第四集

1.4 Hadoop发行版本虽然Hadoop是开源的Apache(和现在GitHub)项目,但是在Hadoop行业,仍然出现了大量的新兴公司,以帮助人们更方便地使用Hadoop为目标。这些企业大多将Hadoop发行版进行打包、改进,以确保所有的软件一起工作,并提供技术支持。现在,Apache自己也在开发更多的工具来简化Hadoop的使用,并扩展其功能。这些工具是专有的,并有所差异。有的工具成为...

2019-06-16 21:55:00 132

原创 大数据框架Hadoop生态圈第三集

1.2 Hadoop生态圈架构师和开发人员通常会使用一种软件工具,用于其特定的用途软件开发。例如,他们可能会说,Tomcat是Apache Web服务器,MySQL是一个数据库工具。然而,当提到Hadoop的时候,事情变得有点复杂。Hadoop包括大量的工具,用来协同工作。因此,Hadoop可用于完成许多事情,以至于,人们常常根据他们使用的方式来定义它。对于一些人来说,Hadoop是一...

2019-06-16 21:54:58 182

原创 大数据框架Hadoop生态圈第二集

1.1.1 Hadoop:迎接大数据挑战Apache的Hadoop通过简化数据密集型、高度并行的分布式应用的实现,以此迎接大数据的挑战。世界各地的企业、大学和其它组织都在使用Hadoop,Hadoop把任务分成任务片,分布在数千台计算机上,从而进行快速分析,并分布式存储大量的数据。Hadoop利用大量廉价的计算机,提供了一个可扩展强,可靠性高的机制;并利用廉价的方式来存储大量数据。Hadoop...

2019-06-16 21:54:56 220

原创 大数据框架Hadoop生态圈第一集

第一章 大数据和Hadoop生态圈本章主要内容:► 理解大数据的挑战►了解Hadoop生态圈► 了解Hadoop发行版►使用基于Hadoop的企业级应用你可能听别人说过,我们生活在“大数据”的环境中。技术驱动着当今世界的发展,计算能力飞速增长,电子设备越来越普遍,因特网越来越容易接入,与此同时,比以往任何时候都多的数据正在被传输和收集。企业正在以惊人的速度产生数据...

2019-06-16 21:54:54 229

原创 Hadoop之后:大数据的未来

在实时数据世界里,为什么我们还这么执着于Hadoop?根据调查数据显示,围绕批处理架构的Hadoop仍然是大数据的代表技术,尽管其声誉仍然超过实际部署情况。在实时数据世界里,为什么我们还这么执着于Hadoop?根据调查数据显示,围绕批处理架构的Hadoop仍然是大数据的代表技术,尽管其声誉仍然超过实际部署情况。还没有真正部署Hadoop的企业可能想要再等一等。而随着Apache Spa...

2019-06-16 21:54:52 200

原创 大数据全局排序建议用hadoop框架

Hadoop实际是一种以数据为驱动的计算模型,结合MapReduce和HDFS,将任务运行在数据存放的计算节点上,充分利用了计算节点的存储和计算资源,同时也大大节省了网络传输数据的开销。Hadoop1.Hellow Hadoop~~!Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low...

2019-06-15 22:00:00 1175

原创 大数据技术生态圈:Hadoop,hive,spark区别和关系

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不同的...

2019-06-15 21:59:58 1125

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除