自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 MapReduce详解

1.1 MapReduce是什么  Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词,一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量...

2018-09-19 16:20:18 189

转载 深入理解HDFS:Hadoop分布式文件系统

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bingduanlbd/article/details/51914550 ...

2018-09-14 16:57:52 212

转载 Zookeeper的应用和原理

场景一有这样一个场景:系统中有大约100w的用户,每个用户平 均有3个邮箱账号,每隔5分钟,每个邮箱账需要收取100封邮件,最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力,从 多个不同的网路出口进行访问外网,计算的压力得到缓解,那么每台机器的计算压力也不会很大了。        通过我们的讨论和以往的经验判断在这场景中可以实现并行计算,但我们还期望能对并行计...

2018-09-14 14:53:32 129

转载 Eclipse配置Hadoop开发环境详细步骤+WordCount示例

说明:Hadoop集群已经搭建完毕,集群上使用的Hadoop-2.5.0。目的:在window10系统上利用Eclipse配置Hadoop开发环境,编写MapReduce关联Hadoop集群。准备:JDK环境变量配置、Eclipse、hadoop-2.7.5.tar、hadoop-eclipse-plugin-2.7.3.jar、hadoop-common-2.7.3-bin-master...

2018-09-14 10:56:23 668

转载 Hadoop环境搭建

前言Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。这是一篇入门文章,Hadoop的学习方法很多,网上也有很多学习路线图。本文的思路是:以安装部署Apache Hadoop2.x版本为主线,来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的,通过安装认识Hado...

2018-09-13 20:12:01 159

转载 CDH大数据平台实施经验总结

1. 平台规划注意事项1.1 业务数据全部存储在datanode上面,所以datanode的存储空间必须足够大,且每个datanode的存储空间尽量保持一致。1.2 管理节点/namenode对存储空间要求不高,主要存储各计算节点datanode的元数据信息,以3个datanode为例,每个datanode存储2T的数据,namenode才耗费80G的空间。1.3 由于Hadoop有数...

2018-09-13 19:55:15 1233

转载 Hadoop性能调优

1. 简介Hadoop性能调优不仅涉及Hadoop本身的性能调优,还涉及更底层的硬件、操作系统和Java虚拟机等系统的调优。具体包括以下四部分,系统对这几部分适当地进行调优均可能给Hadoop带来性能提升。Hadoop(JobTracker, TaskTracker,…) Java Virtual Machine Operating System(CentOS, RedHat) H...

2018-09-13 19:51:20 298

转载 Hadoop基本介绍

1、Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(Hadoop Distributed File System)来执行MapReduce程序的MapReduce引擎。(1)Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量...

2018-09-13 15:09:05 115

转载 机器学习和数据挖掘推荐书单

机器学习和数据挖掘推荐书单有了这些书,再也不愁下了班没妹纸该咋办了。慢慢来,认真学,揭开机器学习和数据挖掘这一神秘的面纱吧!《机器学习实战》 :本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如 k 近邻算法、朴素贝叶斯算法、Logistic 回归算法、支持向量机、 AdaBoost 集成方法、基于树的回归算法和分类回归树( CART

2015-10-27 10:31:59 600

转载 和机器学习和计算机视觉相关的数学

1. 线性代数 (Linear Algebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是Introduction to Linear Algebra (3rd Ed.)  by Gilbert

2015-10-27 10:18:06 401

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除