maoxiao_jsd-CSDN博客

转载回顾2013：HBase的提升与挑战

2013年马上就要过去了，总结下这一年HBase在这么一年中发生的主要变化。影响最大的事件就是HBase 0.96的发布，代码结构已经按照模块化发布了，而且提供了许多大家迫切需求的特点。这些特点大多在Yahoo!/Facebook/淘宝/小米等公司内部的集群中跑了挺长时间了，可以算是比较稳定可用了。1. Compaction优化HBase的Compaction是长期以来广受诟病的一个特性，

2014-01-16 11:52:18 761

转载使用PowerDesigner创建CDM图

使用PowerDesigner创建CDM图CDM是大多数开发者使用PD时最先创建的模型，也是整个数据库设计最高层的抽象。CDM是建立在传统的ER图模型理论之上的，ER图中有三大主要元素：实体型，属性和联系。其中实体型对应到CDM中的Entity，属性对应到CDM中每个Entity的Attribute，在概念上基本上是一一对应的。但在联系上，CDM有了比较大的扩展，除了保留ER图原有

2014-01-15 17:23:45 1169

转载 python基础篇

http://linux.chinaunix.net/techdoc/beginner/2008/05/05/1000568.shtml

2014-01-15 15:44:43 646

转载 Python入门教程

Lesson 1 准备好学习Python的环境下载的地址是：www.python.org为了大家的方便，我在校内作了copy：http://10.1.204.2/tool/compiler&IDE/Python-2.3.2-1.exelinux版本的我就不说了，因为如果你能够使用linux并安装好说明你可以一切自己搞定的。运行环境可以是linux或者是windows：

2014-01-15 15:23:27 805

转载 powerdesigner12.5 入门教程

powerdesigner12.5 入门教程下载powerdesigner12.5 进行破解和汉化：（1）powerdesigner->tools->lisence select the type of lisence you want to use : 选择第一个,点击load，寻找lisence路径下一步，选择所在地 success（也有可能lisence

2014-01-15 15:21:18 1381

转载一网打尽2013最常用的NoSQL数据库

在几年内，NoSQL数据库一直以性能、可扩展性、灵活的模式和分析能力聚焦着人们的注意力。尽管关系型数据库对于某些用例来说仍是一个不错的选择，就像结构数据和要求ACID事务的应用，但是NoSQL在以下用例中将更具优势：存储的数据实质上是半结构化或者松散的。要求一定的等级的性能和扩展性。存取该数据的应用与最终的一致性相吻合。非关系型数据库典型支持以下功能：灵活的模式

2014-01-14 10:35:09 522

转载大数据下的数据分析平台架构(2011)

随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了一个海量数据的时代，数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB，对这些海量数据的分析已经成为一个非常重要且紧迫的需求。谢超Admaster数据挖掘总监，云计算实践者，10年数据仓库和数据挖掘咨询经验，现专注于分布式平台上的海量数据挖掘和机器学习。作

2014-01-14 10:03:36 632

转载在Hadoop上运行SQL：程序员需知晓的13种数据工具

在GigaOM安排Structure: Data的日程的时候，就意识到很有必要讨论在Hadoop上运行SQL查询，然而却未认识到Hadoop上运行SQL查询竟然变的这么重要。本文是Gigaom的资深编辑Derrick Harris 撰写的一篇文章，CSDN编译如下：其实，对SQL支持并不是Hadoop的最终目标，但是这一特性将会帮助Hadoop找寻自己的生存方式，让Hadoop在那些

2014-01-14 09:50:48 673

转载 Yahoo的Spark实践，下一代Spark调度器Sparrow

Yahoo的Spark实践Yahoo是大数据巨头中对Spark最情有独钟的一家。这次峰会，Yahoo贡献了三个演讲，让我们一一道来。Andy Feng是从浙大走出来的Yahoo杰出架构师，他的主题演讲试图回答两个问题。第一个问题，为什么Yahoo爱上Spark？当Yahoo的内容从编辑选择变成数据驱动的、上下文敏感的、个性化的页面时，机器学习、数据科学是盖子下面的引擎。技术

2014-01-14 09:48:11 1865 2

转载拥抱Spark，机遇无限——Spark Summit 2013精彩回顾

时光回拨到去年九月， UC Berkeley AMPLab的几个成员从硅谷风投Andreessen Horowitz融资成立了Databricks公司，志在从Apache Spark开始，打造一系列工具和平台，从而更快、更方便地从大数据中挖掘有价值的信息。公司成立不久团队成员便着手组织第一届的Spark峰会，会议的组织和宣传只用了两个多月。Spark今年的发展势头很猛，当Databrick

2014-01-14 09:47:03 679

转载分布式日志收集系统Apache Flume的设计介绍

概述Flume是Cloudera公司的一款高性能、高可能的分布式日志收集系统。现在已经是Apache Top项目。Github地址。同Flume相似的日志收集系统还有Facebook Scribe，Apache Chuwka，Apache Kafka(也是LinkedIn的)。Flume是后起之秀，本文尝试简要分析Flume数据流通过程中提供的组件、可靠性保证来介绍Flume的主要

2014-01-14 08:52:47 732

转载 YARN ResourceManager调度器的分析

YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器，探讨三种调度器的设计侧重，最后给出一些配置建议和参数解释。本文分析基于CDH4.2.1。调度器这个部分目前还在快速变化之中。例如，CPU资源分配等特性在不就的将来就会加入。为了方便查阅源代码，原代码位置使用[类名:行号]方式表示。名词解释：ResourceManage

2014-01-09 22:20:35 784

转载 Storm：最火的流式处理框架

诞生　　在2011年Storm开源之前，由于Hadoop的火红，整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐，海量数据处理的能力使得人们可以方便地处理海量数据。但是，Hadoop的缺点也和它的优点同样鲜明——延迟大，响应缓慢，运维复杂。　　有需求也就有创造，在Hadoop基本奠定了大数据霸主地位的时候，很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出

2014-01-09 22:16:20 612

转载 Impala VS hive

1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从

2014-01-09 22:11:45 777

转载 Impala入门笔记

问题背景：初步了解Impala的应用重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的：了解Impala的安装过程初步了解Impala的使用比较Impala与Hive的性能测试适合阅读对象：想了解Impala安装的读者想了解Impala与Hive性能比较的读者不涉及的内容：如何安装H

2014-01-09 22:09:06 675

转载什么是Spark

概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习

2014-01-09 20:24:30 750

转载 Spark：大数据的“电光石火”

Spark已正式申请加入Apache孵化器，从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名，展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。轻：Spark 0.6核心代码有2万行，Hadoop 1.0为9万行，2.0为22万行。一方面，感谢Scala语言的简洁和丰富表达力；另一方面，Spark很好

2014-01-09 20:03:43 950

转载 HBase数据迁移（3）-自己编写MapReduce Job导入数据

尽管在将文本文件加载入HBase时importtsv工具十分高效，但在许多情况下为了完全控制整个加载过程，你可能更想自己编写MapReduce Job向HBase导入数据。例如在你希望加载其他格式文件时不能使用importtsv工具。HBase提供TableOutputFormat 用于在MapReduce Job中向HBase的表中写入数据。你也可以使用HFileOutputFormat

2014-01-09 19:50:11 752

转载 HBase数据迁移（2）- 使用bulk load 工具从TSV文件中导入数据

HBase提供importtsv工具支持从TSV文件中将数据导入HBase。使用该工具将文本数据加载至HBase十分高效，因为它是通过MapReduce Job来实施导入的。哪怕是要从现有的关系型数据库中加载数据，也可以先将数据导入文本文件中，然后使用importtsv 工具导入HBase。在导入海量数据时，这个方式运行的很好，因为导出数据比在关系型数据库中执行SQL快很多。importtsv

2014-01-09 19:47:53 864

转载数据导入HBase最常用的三种方式（一）——put方式

HBase数据迁移（1）-使用HBase的API中的Put方法使用HBase的API中的Put是最直接的方法，用法也很容易学习。但针对大部分情况，它并非都是最高效的方式。当需要将海量数据在规定时间内载入HBase中时，效率问题体现得尤为明显。待处理的数据量一般都是巨大的，这也许是为何我们选择了HBase而不是其他数据库的原因。在项目开始之前，你就该思考如何将所有能够很好的将数据转移进

2014-01-09 19:37:18 1894

转载 Hive到底是什么？

Hive到底是什么Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。那么，到底什么是Hive，Hive官网Wiki中的定义如下：Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本身是建立在Apache Hadoop只上，主要提供以下功能：它提供了一系列的工具，可用来对数据进行提取/

2014-01-09 19:11:44 960

转载 Hive：简单查询不启用Mapreduce job而启用Fetch task

如果你想查询某个表的某一列，Hive默认是会启用MapReduce Job来完成这个任务，如下：hive> SELECT id, money FROM m limit 10;Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since there's no reduce o

2014-01-09 19:02:56 481

转载深入剖析阿里巴巴云梯YARN集群

阿里巴巴作为国内使用Hadoop最早的公司之一，已开启了Apache Hadoop 2.0时代。阿里巴巴的Hadoop集群，即云梯集群，分为存储与计算两个模块，计算模块既有MRv1，也有YARN集群，它们共享一个存储HDFS集群。云梯YARN集群上既支持MapReduce，也支持Spark、MPI、RHive、RHadoop等计算模型。本文将详细介绍云梯YARN集群的技术实现与发展状况。

2014-01-09 18:59:26 870

转载编译hadoop-2.2.0源代码环境

1.安装CentOS我使用的是CentOS6.5，下载地址是http://mirror.neu.edu.cn/centos/6.5/isos/x86_64/，选择CentOS-6.5-x86_64-bin-DVD1.iso 下载，注意是64位的，大小是4GB，需要下载一段时间的。其实6.x的版本都可以，不一定是6.5。我使用的是VMWare虚拟机，分配了2GB内存，20GB磁盘空间。内

2014-01-06 18:30:49 685

转载 java-Excel HssFWorkBook用法

public ActionResult excelPrint() { HSSFWorkbook workbook = new HSSFWorkbook();// 创建一个Excel文件 HSSFSheet sheet = workbook.createSheet();// 创建一个Excel的Sheet sheet.createFreezePane(1,

2014-01-06 13:51:57 607

原创 hadoop通信核心：RPC学习

RPC（remote produce call）是一种常见的分布式网络通信协议，它允许本地计算机远程调用远程计算机的子程序，同时隐藏了具体了通信细节，使得用户无需考虑交互式编程，对于分布式系统hadoop，hadoop——RPC作为MR,YARN,HDFS公用的通信模块，保证其轻量级，高性能，可控性显得尤为重要（java RMI重量级过大，且可控性太少）--------------------

2014-01-05 16:28:04 1533

转载事件驱动模式·

当前分布式计算　Web Services盛行天下，这些网络服务的底层都离不开对socket的操作。他们都有一个共同的结构：1. Read request2. Decode request3. Process service4. Encode reply5. Send reply经典的网络服务的设计如下图，在每个线程中完成对数据的处理：但这种模式在用户负载增加时，性能

2014-01-05 11:09:22 715

翻译 YARN应用实例

原文：http://hadoop.apache.org/common/docs/r0.23.0/hadoop-yarn/hadoop-yarn-site/WritingYarnApplications.html目的这个文档从比较高的层面上描述了如何编写一个YARN应用概念和流程首先说的概念是“Application Submission Client”他负责将“

2014-01-03 12:31:27 3257

转载 Hadoop MapReduce统计结果直接输出hbase

MapReduce统计结果直接输出hbase，我使用的是hadoop1.0.4版本和hbase 0.94版本，hadoop和hbase安装伪分布式。1.hadoop安装这里就不讲了。2.hbase安装我这里将一下。首页解压habase安装包到/home/hadoop目录。配置hosts文件如下：192.168.0.101 hadoop.master复制代

2014-01-02 22:11:09 1485

转载 windows远程连接Linux的两个小工具

这也是部署openstack需要用到的：一、xshell介绍xshell是什么，是在windows下，远程连接Linux的工具。为什么会是xshell,难道就没有其他方式。我们通常了解windows远程连接时相当简单的，只要知道ip，或则主机名，就ok了。那么windows和Linux是否也可以远程连接那。是的，这是可以的。那么这个工具就是xshell.二putty介绍putt

2014-01-02 19:30:43 2258

今年，大数据在很多公司都成为相关话题。虽然没有一个标准的定义来解释何为 “大数据”，但在处理大数据上，Hadoop已经成为事实上的标准。IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而，当你已经决定要使用Hadoop来处理大数据时，首先碰到的问题就是如何开始以及选择哪一种产品。你有多种选择来安装Hadoop的一个版本并实现大数据处理。本文讨论

2014-01-02 18:28:48 1199

转载 hive与Hbase整合

大数据工具篇之Hive与HBase整合完整教程一、引言　　最近的一次培训，用户特意提到Hadoop环境下HDFS中存储的文件如何才能导入到HBase，关于这部分基于HBase Java API的写入方式，之前曾经有过技术文章共享，本文就不再说明。本文基于Hive执行HDFS批量向HBase导入数据，讲解Hive与HBase的整合问题。这方面的文章已经很多，但是由于版本差异，可操作性

2014-01-02 16:25:55 767

转载 MapR与Oozie工作

阿帕奇的Oozie™是一个工作流调度系统来管理Apache的Hadoop作业。Oozie的工作流程作业导演的动作非循环图（DAG）的。Oozie的协调工作是由时间（频率）和数据供应情况而引发复发性Oozie的工作流程作业。Oozie的集成了Hadoop的堆栈的其余部分支持多种类型的Hadoop作业的开箱即用（如Java的map-reduce，流的map-reduce，猪，蜂房，Sqoop和

2014-01-02 09:46:50 881

转载 MapR与Mahout工作（一）——Mahout升级

此页面包含了描述如何在MAPR分布为Apache Hadoop的升级亨利马乌以下主题：更新资料库或下载的软件包移植配置文件特定版本的注意事项升级软件在升级之前，请确保MAPR核心软件的群集上的版本支持亨利马乌你想升级到的版本。见亨利马乌发行说明。更新资料库或下载的软件包MAPR的RPM和DEB库总是包含推荐为MAPR核心最新发布的亨利马乌版本。该库位于http://

2014-01-02 09:45:49 649

转载 MapR与Mahout工作

在Apache Mahout的™机器学习库的目标是建立可扩展的机器学习库。象夫目前提供：共同筛选用户和基于项目引荐人K均值，模糊K-均值聚类均值漂移聚类Dirichlet过程聚类潜在狄利克雷分配奇异值分解并行频繁模式挖掘互补的朴素贝叶斯分类器随机森林决策树分类依据高性能的Java集合（以前小马集合）一个充满活力的社区本节包含与亨利马乌的MAPR分布为Apache Hadoop的工作文档

2014-01-02 09:44:53 664

转载 Mapr与Hive工作（三）——升级hive

此页面包含了描述如何在MAPR分布为Apache Hadoop的升级蜂房以下主题：更新资料库或下载的软件包移植配置文件特定版本的注意事项升级软件更新蜂房Metastore在升级之前，请确保MAPR核心软件的群集上的版本支持蜂巢的要升级到的版本。看到蜂巢发行说明。更新资料库或下载的软件包MAPR的RPM和DEB库总是包含推荐为MAPR核心的最新版本的蜂巢版本。该库位于

2014-01-02 09:37:11 734

转载 Mapr与Hive工作（二）——使用HiveServer2

HiveServer2允许多个并发连接到蜂巢服务器在网络上。HiveServer2是作为对在MAPR分布为Apache Hadoop的蜂房0.9.0基本版本的补丁。请参阅安装配置单元安装的详细信息。该 MAPR-蜂巢包包括HiveServer1和HiveServer2，你可以选择运行哪一个。此页面包含了以下主题：配置蜂房的HiveServer2启用

2014-01-02 09:10:31 3327

转载 Mapr与Hive工作（一）——Hive的的ODBC连接器

此页面包含有关设置和使用ODBC连接器配置单元的详细信息。此页面包含了以下主题：开始之前在SQL连接器软件和硬件要求安装和配置在DSN配置SSL配置DSN的身份验证运行SQLPrepare优化笔记数据类型HiveQL注意事项在应用笔记Microsoft Access中微软的Excel /查询画面桌面开始之前该MAP

2014-01-02 09:08:11 6059

转载 Mapr与Hive工作

Apache的配置单元™是数据仓库系统的Hadoop，便于轻松实现数据汇总，即席查询，并存储在Hadoop的兼容的文件系统，如MAPR数据平台（MDP）的大型数据集进行分析。配置单元提供了一个以项目结构到这个数据，并使用类似于SQL的语言，称为HiveQL查询数据的机制。同时这个语言也可以让传统的map / reduce程序员在他们的自定义映射器和减速器堵塞时不方便或低效来表达这种逻辑HiveQL

2014-01-02 09:06:39 651

转载 Mapr与HCatalog工作(一)——HCatalog的升级

此页面包含了描述如何在MAPR分布为Apache Hadoop的升级HCatalog以下主题：更新资料库或下载的软件包移植配置文件特定版本的注意事项升级软件在升级之前，请确保MAPR核心软件的群集上的版本支持HCatalog你想升级到的版本。见HCatalog发行说明。更新资料库或下载的软件包MAPR的RPM和DEB存储库总是包含推荐为MAPR核心最新发布的HCat

2014-01-02 09:05:52 732

sh整合的模拟学生选课的源代码

空空如也