自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(166)
  • 资源 (1)
  • 收藏
  • 关注

转载 构建spring+dbcp连接池+sqlite

构建spring+dbcp连接池+sqlite2012-03-12 10:30:58分类: Java我这两周在开发公司自己的搜索引擎,主要是用lucene,配置数据我设计是用sqlite,所有的配置通过spring进行串联1.准备jar包http://files.zentus.com/sqlitejdbc/sqlitejdbc-v056.jarspring.ja

2015-11-23 16:32:20 428

转载 expect学习笔记及实例详解

引用自:http://wenku.baidu.com/view/b65e103610661ed9ad51f374.html1. expect 是基于tcl 演变而来的,所以很多语法和tcl 类似,基本的语法如下所示:1.1 首行加上/usr/bin/expect1.2 spawn: 后面加上需要执行的shell 命令,比如说spawn sudo touc

2015-04-03 15:23:02 339

转载 rsync配置和使用

转自:http://blog.sina.com.cn/s/blog_5eda2dda01015fcs.html参考:http://blog.csdn.net/wssxy/article/details/5602832Redhat中安装rsync1、  首先在服务端和客户端都安装rsync,我的RHEL5默认已经安装好了。在安装RedHat5的时候,可以在软件定制中的“基

2015-03-13 11:56:37 637

转载 Hive 库、表、字段、交互式查询的基本操作

转自:http://my.oschina.net/leejun2005/blog/271631目录[-]1、命令行操作2、表操作3、列操作4、查看变量5、一个完整的建库、表例子6、常用语句示例7、Refer:1、命令行操作(1)打印查询头,需要显示设置:set hive.cli.print.header=t

2015-03-10 15:22:22 616

转载 深入浅出数据仓库中SQL性能优化之Hive篇

转自:http://www.csdn.net/article/2015-01-13/2823530一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Jo

2015-03-06 11:38:53 256

转载 MapReduce: 提高MapReduce性能的七点建议

转自:http://langyu.iteye.com/blog/916304Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”

2015-03-04 23:52:18 270

转载 hive优化数据倾斜的解决方法

转自:http://blog.csdn.net/lpxuan151009/article/details/7980509发生数据倾斜时,通常的现象是:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由

2015-03-03 11:33:50 359

转载 map和reduce 个数的设定 (Hive优化)经典

http://blog.sina.com.cn/s/blog_9f48885501017dua.html一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.

2015-03-01 23:06:35 311

转载 MapReduce:默认Counter的含义

http://langyu.iteye.com/blog/1171091   MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析

2015-03-01 22:40:27 240

转载 Hadoop权限管理

原文链接:http://dongxicheng.org/mapreduce/hadoop-permission-management/1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管

2015-01-06 11:06:51 297

转载 Hadoop 性能调优 重要参数设置技巧

源地址:http://www.linuxidc.com/Linux/2012-12/76533.htm这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.perce

2014-09-26 16:24:44 344

转载 Hadoop中map数的计算

原地址:http://blog.csdn.net/xiaolang85/article/details/9064909Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size,minSp

2014-09-26 10:53:38 352

转载 Hadoop计算中的Shuffle过程

源地址:http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.htmlShuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大

2014-09-26 10:16:28 314

hive中自定义函数(UDAF)实现多行字符串拼接为一行

原文di函数如何使用:hive> desc concat_test;OKa       intb       stringhive> select * from concat_test;OK1       good2       other1       nice1       hellohive> select a,co

2014-09-19 15:52:12 361

转载 Hive内置row_number

原文地址:http://blog.csdn.net/yangjun2/article/details/9339641Hive-0.11.0中内置row_number函数org.apache.hadoop.hive.ql.exe.FunctionRegistry registerHiveUDAFsAsWindowFunctions();registerWindowFu

2014-09-11 10:39:10 407

转载 Hive中的条件函数:If、Coalesce、Case

Hive中的条件函数:If、Coalesce、Case (2013-01-08 14:41:41转载▼Conditional Functions in HiveHive supports three types of conditional functions. These functions are listed below:IF( Test Co

2014-09-03 19:06:15 582

转载 Hive自定义函数(generic)

原文地址:http://www.haogongju.net/art/1959415

2014-08-30 17:47:09 479

转载 Hive UDAF和UDTF实现group by后获取top值

源地址:http://www.linuxidc.com/Linux/2012-07/66503.htm先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下:public class Top4GroupBy extends UDAF {    //定义一个对象用于存储数据    public static class State

2014-08-27 14:45:09 380

转载 Jackson 框架,轻易转换JSON

源地址:http://www.cnblogs.com/hoojo/archive/2011/04/22/2024628.html

2014-08-26 17:47:09 292

转载 hive原生和复合类型的数据加载和使用

源地址:http://www.cnblogs.com/ggjucheng/archive/2013/01/31/2868941.html

2014-08-26 16:17:26 341

原创 Hive 自定义SerDe时生成ObjectInspector三种方式

目前看不懂源码,从不同的途径看到的ObjectInspectorshe

2014-08-26 15:05:01 1227

转载 Hive 随谈(六)– Hive 的扩展特性

源地址:http://www.chinacloud.cn/show.aspx?id=3276&cid=12

2014-08-26 10:49:45 251

转载 写好Hive 程序的五个提示

源地址:http://www.chinacloud.cn/show.aspx?id=3275&cid=12

2014-08-26 10:49:20 274

转载 Hive 随谈(五)– Hive 优化

源地址:http://www.chinacloud.cn/show.aspx?id=3277&cid=12Hive 针对不同的查询进行了优化,优化可以通过配置进行控制,本文将介绍部分优化的策略以及优化控制选项。列裁剪(Column Pruning)在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:SELECT a,b FROM T WHERE

2014-08-26 10:48:36 284

转载 Hive 随谈(四)– Hive QL

源地址:http://www.chinacloud.cn/show.aspx?id=3278&cid=12

2014-08-26 10:47:58 336

转载 Hive 随谈(三)– Hive 和数据库的异同

源地址:http://www.chinacloud.cn/show.aspx?id=3279&cid=12

2014-08-26 10:45:25 393

转载 Hive 随谈(一)– Hive 入门

源地址:http://www.chinacloud.cn/show.aspx?id=3276&cid=12

2014-08-26 10:45:17 340

转载 Hive 随谈(二)– Hive 结构

源地址:http://www.chinacloud.cn/show.aspx?id=3280&cid=12

2014-08-26 10:44:38 297

转载 Hadoop配置项整理

源地址:http://slaytanic.blog.51cto.com/2057708/1100974

2014-08-26 09:58:48 424

转载 Hive 数据倾斜总结

转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的

2014-08-25 23:13:25 276

转载 hive 数据倾斜

hadoop job解决大数据量关联时数据倾斜的一种办法

2014-08-25 23:09:01 352

转载 hive 处理小文件

原文地址:http://blog.csdn.net/yfkiss/article/details/8590486当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,

2014-08-25 22:37:51 341

转载 hive 优化

源地址:Hive优化总结---by 食人花   优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率

2014-08-25 22:33:17 317

转载 How-to: Use a SerDe in Apache Hive

Apache Hive is a fantastic tool for performing SQL-style queries across data that is often not appropriate for a relational database. For example, semistructured and unstructured data can be queried

2014-08-25 19:52:47 452

转载 Hive中的InputFormat、OutputFormat与SerDe

原文地址:http://www.coder4.com/archives/4031前言Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需要自定义InputFormat、OutputFormat,以及SerDe了。首先

2014-08-25 17:46:38 675

转载 Hive-0.5中SerDe概述

源地址:http://blog.csdn.net/dajuezhao/article/details/5753791

2014-08-25 17:27:01 255

转载 hive 行列转换总结

原文地址:http://www.07net01.com/linux/hivexingliezhuanhuanzongjie_654296_1381813421.html

2014-08-25 12:07:52 315

转载 hive自定义分隔符和处理Apache日志

源地址:http://liubingwwww.blog.163.com/blog/static/304851072011112262557997/

2014-08-25 11:52:10 539

转载 hive UDTF 解析json格式数据

原文地址:http://cache.baiducontent.com/c?m=9d78d513d9991aeb0ffa940f55578a3a0e55f0744ca1c7627fc3e23f84105f550026bdb47d645646c4c40f7a1cee1400bfb26b65377573f1c1df883c9be8cf787cd53034064ddb1e05d36ef48d116e963

2014-08-25 11:46:42 1364

转载 Hive 中的复合数据结构简介以及一些函数的用法说明

原文地址:http://my.oschina.net/leejun2005/blog/120463

2014-08-25 10:59:55 489

SQL_SERVER数据库开发之存储过程应用

SQL_SERVER数据库开发之存储过程应用

2010-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除