自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Newyear

记录自己的一些经验和总结

  • 博客(15)
  • 资源 (5)
  • 收藏
  • 关注

原创 将Storm源码导入Eclipse

1. 从GitHub上下载源码在本地文件夹建立一个叫storm-source的文件夹,将代码用git拖下来,最新的代码已经转移到https://github.com/apache/incubator-stormgit clone git://git.apache.org/incubator-storm.git http方式:git clone https://github.co

2013-12-29 18:09:06 4461

转载 Hive Join详解

1.Join类型Common Join最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成.首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个map output key 变成了table_name_tag_prefix + join_colu

2013-12-08 15:47:01 1264

转载 Hive数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2013-12-08 14:59:58 760

转载 Hive调优实战

优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时

2013-12-08 14:09:27 734

原创 Hive 简单UDAF开发(extends UDAF)

Hive UDAF(User- Defined Aggregation Funcation)用户自定义聚合函数是一个很好的功能,集成了先进的数据处理。Hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用​​所有功能,但是UDAF就写的比较复杂,不直观。1、一下两个包是

2013-11-22 15:53:22 2932 2

原创 Ubuntu上安装配置Strom

1.安装配置ZeroMQ和JZMQsudo apt-get install libtool autoconf automakesudo apt-get install uuid-dev g++sudo apt-get install makesudo apt-get install pkg-config sudo apt-get install gitzeromq.

2013-11-11 10:01:04 1144 1

转载 Java内存模型FAQ

原文:http://www.cs.umd.edu/~pugh/java/memoryModel/jsr-133-faq.html  译者:Alex,方腾飞目录什么是内存模型?其他语言,像c++,也有内存模型吗?JSR 133是什么?重排序是什么?旧内存模型有什么错误?没有正确同步的含义是什么?同步会做些什么呢?final字段如何改变它们的值?在新的JMM下final字段是如何工作的?v

2013-01-14 17:08:48 757

原创 使用JMX监控WebLogic因classpath中jar包顺序导致的一些诡异问题

近期在用JMX监控WebLogic的状态信息,包括线程池,JVM,数据源,Session数量等。在一个demo工程中做得差不多了,把代码移动到正式工程中,然后问题就出来了,折腾了几个小时才搞清楚到底啥问题,因此记录一下。最开始对WebLogic的MBean体系不是很清楚,折腾了几天慢慢也弄明白了,代码不复杂,demo示例:package com.baosight.ebsm.wl;imp

2012-09-01 23:51:09 2684

原创 Drools, IKExpression, Aviator和Groovy字符串表达式求值比较

eSOC项目的一个重要功能就是规则引擎,规则引擎的主要功能就是关联分析。规则引擎的最基本的功能就是计算表达的值(表达式是规则中的基础部分),为了选择一个合适的基础构件作表达式求值工具,前后比较了Drools, IKExpression,Aviator和Groovy,Drools为JBosss的开源规则引擎, IKExpression和Aviator都是轻量的Java表达式求值引擎(均为中国人开发的

2012-08-14 16:48:22 20158 3

原创 使用logrotate实现日志的维护

在开发的系统上线以后,程序一般都会打印很多日志出来,这些日志可能会越来越多,最终最严重的后果就是把磁盘分区都塞满了,导致系统运行异常等。在开发esoc的过程中,发现linux系统本身是用logrotate维护本身日志的删除,压缩等。因此也就利用logrotate来维护esoc产生的各种日志。基本处理方式如下:首先将esoc各个模块以及使用的第三方组件的日志都指向了同一个文件夹/var/es

2012-08-14 16:30:28 1362

原创 使用Java Service Wrapper将Java应用程序做成服务

安装Service Wrapper从http://wrapper.tanukisoftware.com/doc/english/download.jsp 下载最新的稳定的Community版本,根据操作系统类型选择64bit或者32位,这里下载的是wrapper-linux-x86-64-3.5.14.tar.gz上传到需要安装的机器,解压缩 tar –zxvf wrapper-linux

2012-08-14 16:27:54 2422

原创 MongoDB Sharding配置

基本配置为:10.25.34.238/239/240为shard1,名称rs0;10.25.34.239/240/241为shard2,名称rs1。241为config节点,238为route节点。config节点需要1-3个,route节点可以任意多个。这里只配置了一个config节点和一个route节点。1.配置Replica Seta.每台机器执行同步时间ntpdat

2012-08-14 16:16:38 1646

原创 MongoDB的Replica Set POC验证

基础测试环境硬件环境虚化环境: 每节点2核心,4G内存,40G存储空间,iSCSI存储IP:10.25.34.239,240和241软件环境操作系统:CentOS 6.2 64bit 内核版本2.6.32文件系统: ext4MongoDB版本:2.0.6测试原始数据桥论坛发帖和回帖数据,数据复制10分,每份数据当成一个租户,租户之间用uuid识别测试方法

2012-08-12 16:26:03 2806

原创 解决MyBatis的SqlSession不及时close导致的内存泄露一例

在上周进行MongoDB的POC验证中,为了初始化数据,写了一段代码将MySQL数据库的复制n份并copy到MongoDB中。在这过程中使用了MyBatis访问MySQL,由于循环查询数据库数据,所以每次查询完数据后并没有关闭SqlSession,造成了内存泄露。程序片段代码如下,然后实际中启用5个线程同时执行。public void copyReply2MongoDB() { Mon

2012-08-12 14:54:52 17119

转载 LVM在线扩展磁盘实例

原文:http://www.cnblogs.com/huangjingzhou/articles/2140121.html1、添加磁盘,连接至主机。开机,进入系统。使用root登录,运行fdisk,将新加的磁盘分区[root@xmydlinux ~]# fdisk –l———————————————— Disk /dev/hda: 6442 MB, 6442450944 byt

2012-06-04 16:05:06 1404

Netty5.0架构剖析和源码解读

Netty5.0架构剖析和源码解读;很不错的文章和分享

2014-02-07

Drools JBoss Rules 5.0 Developer's Guide

Drools JBoss Rules 5.0 Developer's Guide Drools 5.0开发教程

2011-02-09

UML for Java Programmers中文版

UML for Java Programmers中文版

2008-04-06

Eclipse TPTP

如何利用TPTP进行性能监视

2007-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除