13 liuhongxingrs

尚未进行身份认证

暂无相关简介

等级
TA的排名 7w+

YUM原理和命令详解

看了很久发现这篇关于YUM的整理的很好:YUM原理和命令详解 http://bbs.ywlm.net/thread-55-1-1.html

2012-03-13 13:48:51

如何做首页改版(阿里巴巴首页改版经验谈)

转载自http://www.tianya8.net/2012/01/%e5%a6%82%e4%bd%95%e5%81%9a%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%ef%bc%88%e9%98%bf%e9%87%8c%e5%b7%b4%e5%b7%b4%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%e7%bb%8f%e9%aa%8c%e8%

2012-01-20 15:11:09

2011年风靡的数据流计算系统

装载自http://www.programmer.com.cn/9642/

2012-01-20 15:07:54

hive的multi-distinct可能带来性能恶化

目前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session

2012-01-18 09:27:41

hive中reduce输出大文件的处理

问题1:hive表对应的数据含有很多空文件或者很多较大文件原因:最本质原因是数据倾斜导致分配到reduce的数据量差别所致,这些空文件会占据namenode的内存,也会影响map的数目。解决方案1: 在hadoop本身OutputFormat的接口中org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat倒可以在hadoop层面解决,

2012-01-16 13:55:01

Oracle本地分区索引的使用小结

为了提高数据访问的效率,常常建立索引,但是每次重建索引在数据量很大的时候会明显变慢,影响了处理效率,因此对于大量的数据,常常使用分区和分区索引相结合的办法,这样历史分区索引不用重建,只用对新分区进行索引进行处理就行了,中间测试oracle本地分区索引的过程记录如下,供参考1.建立分区表create tabletmp_partition_list (  report_datevarcha

2012-01-08 14:10:03

数据质量和数据认知

数据质量 数据认知

2011-02-22 22:00:00

statViz结合GraphViz进行日志用户路径分析

常规的日志分析工具侧重于统计功能,如流量,IP等主题的统计,statViz主要目的用来进行点击流或者路径分析,非常小巧。其实statViz本身不能进行路径的展示,其主要是生成路径图的数据文件(.dot类型),然后把此文件用通用的图形展示工具GraphViz进行展示出来。 初接触statViz的时候非常激动,激动于它的想法,把路径形象的展示出来,对日志可视化展示有了更直观的了解。statViz用到了php脚本进行路径图文件的生成,以上的内容可以帮助你完整的部署这个日志展示工具。我假设你连php也不知道是什么

2010-06-06 17:16:00

周末部门的龙王山之旅

计划将近一月的部门的outing终于在本周六完成,目的地是安吉的龙王山漂流,享受纯原始的自然风光,我为了应对第二天的漂流,晚上还特地到超市买了双凉鞋。 早上8点准时坐大巴出发,经过了200公里将近2个小时的行进终于到达目的地。目前部门outing一个是享受自然风光,放松工作中紧张的生活,另外一个主要目的是进行团队的建设,因为最近来了好多新人,团队的规模越来越大,需要通过一定形式的活动更

2010-05-30 17:17:00

同事离职

     同事离职了。工作第一年,第一次感受到职场带来的压力,第一次感受到同事有的就这么匆匆擦肩而过,就突然以后就不见了。     求学这么多年,体会最多的就是同学的分分离离,感受那种分离带来的牵挂。在工作中,却带来的一些凄凉的感觉,难道大家都是匆匆过客,确实是真的过客,我们的目标永远在自己价值最大化的方向上前进,而少了那种战斗的友谊,战斗的情感的支撑,更因为我们有了再次选择的能力。

2010-05-27 23:20:00

学会快乐学会感恩

       学会快乐,学会感恩,真的这么难,一个对自己要求比较严格的人,一个很自我的人,甚至一个自私的人,对别人的忍受度不是因为自己想心胸广阔就变得快乐。      都认为自己很完美,都认为自己表现出来的是积极的一面,都认为自己处于镁光灯和别人的关怀下,其实自己却是走入了另外一个无法理解的境地。      我很喜欢蝴蝶效应这部电影,里面所要表达的概念也是影响深刻,一个小小的活动带来的将是

2010-05-27 23:07:00

路径模式挖掘之最大前驱路径(MFP或者MFR)

一. 问题描述:         在网络环境下,用户对链接的访问可能出现前进或者后退的情况,不会一层不变按照固定好的站点结构走下去, 具体的说在一个用户访问的session中,用户有目的的完成一件任务需要经过1,2,3,4步,但是在实际过程中可能 出现过重复比如进行1,2,3,2,3,4的操作来进行,目的就是还原用户的真实的路径信息,为以后模式的发现提供 更加清洁的数据 二

2010-05-16 18:47:00

使用Hadoop进行分布式开发

    以前曾尝试自己建立单击版本的Hadoop单节点集群学习一下Hadoop,一直没有时间潜心研究,为了尝鲜,急迫能够找到测试Hadoop的并行计算模式的环境,更深入的了解MAPREDUCE模式,最近偶然上网,发现了这个帖子,还没有尝试,很有帮助,接下来可以尝试一下了。不知道能不能直接集成HIVE。     帖子参见IBM开发中心:http://www.ibm.com/developerwor

2010-05-15 00:46:00

[转]shell EOF作用

(内容) EOF 可以把EOF替换成其他东西 意思是把内容当作标准输入传给程序这里再简要回顾一下符。在该分界符以后的内容都被当作输入,直到shell又看到该分界符(位于单独的一行)。这个 分界符可以是你所定义的任何字符串。常用文件重定向:command > filename  把标准输出重定向到一个新文件中 command >> filename  把标准输出重定向到一个文件中(追加)

2010-05-15 00:26:00

参数处理-Shell传入参数的处理

原帖来自于http://www.cnblogs.com/FrankTan/archive/2010/03/01/1634516.html另外一个参考文章:http://www.ibm.com/developerworks/cn/linux/l-bash-parameters.html,其中关于getOpts的解释比较基础。       使用shell处理的时候对参数的处理是个基本模块,所以

2010-05-14 22:26:00

八卦:门神

       网络的力量的无穷的,我深刻理解了为什么说劳动人民的智慧是无穷,一旦一个群体达到了规模,其产生的社会影响力将会是巨大的。当前我们的互联网就是一个典型的例子。       目前互联网的各种热门事件都会冠以门结尾,比如跳跳门,网吧门,以及最近的护士门,娱乐了网民,让大家无聊的时候增加了一些茶余饭后的谈资,也学针对门的主人公,有的难逃故意炒作之嫌,有的却是被无情的网络曝光的体无完肤,让人

2009-11-09 22:21:00

数据仓库建设

       数据仓库的建设需要经历的事情,需要经过一个混乱期,为了简单的需求来无休止的进行原有模型的扩充,直到模型已经不成为模型,是所有的需求堆积的结果。经过一个混乱期之后,会设想进行一次数据的整体规划,需求的整体规划,此时按照模型的方法来进行数据的二次重构,并考虑使用行业通用的解决方案来进行数据仓库的建设,比如说进行新的etl流程的改写,从最原始的存储过程来过渡到业界使用的跨平台的数据抽取,转

2009-11-09 21:52:00

随记:组内聚会

       今天是2009年11月9日,我们仓库开发组的兄弟姐妹们进行了一次聚会,给大家放松的机会,更加增加大家的感情。快到年底了,仓库开发小组确实是辛苦忙了大半年,实现了数据仓库从旧居移到新居,乔迁新居,是件高兴的事情,但是整理旧居的物品确实是让人头疼的,怎么样能够把积攒了这么长时间的旧东西归归类,该扔掉的扔掉,该保存的保存,确实得花一部分心思。      从心底里是比较佩服和欣赏模型重构

2009-11-09 21:32:00

与R相关的开源软件和接口

与Java的接口1. 直接通过shell来调用,2. 通过Rsever和JRclient来调用,JRclient相当于一个客户端,http://www.rosuda.org/Rserve/ 3. rJava是提供给R来调用Java的包,其通过JNI来实现,这个应该以后会重构,因为JNI现在没有这么大行其道与Python的接口Rpy开源软件包,目前已经有Rpy2.0是对Rpy前期

2009-08-14 16:36:00

R的图像用户界面之Rattle

       Rattle 是使用R和GNOME编写的为数据挖掘服务的图像化界面,其中R是统计分析的开源软件。       使用Rattle的步骤通过界面上的Tab来进行:首先是装载数据,选择分析或者挖掘的变量,也可能对数据进行采样,然后就是分析数据,建立模型和模型验证。对每一个Tab,都会有相应的配置选项存在,然后点击执行按钮来执行此项任务,注意只有点击了执行按钮,这个任务才会被执行。     

2009-08-13 17:27:00

查看更多

勋章 我的勋章
    暂无奖章