自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 资源 (14)
  • 收藏
  • 关注

转载 YUM原理和命令详解

看了很久发现这篇关于YUM的整理的很好:YUM原理和命令详解 http://bbs.ywlm.net/thread-55-1-1.html

2012-03-13 13:48:51 1705

转载 如何做首页改版(阿里巴巴首页改版经验谈)

转载自http://www.tianya8.net/2012/01/%e5%a6%82%e4%bd%95%e5%81%9a%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%ef%bc%88%e9%98%bf%e9%87%8c%e5%b7%b4%e5%b7%b4%e9%a6%96%e9%a1%b5%e6%94%b9%e7%89%88%e7%bb%8f%e9%aa%8c%e8%

2012-01-20 15:11:09 582

转载 2011年风靡的数据流计算系统

装载自http://www.programmer.com.cn/9642/

2012-01-20 15:07:54 521

原创 hive的multi-distinct可能带来性能恶化

目前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session

2012-01-18 09:27:41 4893

原创 hive中reduce输出大文件的处理

问题1:hive表对应的数据含有很多空文件或者很多较大文件原因:最本质原因是数据倾斜导致分配到reduce的数据量差别所致,这些空文件会占据namenode的内存,也会影响map的数目。解决方案1: 在hadoop本身OutputFormat的接口中org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat倒可以在hadoop层面解决,

2012-01-16 13:55:01 5226

原创 Oracle本地分区索引的使用小结

为了提高数据访问的效率,常常建立索引,但是每次重建索引在数据量很大的时候会明显变慢,影响了处理效率,因此对于大量的数据,常常使用分区和分区索引相结合的办法,这样历史分区索引不用重建,只用对新分区进行索引进行处理就行了,中间测试oracle本地分区索引的过程记录如下,供参考1.建立分区表create tabletmp_partition_list (  report_datevarcha

2012-01-08 14:10:03 1282

原创 数据质量和数据认知

数据质量 数据认知

2011-02-22 22:00:00 587

原创 statViz结合GraphViz进行日志用户路径分析

常规的日志分析工具侧重于统计功能,如流量,IP等主题的统计,statViz主要目的用来进行点击流或者路径分析,非常小巧。其实statViz本身不能进行路径的展示,其主要是生成路径图的数据文件(.dot类型),然后把此文件用通用的图形展示工具GraphViz进行展示出来。 初接触statViz的时候非常激动,激动于它的想法,把路径形象的展示出来,对日志可视化展示有了更直观的了解。statViz用到了php脚本进行路径图文件的生成,以上的内容可以帮助你完整的部署这个日志展示工具。我假设你连php也不知道是什么

2010-06-06 17:16:00 1671 1

原创 周末部门的龙王山之旅

计划将近一月的部门的outing终于在本周六完成,目的地是安吉的龙王山漂流,享受纯原始的自然风光,我为了应对第二天的漂流,晚上还特地到超市买了双凉鞋。 早上8点准时坐大巴出发,经过了200公里将近2个小时的行进终于到达目的地。目前部门outing一个是享受自然风光,放松工作中紧张的生活,另外一个主要目的是进行团队的建设,因为最近来了好多新人,团队的规模越来越大,需要通过一定形式的活动更

2010-05-30 17:17:00 1103

原创 同事离职

     同事离职了。工作第一年,第一次感受到职场带来的压力,第一次感受到同事有的就这么匆匆擦肩而过,就突然以后就不见了。     求学这么多年,体会最多的就是同学的分分离离,感受那种分离带来的牵挂。在工作中,却带来的一些凄凉的感觉,难道大家都是匆匆过客,确实是真的过客,我们的目标永远在自己价值最大化的方向上前进,而少了那种战斗的友谊,战斗的情感的支撑,更因为我们有了再次选择的能力。

2010-05-27 23:20:00 488

原创 学会快乐学会感恩

       学会快乐,学会感恩,真的这么难,一个对自己要求比较严格的人,一个很自我的人,甚至一个自私的人,对别人的忍受度不是因为自己想心胸广阔就变得快乐。      都认为自己很完美,都认为自己表现出来的是积极的一面,都认为自己处于镁光灯和别人的关怀下,其实自己却是走入了另外一个无法理解的境地。      我很喜欢蝴蝶效应这部电影,里面所要表达的概念也是影响深刻,一个小小的活动带来的将是

2010-05-27 23:07:00 485

原创 路径模式挖掘之最大前驱路径(MFP或者MFR)

一. 问题描述:         在网络环境下,用户对链接的访问可能出现前进或者后退的情况,不会一层不变按照固定好的站点结构走下去, 具体的说在一个用户访问的session中,用户有目的的完成一件任务需要经过1,2,3,4步,但是在实际过程中可能 出现过重复比如进行1,2,3,2,3,4的操作来进行,目的就是还原用户的真实的路径信息,为以后模式的发现提供 更加清洁的数据 二

2010-05-16 18:47:00 1686

原创 使用Hadoop进行分布式开发

    以前曾尝试自己建立单击版本的Hadoop单节点集群学习一下Hadoop,一直没有时间潜心研究,为了尝鲜,急迫能够找到测试Hadoop的并行计算模式的环境,更深入的了解MAPREDUCE模式,最近偶然上网,发现了这个帖子,还没有尝试,很有帮助,接下来可以尝试一下了。不知道能不能直接集成HIVE。     帖子参见IBM开发中心:http://www.ibm.com/developerwor

2010-05-15 00:46:00 599

转载 [转]shell EOF作用

(内容) EOF 可以把EOF替换成其他东西 意思是把内容当作标准输入传给程序这里再简要回顾一下符。在该分界符以后的内容都被当作输入,直到shell又看到该分界符(位于单独的一行)。这个 分界符可以是你所定义的任何字符串。常用文件重定向:command > filename  把标准输出重定向到一个新文件中 command >> filename  把标准输出重定向到一个文件中(追加)

2010-05-15 00:26:00 7058

转载 参数处理-Shell传入参数的处理

原帖来自于http://www.cnblogs.com/FrankTan/archive/2010/03/01/1634516.html另外一个参考文章:http://www.ibm.com/developerworks/cn/linux/l-bash-parameters.html,其中关于getOpts的解释比较基础。       使用shell处理的时候对参数的处理是个基本模块,所以

2010-05-14 22:26:00 3401

原创 八卦:门神

       网络的力量的无穷的,我深刻理解了为什么说劳动人民的智慧是无穷,一旦一个群体达到了规模,其产生的社会影响力将会是巨大的。当前我们的互联网就是一个典型的例子。       目前互联网的各种热门事件都会冠以门结尾,比如跳跳门,网吧门,以及最近的护士门,娱乐了网民,让大家无聊的时候增加了一些茶余饭后的谈资,也学针对门的主人公,有的难逃故意炒作之嫌,有的却是被无情的网络曝光的体无完肤,让人

2009-11-09 22:21:00 560

原创 数据仓库建设

       数据仓库的建设需要经历的事情,需要经过一个混乱期,为了简单的需求来无休止的进行原有模型的扩充,直到模型已经不成为模型,是所有的需求堆积的结果。经过一个混乱期之后,会设想进行一次数据的整体规划,需求的整体规划,此时按照模型的方法来进行数据的二次重构,并考虑使用行业通用的解决方案来进行数据仓库的建设,比如说进行新的etl流程的改写,从最原始的存储过程来过渡到业界使用的跨平台的数据抽取,转

2009-11-09 21:52:00 574

原创 随记:组内聚会

       今天是2009年11月9日,我们仓库开发组的兄弟姐妹们进行了一次聚会,给大家放松的机会,更加增加大家的感情。快到年底了,仓库开发小组确实是辛苦忙了大半年,实现了数据仓库从旧居移到新居,乔迁新居,是件高兴的事情,但是整理旧居的物品确实是让人头疼的,怎么样能够把积攒了这么长时间的旧东西归归类,该扔掉的扔掉,该保存的保存,确实得花一部分心思。      从心底里是比较佩服和欣赏模型重构

2009-11-09 21:32:00 375

原创 与R相关的开源软件和接口

与Java的接口1. 直接通过shell来调用,2. 通过Rsever和JRclient来调用,JRclient相当于一个客户端,http://www.rosuda.org/Rserve/ 3. rJava是提供给R来调用Java的包,其通过JNI来实现,这个应该以后会重构,因为JNI现在没有这么大行其道与Python的接口Rpy开源软件包,目前已经有Rpy2.0是对Rpy前期

2009-08-14 16:36:00 1020

原创 R的图像用户界面之Rattle

       Rattle 是使用R和GNOME编写的为数据挖掘服务的图像化界面,其中R是统计分析的开源软件。       使用Rattle的步骤通过界面上的Tab来进行:首先是装载数据,选择分析或者挖掘的变量,也可能对数据进行采样,然后就是分析数据,建立模型和模型验证。对每一个Tab,都会有相应的配置选项存在,然后点击执行按钮来执行此项任务,注意只有点击了执行按钮,这个任务才会被执行。     

2009-08-13 17:27:00 3760

转载 VIM查找替换归纳总结(转)

VIM中常用的替换模式总结。1,简单替换表达式替换命令可以在全文中用一个单词替换另一个单词::%s/four/4/g "%" 范围前缀表示在所有行中执行替换。最后的 "g" 标记表示替换行中的所有匹配点。如果仅仅对当前行进行操作,那么只要去掉%即可    如果你有一个象 "thirtyfour" 这样的单词,上面的命令会出错。这种情况下,这个单词会被替换成"thirty4"

2009-08-12 10:13:00 488

转载 Ubuntu下flash乱码解决

输入:cd /etc/fonts/conf.d/为了安全,备份一下:sudo cp 49-sansserif.conf 49-sansserif.conf_backup输入如下指令:sudo gedit ./49-sansserif.conf此时文件显示内容。将其中的第1、2、4个后面的sans-serif或者serif用你自己系统中支持中文的字

2009-03-08 19:16:00 555

原创 Eclipase常用快捷键

        在编程过程中使用快捷键可以可以进行代码快速的操作,而省去了鼠标频繁点击带来的苦恼,下面就列出了在Eclipse开发中频繁使用的快键键操作。        Alt+Shift+X:是最常用的快键键,此时会弹出一个菜单供你选择,用熟练之后可以进行如下的操作                               Alt+Shift+X,Q:Ant操作;         

2008-10-27 17:11:00 997

原创 要求:给定一个文件,文件每一行为一个浮点数,找出最大的1万个

要求:给定一个文件包含10亿个数,文件每一行为一个浮点数,找出最大的1万个算法描述:基本思路:每个浮点数8B,10亿个会溢出,采取分治法先先处理一部分数据,然后对处理后的数据进行综合以下采用是算法流程,使用Pasacle和JAVA的语法,第一个函数是主函数。dataCompress()BEGIN     List list = new List();    

2008-10-05 22:21:00 435

原创 八皇后问题--递归

问题描述:         在一个8×8国际象棋盘上,有8个皇后,每个皇后占一格;要求皇后间不会出现相互“攻击”的现象,即不能有两个皇后处在同一行、同一列或同一对角线上。问共有多少种不同的方法。 程序:    public void testEightPrince() {        // grids代表8*8的棋盘,如果值为TRUE,表示可以此位置为空,还可以放置一

2008-09-19 10:52:00 943

原创 懂得递归和剪枝,遥远就不远了,一个编程题的感受

        用1、2、2、3、4、5这六个数字,用java写一个main函数,打印出所有不同的排列,如:512234、412345等,要求: "4 "不能在第三位, "3 "与 "5 "不能相连。分析与解答: 速度最快,最简单的算法如下,通过那两个约束条件来极大减少搜索空间,只需一个函数就可以满足要求; 只需调用下面这函数就行,设置为 a={1,2,2,3,4,5}; level

2008-09-17 16:18:00 1239

原创 Java 一个简单Hashtable的实现

如图,是Hashtable采用的链表式的结构,即键值冲突的时候直接加到此键值对应的链表后面。下面提供一个简单的Java类的实现。public class HashTableDef {    private int capacity = 1000;// 非重复的键值个数,即键值从0-999,可以在初始话的时候指定     private Map[] keys;// 存放键值所

2008-09-17 14:14:00 3258

原创 百度搜索

百步穿杨眼欲穿度尽思人难尽思搜星觅河千里觅索月追云欲伊追

2008-09-14 20:12:00 456

原创 k-means聚类算法

         k-means算法把N个点聚集成K个组合的算法,要求任意输入K各对象作为初始中心点,这个人的最大疑问就是怎么能够通过这随便选择的K个点来达到满足要求的K个组合呢。        K-means算法其实每次迭代都会改变中心,也就是初始的K各对象作为中心点在每一次迭代后都会更新。首先以这K各顶点作为初始K个聚类的中心顶点,第一轮计算所有的其他顶点与这个K个顶点的相似度,取相似度最

2008-09-13 16:01:00 1283

转载 Lucene入门一(转)

说明一下,这一篇文章的用到的lucene,是用2.0版本的,主要在查询的时候2.0版本的lucene与以前的版本有了一些区别. 其实这一些代码都是早几个月写的,自己很懒,所以到今天才写到自己的博客上,高深的文章自己写不了,只能记录下一些简单的记录与点滴,其中的代码算是自娱自乐的,希望高手不要把重构之类的砸下来... 1、在windows系统下的的C盘,建一个名叫s的文件夹,在该文件夹里面随便建三个

2008-09-03 22:54:00 455

原创 sqlserver操作总结

1.数据库模型分为: 关系数据库,层次数据库和网状数据库2.关系数据库: 关系数据库表示实体和实体之间的联系3.数据库系统(DBS)database system:有数据库管理系统和管理数据库系统的人和软件组成。4.数据库管理系统(DBMS):有数据库和管理数据库的软件组成。5.数据库(database): Sqlserver2005 中的数据库由一个表集合组成.这些表包含数据以及为支持对数据执行

2008-08-26 20:25:00 2275

原创 SQLServer BCP导入命令详解

         bcp是SQL Server中负责导入导出数据的一个命令行工具,它是基于DB-Library的,并且能以并行的方式高效地导入导出大批量的数据。bcp可以将数据库的表或视图直接导出,也能通过SELECT FROM语句对表或视图进行过滤后导出。在导入导出数据时,可以使用默认值或是使用一个格式文件将文件中的数据导入到数据库或将数据库中的数据导出到文件中。下面将详细讨论如何利用bcp导入

2008-08-26 20:23:00 7515

原创 数据库的ID字段自动加1

一、SQL中:sql="CREATE TABLE phone ("&_"ID [int] IDENTITY (1, 1),"&_"username char(20) NOT NULL,"&_"pass char(20) NOT NULL,"&_"shi char(20) NULL)"二、Access中:create table mytable( id counter CONSTRAINT id

2008-05-11 09:07:00 2036

原创 javascript类的访问机制

本文说明了如何在JavaScript中实现基于class的面向对象语言中的私有变量和方法• 私有变量 使用var 关键字定义在对象构造函数的内部,只能被私有方法和特权方法访问。私有函数 使用内嵌(inline)的方式定义在对象构造函数的内部(也可以通过这样的方式定义:var    functionName=function(){...}),只能被特权方法访问。特权方法(Privileged m

2008-05-05 18:13:00 426

原创 学数据挖掘就要懂数据

     机器的学习的主要问题就是分类和回归问题,分类也可以看成是离散值的回归问题。训练器是基于训练集训练出一个回归函数,通过此回归函数用到测试集的分类中。这就需要对样本的分布信息有准确的把握,如果假设的样本分布与真实的数据分布有很大的差别的话,其最后产生的回归性能和分类性能都会受到重大影响。    传统的样本分布估计采用的是参数估计的思想,即假设样本服从某个分布比如说正态分布,然后对正态分布的两

2007-11-14 22:28:00 1183

原创 马尔克夫链

      随机过程是随机变量在时间(或其他方面)轴上的扩展。针对固定的时间,一个随机过程就成了一个随机变量。可以简单的理解为在某个时刻,某个状态会按照随机变量遵循的统计概率性质出现,然后所有的时刻集中起来就是一个随机过程。以掷色子为例,你当前掷得色子的正反面的概率为0.5,服从一个0-1的二项分布,但是你把所有掷得色子按照时间顺序排列起来就是一个随机过程。     马尔克夫链是一个随机过程,

2007-10-30 22:22:00 1908

转载 Cube Designer 的使用(转)

 在这里我们简单介绍一下Pentaho cube designer,帮助创建Mondrian cube schema,并将 cube schema 也发布到 Pentaho solution engine。使用的条件需要运行在JDK1.5以上,Cube 向导支持任何 JDBC 兼容的数据库。可以把必需的 JDBC driver 复制进 “CubeDesigner/lib/jdbc” 文件夹。以下是

2007-09-19 18:15:00 2151

原创 JSP编程之编写Servlet类注意事项

     Servlet负责接收用户请求并把处理后的请求分发。每个Servlet类都必须继承HttpServlet类。在Servlet接口中定义了5个方法,其中有3个方法代表了Servlet的声明周期: init方法,负责初始化Servlet对象 service方法,负责相应客户的请求 destory方法,当Servlet对象退出声明周期时,负责释放占有的资源    Servlet容器负责创建

2007-09-18 18:16:00 995

原创 JSP中文乱码的解决方案

  1、我们要保证JSP向客户端输出时是采用中文编码方式输出的,即无论如何我们首先在我们的JSP源代编中加入以下一行:  %@page contentType=”text/html;charset=gb2312″%>   2、为了让JSP能正确获得传入的参数,我们在JSP源文件头加入下面一句:    3、为了让JSP编译器能正确地解码我们的含有中文字符的JSP文件,我们需要在JSP

2007-09-17 21:19:00 1032

原创 JSP中JavaBean的生命周期

JSP中JavaBean是通过标签来声明实现的,基本语法如下:。JavaBean的生命通过scope属性来描述的,也就是JavaBean的实例id在JSP程序中存在的范围。下面看看具体的scope四个值的含义:page-JavaBean对象保存在pageContext对象中,有page范围JavaBean实例只能在当前创建这个JavaBean的JSP文件中进行操作, 这个实例只有在请求返回给客

2007-09-08 10:46:00 4863

vim的扩展文件打包

为vim的资源文件,直接上传到linux上,然后进行tar -xzf vim.tar.gz之后,即可安装完成,安装完成之后可以使用进行vim作为开发环境,目前的支持的vim版本为vim 7

2012-05-14

hadoop-snappy的jar包

hadoop中使用snappy算法,需要手工编译hadoop-snappy的包,但是这个包没有提供下载,需要花很大力气进行编译,现在把这个包提供出来

2012-03-15

hadoop-snappy的java包

hadoop中使用snappy算法,需要手工编译hadoop-snappy的包,但是这个包没有提供下载,需要花很大力气进行编译,现在把这个包提供出来

2012-03-15

文本分类特征提取的ppt

本文以一个简单的案例循序渐进的讲解了特征提取的过程,其中,介绍了几种特征提取的方法

2010-01-16

SQL语言艺术(面向高级开发工程师)

第1章,制定计划:为性能而设计 讨论如何设计高性能数据库 第2章,发动战争:高效访问数据库 解释如何进行程序设计才能高效访问数据库 第3章,战术部署:建立索引 揭示为何建立索引,如何建立索引 第4章,机动灵活:思考SQL语句 解释如何设计SQL语句 第5章,了如指掌:理解物理实现 揭示物理实现如何影响性能 第6章,锦囊妙计:认识经典SQL模式 包括经典的SQL模式、以及如何处理 第7章,变换战术:处理层次结构 说明如何处理层次数据 第8章,孰优孰劣:认识困难,处理困难 指出如何认识和处理比较棘手的情况 第9章,多条战线:处理并发 讲解如何处理并发 第10章,集中兵力:应付大数据量 讲解如何应付大数据量 第11章,精于计谋:挽救响应时间 分享一些技巧,以挽救设计糟糕的数据库的性能 第12章,明察秋毫:监控性能 收尾,解释如何定义和监控性能

2009-09-13

SQL简单编写编写规范

SQL简单编写编写规范。 从网上搜索整理出来的

2009-08-21

crisp-dm挖掘过程的中文版

crisp-dm挖掘过程的中文版 想进入此行业的人,应该熟悉一下

2009-08-14

MapReduce: Simplified Data Processing on Large Clusters中文版

来自于GOOGLE的mapreduce的开山之作,此文是原英文的中文版本,希望能互相参照,加深理解

2009-07-29

R语言GUI-Rcmdr英文介绍

是英文原版文档,简单介绍RCMDR的使用,具体参见网页http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

2009-07-28

power design 教程

power design 教程是数据库和数据仓库的主要工具

2009-04-09

PL/SQL详细教程

PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程PL/SQL教程

2009-04-09

EM算法中文介绍,希望你能得到信息

EM算法,中文的介绍,那就不要这样麻烦的事情

2008-11-07

Java开源,用于画图 pdf

Q. Where do I go to get questions answered? A. Check either the JUNG Support forum https://sourceforge.net/forum/forum.php?forum_id=252062 or the JUNG-support mailing list ============== THE BASICS ============== Q. What is this "TestCase" that I see references to? A. It's part of JUnit, the tool we use for unit testing out code. See http://junit.org Q. How do I add two parallel edges to a SparseGraph? A. Make sure the graph allows parallel edges (this means you can't use DirectedSparseGraph or UndirectedSparseGraph, unless you remove the edge constraint Graph.NO_PARALLEL_EDGE from them) and make sure that the vertex implementation accepts them (don't use the Simple*SparseVertex implementations). Graph g = new SparseGraph(); Vertex v1 = g.addVertex( new SparseVertex()); Vertex v2 = g.addVertex( new SparseVertex()); g.addEdge( new UndirectedSparseEdge( v1, v2 )); g.addEdge( new UndirectedSparseEdge( v1, v2 ));

2008-10-05

NaiveBayes分类器介绍

本文介绍了NaiveBayes分类器的原理

2007-11-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除