自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zhaoguoxian12345的专栏

学习之道在于深究

  • 博客(42)
  • 资源 (6)
  • 收藏
  • 关注

原创 hive的union问题

hive不支持顶层union,只能将union封装在子查询中;且必须为union的查询输出定义别名

2014-01-16 18:20:27 1170

原创 hive中实现差集等操作

一般我们在使用hive进行处理两个数据集的使用经常会遇到处理两个数据集的求差集的问题经过测试提供几个解决方案:test1a       1b       2c       1test_2a       22c       551) 这里我们就要介绍一个hive的 关键字(left semi join)他解决的问题是:IN/EXISTS例子1:

2014-01-10 20:39:09 13344

转载 linux find 命令详解

一 :前阵子,我们审查了15件实事 find命令的例子(第一部分)。查找命令可以做很多比只是在寻找基于名称的文件 (第2部分)在这篇文章中,让我们来讨论15高级find命令的例子, 包括-根据它访问,修改或改变的时间查找文件,查找文件相比之下,执行操作找到的文件等, 拉梅什纳塔拉詹:这是我的照片中的可爱的小女儿。她很高兴地发现在加州长滩水族馆海狮。基于访问/修改/更改时间查找文

2013-09-29 10:43:52 1164

原创 maven2

一: maven2不能自动下载jta-1.0.1B.jarmaven2不能自动下载jta-1.0.1B.jar,我们就手工安装:异常现象:Downloading: ->    http://repo1.maven.org/maven2/javax/transaction ->      /jta/1.0.1B/jta-1.0.1B.jar[WARNING] Unable

2013-05-23 19:18:11 686

原创 mysqldump使用简介

1 导出数据库的建表语句但是不包含数据mysqldump --no-data -u username -p* database_name > filename.sql2 添加 mysql用户权限:mysql>grant all on *.* to yushan@"%" identified by "123" ; mysql>flush privileges; (刷新系统权限

2013-05-23 14:31:11 783

原创 vim 替换命令

vim 替换操作大全vi/vim 中可以使用 :s 命令来替换字符串。以前只会使用一种格式来全文替换,今天发现该命令有很多种写法(vi 真是强大啊,还有很多需要学习),记录几种在此,方便以后查询。:s/vivian/sky/ 替换当前行第一个 vivian 为 sky:s/vivian/sky/g 替换当前行所有 vivian 为 sky:n,$s/vivian

2013-05-19 18:29:34 1026

原创 Bloom Filter 多哈希函数映射的快速查找算法

Bloom filter是由 Howard Bloom在 1970 年提出的一种多哈希函数映射的快速查找算法,该算法能够在非常快速的判定某个元素是否在一个集合之外。这种检测只会对在集合内的数据错判,而不会对不是集合内的数据进行错判,这样每个检测请求返回有“在集合内(可能错误)”和“不在集合内(绝对不在集合内)”两种情况。目前Bloom filter在分布式系统中有着广泛的使用,比如说GFS

2013-02-18 10:00:46 1231

转载 c/c++ 的 整形编译

I experienced some odd behavior while using C++ type traits and have narrowed my problem down to this quirky little problem for which I will give a ton of explanation since I do not want to leave anyt

2012-12-06 19:20:22 656

原创 hadoop调优记录--001

因为集群资源紧张,导致集群在使用的时候原来粗放示的任务已经极为耗集群的资源,于是进行调整,把原来有mapreduce的jar任务和hive任务进行组合的任务进行修正,全部改成由jar包任务的任务模式,但是在调整的过程中发现 1 reduce会卡在一个阶段不能向下运行,于是调整两个方式,1) 原来变量累增的记录全部改为有longwritable的类型2) 增加combiner逻辑

2012-07-24 16:00:33 581

原创 Storm 简单例子

package com.sina.dip.storm.test;import java.util.Map;import backtype.storm.task.OutputCollector;import backtype.storm.task.TopologyContext;import backtype.storm.testing.TestWordSpout;

2012-07-10 15:34:08 1335

原创 Storm安装Leiningen 指南

1  下载lein脚本(在github上)chmod 755 lein  mv lein /usr/bin/2  export HTTP_CLIENT="wget --no-check-certificate -O" 为了从github能够下载到文件3  lein self-install4  Leiningen is a tool for working with Clojure p

2012-07-10 15:33:29 1488 1

原创 storm集群安装及zk集群安装

1 zk集群安装:1)下载zk(zookeeper-3.3.3.tar.gz)        2)配置:tickTime=2000   dataDir=/tmp/zookeeperclientPort=2181initLimit=10syncLimit=5server.1=【host1】:2555:3555server.2=【host2】:2556:3556

2012-07-09 15:02:26 2137

转载 shell脚本中的各种参数

-e filename 如果 filename存在,则为真-d filename 如果 filename为目录,则为真 -f filename 如果 filename为常规文件,则为真-L filename 如果 filename为符号链接,则为真-r filename 如果 filename可读,则为真 -w filename 如果 filename可写,则为真 -x filenam

2012-04-24 20:26:31 1171

转载 vim 配置折叠

vim折叠设置2009-09-07 11:491. 折叠方式 可用选项 'foldmethod' 来设定折叠方式:set fdm=*****。有 6 种方法来选定折叠:          manual           手工定义折叠          indent             更多的缩进表示更高级别的折叠          expr

2012-04-23 22:16:23 1408

原创 hadoop端口号列表

Hadoop缺省端口列表50030 mapred.job.tracker.http.address 描述:JobTracker administrative web GUI JOBTRACKER的HTTP服务器和端口50070 dfs.http.address 描述:NameNode administrative web GUI NAMENODE的HTTP服务器和端口

2012-04-23 18:38:11 4151

原创 syslog-ng安装测试记录

1 下载syslog-ng(当前使用的是3.3.4) 当然也要下载eventlog    (官方的是在一起提供下载的)2 安装:(使用最简安装没有添加对json,sql等得支持)1)因为syslog-ng安装需要eventlog的支持需要先安装eventlog的支持a eventlog的的作用( 这里把eventlog的英文注释拿过来了  偷懒了)The EventLog li

2012-04-10 10:56:26 2323

原创 关于syslog的测试使用报告

#@time  2012_04_05#@author guoxian1#@usage 配置linux syslog日志服务器 以下是从 syslogd的manual 和网上的一些信息完成;说明:1 关于syslogd的一些配置以及使用方法 已经进行测试调研2 有时间可能进行syslog-ng(syslog的增强版)的调研一、配置文件linux的默认的日志

2012-04-05 18:51:48 3311

转载 字符串匹配那些事

本系列文章主要介绍几种常用的字符串比较算法,包括但不限于蛮力匹配算法,KMP算法,BM算法,Horspool算法,Sunday算法,fastsearch算法,KR算法等等。本文主要介绍KMP算法和BM算法,它们分别是前缀匹配和后缀匹配的经典算法。所谓前缀匹配是指:模式串和母串的比较从左到右,模式串的移动也是从左到右;所谓后缀匹配是指:模式串和母串的的比较从右到左,模式串的移动从左到右。看得出来

2012-02-21 13:18:25 928

转载 facebook realtime hadoop

Realtime Apache Hadoop at Facebook PPT读后感和摘录. 标签:HBaseFacebookFacebook Realtime Hadoop:英文原版PPT微盘:    SIGMODRealtimeHadoopPresentation.pdf​为什么选择Hadoop/HBase:Problem:    MySQL:

2012-02-19 19:30:59 1238

转载 facebook实时hadoop

别人的东西记录一下 留着以后查:  Facebook 在今年六月 SIGMOD 2011 上发表了一篇名为“Apache Hadoop Goes Realtime at Facebook”的会议论文 (pdf),介绍了 Facebook 为了打造一个实时的 HBase 系统使用到的独门秘技。由于该论文提到的应用场景与小弟负责的系统要解决的问题域有相似之处,因而抽时间仔细阅读了这篇论

2012-02-19 19:29:05 755

原创 hadoop上传脚本出现问题

最近经常发现hadoop的上传脚本出现问题:  解决方法:    当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数据时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。log类似如下:All datanodes  *** are bad. Aborting...

2012-02-19 19:18:12 695

原创 dijkstra算法

今天晚上睡不着觉; 看看大学学习的算法 ;dijkstra算法   瞎话少说;算法思想   按路径长度递增次序产生最短路径算法:   把V分成两组:   (1)S:已求出最短路径的顶点的集合   (2)V-S=T:尚未确定最短路径的顶点集合   将T中顶点按最短路径递增的次序加入到S中,   保证:(1)从源点V0到S中各顶点的最短路径长

2012-02-18 00:09:59 735

转载 c++ 线程实现

LINUX c++线程池框架本文给出了一个通用的线程池框架,该框架将与线程执行相关的任务进行了高层次的抽象,使之与具体的执行任务无关。另外该线程池具有动态伸缩性,它能根据执行任务的轻重自动调整线程池中线程的数量。文章的最后,我们给出一个简单示例程序,通过该示例程序,我们会发现,通过该线程池框架执行多线程任务是多么的简单。为什么需要线程池目前的大多数网络服务器,包括Web服务器、Emai

2012-02-17 14:19:24 646 1

转载 spring 注解

Spring 2.5 中除了提供 @Component 注释外,还定义了几个拥有特殊语义的注释,它们分别是:@Repository、@Service 和 @Controller。在目前的 Spring 版本中,这 3 个注释和 @Component 是等效的,但是从注释类的命名上,很容易看出这 3 个注释分别和持久层、业务层和控制层(Web 层)相对应。虽然目前这 3 个注释和 @Componen

2012-02-16 18:30:48 410

转载 关于c++ const的理解

记录下 非常重要的c++ 学习记录2011_01_14   16:11  1 const 理解:1. const修饰普通变量和指针  const修饰变量,一般有两种写法:const TYPE value;TYPE const value;这两种写法在本质上是一样的。它的含义是:const修饰的类型为TYPE的变量value是不可变的。对于一个非指针的类型

2012-01-14 16:43:44 371

转载 gcc include

本文介绍在linux中头文件的搜索路径,也就是说你通过include指定的头文件,linux下的gcc编译器它是怎么找到它的呢。在此之前,先了解一个基本概念。    头文件是一种文本文件,使用文本编辑器将代码编写好之后,以扩展名.h保存就行了。头文件中一般放一些重复使用的代码,例如函数声明、变量声明、常数定义、宏的定义等等。当使用#include语句将头文件引用时,相当于将头文件中所有内容

2011-12-21 10:51:10 651

转载 hive 调优记录

数据倾斜总结在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,

2011-12-16 13:33:42 2978

转载 回溯算法理解

回溯算法也叫试探法,它是一种系统地搜索问题的解的方法。  回溯算法的基本思想是:从一条路往前走,能进则进,不能进则退回来,换一条路再试。八皇后问题就是回溯算法的典型,第一步按照顺序放一个皇后,然后第二步符合要求放第2个皇后,如果没有符合位置符合要求,那么就要改变第一个皇后的位置,重新放第2个皇后的位置,直到找到符合条件的位置就可以了回溯在迷宫搜索中使用很常见,就是这条路走不通,然后返回前一

2011-12-05 21:44:44 676

转载 JAVA基础之理解JNI原理

JAVA基础之理解JNI原理JNI是JAVA标准平台中的一个重要功能,它弥补了JAVA的与平台无关这一重大优点的不足,在JAVA实现跨平台的同时,也能与其它语言(如C、C++)的动态库进行交互,给其它语言发挥优势的机会。有了JAVA标准平台的支持,使JNI模式更加易于实现和使用。在此总结了下面这个知识图:实例:环境说明:ubuntu 10.4.2 LTS系统程序清单1:

2011-12-04 14:47:05 523

转载 pregel -分布式图计算模型

Abstract许多实际应用问题中都涉及到大型的图算法。比如网页链接关系和社会关系图等。这些图都有相同的特点:规模超大,常常达到数十亿的顶点和上万亿的边。这么大的规模,给需要在其上进行高效计算的应用提出了巨大的难题。在这篇论文中,我们将提出一种适合处理这类问题的计算模式。将程序用一系列的迭代来描述(Programs are expressed as a sequence of iteratio

2011-12-04 14:35:53 4471 1

转载 ip地址转换函数

Linux下这2个IP地址转换函数,可以在将IP地址在“点分十进制”和“整数”之间转换  而且,inet_pton和inet_ntop这2个函数能够处理ipv4和ipv6。算是比较新的函数了。  inet_pton函数原型如下[将“点分十进制” -> “整数”]  #include   #include   #include   int inet_pton(int af,

2011-10-31 19:03:57 3096

转载 关于c语言中void*的解释

void含义void的字面意思是“无类型”,void *则为“无类型指针”,void *可以指向任何类型的数据。void几乎只有“注释”和限制程序的作用,定义一个void变量没有意义,不妨试着定义:void a;这行语句编译时会出错,提示“illegal use of type 'void'”。不过,即使void a的编译不会出错,它也没有任何实际意义。void真正发挥的作用在

2011-10-31 18:56:38 885

转载 hadoop 集群优化1

1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要

2011-08-09 14:21:53 1791 1

转载 scribe安装笔记

前几天项目中用到的scribe日志系统。于是乎去网上看了一些资料。比较少,不过还是有一些的。又于是乎开始装。。。。结果装了5遍。还是没装上,怎么都编不过去。我快到崩溃的状态了。但是我还是比较死心眼的。。就是开始了第6回。T_T。 这次装的时候我把日志都打出来了。一步一步看。终于在

2011-07-11 09:51:50 735

原创 mysql学习记录 一

一、连接MYSQL。格式: mysql -h主机地址 -u用户名 -p用户密码1、连接到本机上的MYSQL。首先打开DOS窗口,然后进入目录mysql/bin,再键入命令mysql -u root -p,回车后提示你输密码.注意用户名前可以有空格也可以没有空格,但是密码前必须没有空格,否则让你重新输入密码.如果刚安装好MYSQL,超级用户root是没有密码的,故直接回车即可进入到MYSQL中了,M

2010-04-02 23:28:00 458

原创 中meta属性详解——转

[HTML] meta标签之详解- -                                          meta标签之详解      meta是html语言head区的一个辅助性标签。几乎所有的网页里,我们可以看到类似下面这段的html代码:<head><meta http-equiv="content-Type" content="text/html; c

2009-12-12 08:44:00 479

原创 jsp中文编码详解(转)

一、page 对象  page对象代表JSP本身,更准确地说它代表JSP被转译后的Servlet,它可以调用Servlet类所定义的方法。  二、config 对象  config 对象里存放着一些Servlet 初始的数据结构。  config 对象实现于javax.servlet.ServletConfig 接口,它共有下列四种方法:  public String getI

2009-12-12 08:43:00 987 1

原创 jsp隐含对象(转)

一、page 对象  page对象代表JSP本身,更准确地说它代表JSP被转译后的Servlet,它可以调用Servlet类所定义的方法。  二、config 对象  config 对象里存放着一些Servlet 初始的数据结构。  config 对象实现于javax.servlet.ServletConfig 接口,它共有下列四种方法:  public String getI

2009-12-09 20:19:00 436

原创 进入 oracle enterprise managerment 出现问题

    问题1: 进入时需要主机身份证明: 解决方案:管理工具——本地安全策略——用户权利指派——作为批处理作业等录(最后一项)——添加本机的账号与密码

2009-11-09 07:57:00 450

原创 java 关闭窗体的几种方法(转)

1.使用JFrame的enableEvents和processWindowEvent //Frame1.java import java.awt.*; import java.awt.event.*; import javax.swing.*; public class Frame1 extends JFrame { public Frame1() {

2009-06-25 11:51:00 1296

mysql学习资料

mysql的学习文档 很全的,基础性的东西;大家可以当做文档行的东西

2012-02-16

哈弗曼编码(c++实现)

实现了哈夫曼编码,上学期做的课程设计,希望对大家有一个好的知道,绝对原创

2009-05-16

HTML教程清华大学

清华大学的HTML教程,老师给的很好能在最短的时间里对HTML有很多的认识的,

2009-05-16

网页开发语言(C#)

C#开发指导你进行C#语言的入门与开发pdf版本,让你快速的对C#入门,并且能对语言开发能了解的更深的层次

2009-05-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除