7 飞鸟zjs

尚未进行身份认证

暂无相关简介

等级
TA的排名 2w+

个人博客

欢迎大家看一下我的新博客,www.hadoop1234.com

2015-12-18 11:15:48

Hive SQL的编译过程

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有

2015-10-15 16:41:47

flatmap详解

flatMapflatMap是一种常用的组合子,结合映射[mapping]和扁平化[flattening]。 flatMap需要一个处理嵌套列表的函数,然后将结果串连起来。scala> val nestedNumbers = List(List(1, 2), List(3, 4))nestedNumbers: List[List[Int]] = List(List(1, 2), Li

2015-10-08 13:04:24

VMWare虚拟机提示:锁定文件失败,打不开磁盘的解决办法

如果使用VMWare虚拟机的时候突然系统崩溃蓝屏,有一定几率会导致无法启动,会提示:“锁定文件失败,打不开磁盘...或它所依赖的某个快照磁盘,开启模块DiskEarly的操作失败,未能启动虚拟机”,这是因为虚拟机在运行的时候,会锁定文件,防止被修改,而如果突然系统崩溃了,虚拟机就来不急把已经锁定的文件解锁,所以你在启动的时候,就会提示无法锁定文件,如下图:  解决方法如下:

2015-09-15 11:48:13

flume入门教程

所用软件说明:一、什么是Apache Flume官网:Flume is a distributed, reliable, and availableservicefor efficientlycollecting, aggregating, and moving large amounts of log data. It has a simple and flexi

2015-09-15 01:07:08

eclipse在centos下面崩溃

后面我在网上找到的解决办法是编辑eclipse.ini添加一个启动参数-Dorg.eclipse.swt.internal.gtk.cairoGraphics=false这个相当与禁用了carioGraphics

2015-09-14 21:09:58

windows连接linux下面的软件乱码

乱码问题:Windows中的编码格式和Linux中的编码格式是不同的。在Linux中编写的代码如果包含中文,到Windows会变成乱码。Linux中支持中文字符。 yum install font-config-devel-yum install fonts-chinese-

2015-09-14 20:50:06

xmanager 如何连接使用gui软件

但我的CentOS是无桌面环境的服务器系统,那怎么配置运行呢?步骤如下。首先,打开/etc/ssh/sshd_config,修改:X11Forwarding yesX11UseLocalhost yes然后重启sshd:service sshd restart重新登入ssh,若出现“WARNING! The remote SSH serv

2015-09-14 20:42:45

MapReduce 二级排序

在这篇文章里,我们将继续实现《利用MapReduce玩转数据密集型文本处理》这本书中提到的算法。本系列的其它文章如下:利用MapReduce实现数据密集型文本处理利用MapReduce实现数据密集型文本处理 - 本地汇聚第二部分利用MapReduce实现共生矩阵(译者注: 共生矩阵,Co-Occurrence Matrix,见Wikipedia或百度)MapReduce算法 -

2015-09-08 18:28:27

Hadoop安装配置

1、集群部署介绍 1.1 Hadoop简介   Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。  对于Had

2015-09-08 15:20:30

redis常用命令

./redis-cli -h node7 -p 6379   连接远程的redis数据库 ./redis-server ../redis.conf      启动redis 的server端redis帮助手册:http://redisdoc.com/SETNX用法:SETNX key value将 key 的值设为 value ,当且仅当 k

2015-09-07 19:29:05

scala链接redis

package testscalaredisimport redis.clients.jedis._object TestScalaRedis { def main(args: Array[String]) { val jr:Jedis = null; try{ val jr = new Jedis("192.168.110.127", 6379);//

2015-09-07 19:07:11

kafka快速入门

Apache Kafka是一个分布式消息发布订阅系统。它最初由LinkedIn公司基于独特的设计实现为一个分布式的提交日志系统( a distributed commit log),,之后成为Apache项目的一部分。Kafka系统快速、可扩展并且可持久化。它的分区特性,可复制和可容错都是其不错的特性。Apache Kafka与传统消息系统相比,有以下不同:它被设计为一个分

2015-09-03 16:35:23

Hadoop中合并小文件

问题?每一个比block size小的文件都会消耗掉一个完整block的分配,但是磁盘空间的实际占用是基于文件的大小,而不要误认为小文件会消耗掉一整个块的存储空间。每个块都会消耗NameNode节点一定数量的内存。NameNode能够寻址固定数量的块个数,这需要视NameNode节点的内存大小而定。在Hadoop集群上的这些小文件会不断触及NameNode节点的内存

2015-09-01 16:15:03

如何设置hive与hbase同步

hive和hbase同步https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration1、把hive-hbase-handler-1.2.1.jar  cp到hbase/lib 下同时把hbase中的所有的jar,cp到hive/lib2、在hive的配置文件增加属性:hive.site.xmlhb

2015-08-30 14:03:28

广告有效性原型

评价指标:点击率,转换率传统广告策略:

2015-08-29 18:54:05

计算广告学介绍

什么是广告?广告是由确定的出资人通过各种媒介进行有关产品(产品,服务,和观点)的,通常是有偿的,有组织的,综合的,劝服性的非人员的信息传播活动广告的主体?出资人即广告主,媒介(medium),受众广告的本质功能?是借助某种有广泛受众的媒体力量,完成较低成本的用户接触(reach)广告的两种(品牌广告,效果广告)品牌广告:通过独特良好的品牌和产品形象,目的在于提升较长时间

2015-08-29 17:24:35

linux常用命令

系统信息arch 显示机器的处理器架构(1)uname -m 显示机器的处理器架构(2)uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda 罗列一个磁盘的架构特性hdparm -tT /dev/sda 在磁盘上执行测试性读取操作cat /proc/cpuinfo 显示C

2015-08-29 16:32:48

github提交可能遇到的问题

Git Push(向远程Github提交本地代码)$ git push git@github.com:hepusheng/linux-2.6.11-study-note.git master // 把本地仓库提交到远程仓库的master分支中$ git remote add origin git@github.com:hepusheng/linux-2.6.11-study-not

2015-08-29 16:08:24

Eclipse配置GitHub代码库(以Windows7为例)

1.安装Git    首先安装git。这里只讲Windows环境下安装Git方法。    从Git下载git的Windows安装文件,一路Next到选择安装组件这一步:    选上Git Bash Here这一项,这样就有命令行可以用了。因为后面基本上不会用到Git自己的GUI。    文章出处:http://blog.csdn.net/twlkyao/articl

2015-08-29 16:02:29

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!