dy_252-CSDN博客

转载 hadoop中使用lzo压缩

步骤：1、编译hadoop-lzo-xx.jarhadoop lzo下载位置： https://github.com/twitter/hadoop-lzo2、拷贝hadoop-lzo-xx.jar至hadoop/lib目录下，同时拷贝相应的本地库lib/native/Linux-amd64-64/* 至hadoop/lib/native/Linux-amd64-64下3、hado

2012-08-31 17:23:07 1110

原创 hadoop新增datanode处理

1、新增hadoop用户，与其它datanode采用相同主目录路径2、 datanode之间ssh无密码通信设置3、 hadoop部署（与其它datanode采用相同路径）4、修改/etc/hosts，增加集群其它节点信息5、java安装6、修改/etc/profile，增加hadoop、java相关变量信息7、修改/etc/security/limits.conf ，

2012-08-31 15:29:33 761

今天突然发现mysql主从同步从库的数据没有更新，但通过“show slave status”命令发现slave状态正常。通过查看slave日志，发现“[ERROR] Error reading packet from server: Got packet bigger than 'max_allowed_packet' bytes ( server_errno=2020）” ，修改my.cnf，

2012-08-31 11:33:37 588

转载 linux下路由配置文件

分为系统路由，网卡路由(redhat8以上),静态路由系统路由在/etc/sysconfig/network中可以设置网卡路由在/etc/sysconfig/nework-script/ifcfg-ethX中可以设置静态路由在/etc/sysconfig/networking/device/中可以设置ethX.route中设置，静态路由顾名思义，就是固定的，设置好了一般不会轻易变化的路

2012-06-19 10:46:12 4399

原创 ulipad找不到python解释器

解决：编辑->参数->python->设置python解释器->"设置路径"

2012-05-17 10:25:53 775

原创 hadoop0.20.2分布式缓存程序示例

代码1：adlogetl.javaimport java.io.File;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMap;import java.uti

2012-05-04 18:21:58 602

原创 Java 时间转换+正则匹配+读文件

import java.io.BufferedReader;import java.io.FileReader;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.regex.Pattern;import java.u

2012-05-04 18:13:25 631

原创 hive问题及解决1

1、hive使用mysql存储元数据，报错：hive> show tables;FAILED: Error in metadata: javax.jdo.JDODataStoreException: Error(s) were found while auto-creating/validating the datastore for classes. The errors are print

2012-05-03 11:13:06 1142

转载 hive使用mysql存储元数据

Hive 将元数据存储在 RDBMS 中，有三种模式可以连接到数据库： 1）ingle User Mode：此模式连接到一个 In-memory 的数据库 Derby，一般用于 Unit Test。 2）Multi User Mode：通过网络连接到一个数据库中，是最经常使用到的模式。 3）Remote Server Mode：用于非 Java 客户端访问元数据库，在服务器端启动一个

2012-05-03 10:51:50 870

原创 hadoop问题解决

1、datanode：java.io.IOException: Too many open filesToo many open files 比較明顯，就是已經到達每個 Process 可以開啟的檔案個數上限。請修改 /etc/security/limits.conf 加入代碼:* soft nofile 743964*

2012-04-24 10:17:27 427

原创 iptables端口映射设置

503 iptables -P FORWARD DROP 504 iptables -A FORWARD -m state --state ESTABLISHED,RELATED -j ACCEPT 505 iptables -t nat -A PREROUTING -d 192.168.16.33 -p tcp --dport 50070 -j DNAT --to 192.16

2012-03-21 09:47:49 701

原创 hadoop删除节点

1、配置参数文件core-site.xml：dfs.hosts.excludes2、执行命令hadoop dfsadmin -refreshNodes执行上述命令后，hadoop在后台进行数据迁移。迁移过程中，可以通过namenode：50070进行监控。此过程中，被删除节点的数据并未删除，只是进行了数据迁移。待迁移完成后，被删除节点的datanode进程将不能访问na

2012-03-20 14:35:27 820

转载 hadoop处理不同输入目录文件

在写mapred任务的时候免不了要处理join。在join中最简单的就是一对一的join。下面通过一个小例子介绍如果在mapred中实现一对一的join。name.txt100 tom101 mary102 katescore.txt100 90101 85102 80要得到如下的join结果100 tom 90101 mary 85

2012-03-20 09:19:06 3261

转载 Python调用C语言函数

使用Python的ctypes，我们可以直接调用由C直接编译出来的函数。其实就是调用动态链接库中的函数。为什么我们需要这样做呢，因为有些时候，我们可能需要一个性能上比较讲究的算法，有些时候，我们可以在Python中使用已经有了的现成的被封闭在动态链接库中的函数。下面是如何调用的示例。首先，我们用一个乘法来表示一个算法功能。下面是C的程序：intmultiply(intnum1

2012-03-14 09:59:53 691

原创 mysqldump导出部分数据

1、只导出某表的部分数据mysqldump -uuser -ppassword dbname tablename --where=" condition" > outfile.sql2、不导出数据使用-d参数

2012-02-15 13:28:39 479

原创 centos5挂载ext4磁盘

1、系统内核2.6.18-164.el52、安装工具e4fsprogs-1.41.12-2.el5.x86_64.rpm3、格式化磁盘mkfs.ext4 /dev/xxx4、设置磁盘标签 tune4fs -L/label /dev/xxx5、/etc/fstab增加新一行6、挂载磁盘 mount -t ext4dev /dev/xxx /dirname

2012-02-10 10:48:31 794

转载 Linux 释放内存命令

Linux 释放内存命令现在论坛在线人数有时候突然猛增，内存暴增，然后就服务器挂了。找到一个方法先运行： sync然后： echo 3 > /proc/sys/vm/drop_caches total used free shared buffers

2012-02-09 15:40:12 612

转载图说“什么是数据挖掘”

摘要: 1、数据挖掘需要‘神马样’的流程？2、哥，有没有详细点的，来个给力的！3、数据挖掘在商业上的理解是？4、数据在统计意义上有哪些类型？5、他们的含义是什么呢？6、基本的探测指标有哪些？7、数据挖掘的算法有哪些呢 ...1、数据挖掘需要‘神马样’的流程？2、哥，有没有详细点的，来个给力的！

2012-01-30 10:54:09 867

原创 awk输出到多个文件

awk '{print $1 >$2}' file以上代码实现将file中第一个字段写入文件名$2的文件中，写的方式为追加写。

2012-01-10 16:50:44 5412

原创 Linux date命令的一个简单说明

一个定时器脚本需要使用date来得到当前、1个月前、2个月前等的详细月份信息。之前的脚本一直使用“date +%Y%m -d'n month ago' ”，开始没意识到错误的发生，今天突然间发现，这里的month默认是按30天来处理的，这样就导致如果当前日期为某月的31日，那么1 month ago得到的只是当前月份的1日。而不是我们所期盼的上个月。这个错误导致之后的月份信息的合并完全出错，特此记

2012-01-04 11:05:16 579

原创 mongodb随笔

1. 删除文档属性var xx = db.collection.find({query})xx.newkey="new value"delete xx.key1db.collection.update({query},xx)操作说明：通过查询获取某个文档，给该文档设置新的key/value对，删除旧的key=》key1，然后通过update操作更新该文档2. 删除文档db.c

2011-12-09 23:04:59 798

原创 Mongodb嵌套查询及修改

Mongodb各文档中对嵌套查询的介绍不知道藏在哪个地方，反正我是没找到，一个偶然的机会发现网上的一个帖子，终于知道了嵌套查询的用法。于是乎我们应用中的一个问题也随之被解决了。不说废话了，现在说下嵌套查询的使用。假设mongodb中存在某个collections，其数据如下：> db.xx.find(){ "_id" : 1, "name" : { "first" : 2, "last

2011-12-07 10:44:50 18301 3

转载 Redis配置

Redis安装redis需要修正版本到2.4RC，集成了jemalloc，不再需要tcmalloc编译前手工修改src/Makefile，修改其中的PREFIX参数到/usr/local/redis，使得安装位置为/usr/local/redis安装目录说明|- /usr/local/redis 安装根目录 |- bin 可执行文件 |- etc 配置文

2011-11-24 09:26:56 793

原创 Redis基础

类型：String，List，set，sorted setString：命令：set/get，incr/decr，incrby/decrby，getsetList：linked list（插入快，访问相对慢）命令：lpush/rpush，lrange，llenset：无序命令：sadd，smembers，sismembers，sinter。。。sorted set：

2011-11-21 13:54:28 789

原创 awk字符串比较问题

#!/bin/awkBEGIN{ mac="" sum=0}{ if($1==mac) { sum+=$2 } else { print mac,sum mac=$1 }END{ if($1==mac) { print mac,sum+$2 } else { print mac,sum print $1,$2 }

2011-11-16 14:51:31 17478 1

原创 shell脚本编码问题

最近某个脚本的执行经常导致编码问题。脚本从远端mysql数据库获取影片中文名，然后再导入本机的mysql中。发现由crontab自动执行的时候获取的影片名称都是乱码，但手动执行脚本却正常输出。几天都是这个问题。今天突然想起以前也有类似问题，在终端执行“echo $LANG"，然后在脚本中加”export LANG=xx（之前的输出结果）“，问题解决。具体原因不知，个人猜测本地LANG是人为

2011-11-15 09:39:54 2113

转载 hadoop+hive 做数据仓库 & 一些测试

转载标明 :www.bagbaby.cn http://hi.baidu.com/dd_shop背景需求和现状目前的日志系统还称不上系统，只是在几台服务器上存着所有的日志，依靠NFS共享数据，并运算，带来的问题诸多：a) 数据存放凌乱，缺乏系统的目录管理；b) 存储空间有限，并且扩展非常麻烦；c) CV/PV等日志分散存放，合并不方便；d) 媒体服务日志数据集中存放

2011-11-10 19:05:00 3948

原创 Hadoop学习一

1、自定义输入类型（输出类型类似）基类：FileInputFormat实现方法getRecordReader实现自定义的RecordReader，方法：next，createKey，createValue，getPos，getProgress，close2、待续。。。

2011-11-04 10:04:34 557

原创这个周末有点累。。。

周六，坐着小火车去八达岭森林公园看红叶。从下火车走了接近4公后发现啥风景都没有，无奈又原路返回。然后又到所谓的红叶岭看红叶，悲催的又发现来晚了。树上的红叶已经基本凋落了，只留一小片一小片聊以安慰。近距离看着长城，所谓的野长城，走在荆棘的山坡上，期待能从某一处攀爬上去。在与地面经历了一次亲密接触，手上拉了几道小口子后，终于找到了前人的足迹，第一次登山了长城。竟然没有意料之中的那种震撼的感觉，也许是最

2011-10-31 10:25:32 472

原创数据挖掘--统计基础概念

1. 中位数(Median)N个数按大小排序，排在中间的那个数M成为中位数。即N个数中有50%比M大或者小。若N为基数，则M为中间的那个数；若N为偶数，则M为中间两个数的均值。2. 均值(Mean)N个数的平均值。公式M=SUM(1...N)/N3. 四分位数(Quantile)* 第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数

2011-10-28 17:51:11 999

转载 eclipse搭建hadoop开发环境

1.版本hadoop：apache0.20.0eclipse：3.3.02.插件hadoop自带，contrib/eclipse_plugin3.步骤* 将hadoop自带插件拷贝至eclipse plugins目录* 启动eclipse，window-->preference--> hadoop map/reduce 指定本地hadoop目录* window-->

2011-10-28 10:17:40 897

转载 hadoop 配置说明

Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明，合理的配置会大大提高Hadoop的性能。在Hadoop-0.19.2版本中，Hadoop配置文件在conf目录下，包括文件 hadoop-default.xml hadoop-site.xml 前者做了默认配置，不允许修改，用户需要配置时可以在后者中设置

2011-10-26 16:35:55 484

原创路在何方？

在公司工作了一年，从hadoop平台搭建、使用；然后是公司旧有的两套系统的维护，新增需求处理，更多的陷入shell脚本，perl，awk等脚本语言的使用上来；紧接着是失败oracle biee的调研，然后是开源pentaho的使用。。。感觉自己一直是在救火一般，了解这个了解那个，会使用这个/那个，一切的一切都只是了解，而没有深入、熟悉。昨天去taobao面试，这个问题更加凸显。

2011-10-26 09:29:02 414

转载如何对hadoop作业的某个task进行debug单步跟踪

转自：http://blog.csdn.net/ae86_fc/article/details/5957715对于使用hadoop进行日志分析等工作的开发者来说，相信一直都面临着一个非常头疼的问题。那就是：对hadoop的mapreduce作业，在分布式集群上进行单个task的单步debug跟踪调试无法办到。只能在本地进行调试，然后提交到集群中运行，但是集群中如果某个task总

2011-10-21 16:31:36 754

转载对hadoop task进行profiling的几种方法整理

在hadoop中，当一个job的调试完成，执行成功后，job的开发者接下来该思考的问题通常就是：如何将job跑的更快，更加高效，更节省资源呢？这个话题其实是一个老生常谈的话题了，很多有经验的工程师，开发人员和机构都分享过类似的经验。通常来说，应用程序千变万化，程序逻辑也不尽相同，程序的执行瓶颈通常也不尽相同，有的job是IO密集型的作业，那么优化其算法效率意义就不大，而有的job是CPU密集型的，

2011-10-21 16:20:32 649

转载 R语言数据储存与读取

1. 首先用getwd() 获得当前目录，用setwd("C:/data")设定当前目录：2.0 数据保存：创建数据框d: >d 2.1 保存为简单文本：>write.table(d, file = "c:/data/foo.txt", row

2011-10-11 11:17:02 2238

转载 R语言为Hadoop集群数据统计分析带来革命性变化

R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展，并且允许R语言引擎运行在Hadoop集群之上。R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert G

2011-10-11 08:47:32 621

转载大数据下的数据分析平台架构

大数据下的数据分析平台架构2011-08-15 14:59 | 4270次阅读 | 【已有6条评论】发表评论来源：《程序员》 | 作者：谢超 | 收藏到我的网摘随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了

2011-10-11 08:46:45 668

转载 Apache Sqoop

Apache Sqoop (Incubating)THURSDAY OCT 06, 2011Apache Sqoop - OverviewApache Sqoop - Overview Using Hadoop for

2011-10-10 15:38:46 882

转载 SQL习惯

一、查询的逻辑执行顺序　　(1) FROM left_table　　(3) join_type JOIN right_table (2) ON join_condition　　(4) WHERE where_condition　　(5) GROUP BY grou

2011-10-08 10:33:34 291

t_area.sql

涵盖中国省市县镇村数据，总共74W+条记录，样例数据：740439 INSERT INTO `t_area` VALUES ('659004501504', '四连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行政区划五家渠市兵团一零二团', '5'); 740440 INSERT INTO `t_area` VALUES ('659004501505', '五连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行政区划五家渠市兵团一零二团', '5'); 740441 INSERT INTO `t_area` VALUES ('659004501506', '六连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行政区划五家渠市兵团一零二团', '5'); 740442 INSERT INTO `t_area` VALUES ('659004501507', '七连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行

2019-11-14

大数据Spark企业级实战

Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台，是Apache软件基金会下所有开源项目中三大顶级开源项目之一。, 在“One Stack to rule them all”理念的指引下，Spark基于RDD成功地构建起了大数据处理的一体化解决方案，将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大数据计算模型统一到一个技术堆栈中，开发者使用一致的API操作Spark中的所有功能；更为重要的是Spark的Spark SQL、MLLib、GraphX、Spark Streaming等四大子框架之间可以在内存中完美的无缝集成并可以互相操作彼此的数据，这不仅打造了Spark在当今大数据计算领域其他任何计算框架都无可匹敌的优势，更使得Spark正在加速成为大数据处理中心首选的和唯一的计算平台。, 《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容，涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言编程、Spark常见问题及调优等，并且结合Spark源码细致的解析了Spark内核和四大子框架，最后在附录中提供了的Spark的开发语言Scala快速入门实战内容，学习完此书即可胜任绝大多数的企业级Spark开发需要。, 《大数据Spark企业级实战》从零起步，完全从企业处理大数据业务场景的角度出发，基于实战代码来组织内容，对于一名大数据爱好者来说，《大数据Spark企业级实战》内容可以帮助您一站式地完成从零起步到进行Spark企业级开发所需要的全部核心内容和实战需要。

2016-09-01

设计模式六大原则

设计模式体现的是软件设计的思想，而不是软件技术，它重在使用接口与抽象类来解决各种问题。

2012-02-01

Hive资料整合

hadoop数据仓库应用软件hive。 hive学习资料整合，初学者必备。

2011-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人