- 博客(7)
- 收藏
- 关注
原创 map/reduce实例(四)
map/reduce经典案例——wordcount进阶输入数据hello worlddog fishhadoop sparkhello worlddog fishhadoop sparkhello worlddog fishhadoop spark要求 , 输出出现次数前三的单词,用一次map/reduce完成。要点分析:我们知道mapreduce有分许聚合的功能,...
2019-08-27 16:42:23 197
原创 map/reduce实例(三)
map/reduce经典案例——倒排索引1.输入数据输入为三个文件分别是a.txt,b.txt,c.txt。这三个文件中有一些字符串。要求统计出每个字符串在每个文件中出现的次数。a.txtxyg pingpingxyg ssxyg ssb.txtxyg pingpingxyg pingpingpingping ssc.txtxyg ssxyg pingping2....
2019-08-25 10:40:37 111
原创 map/reduce实例(二)
map/reduce经典案例——寻找共同好友1.输入数据。A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J以上数据冒号前面的是用户,后面的是这个用户关注的好友...
2019-08-25 10:03:46 219
原创 map/reduce实例(一)
map/reduce基础——wordcountwordcount是map/reduce中最基础的一个案例,是一个入门练习案例。map/reduce一般分为三个组件mapper、reducer、dirver。mapper和reducer负责业务逻辑,driver负责提交业务。mapper如下public class Mapwordc extends Mapper<LongWritabl...
2019-08-25 09:05:34 304 1
转载 map/reduce入门与原理
一 MapReduce入门1.1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1)MapReduce 易于编程。它简单的实现...
2019-08-09 16:54:49 263
原创 HDFS的API操作
使用eclipse作为idea用java API对HDFS进行操作。eclipse插件和包的导入。首先下载eclipse,这里我使用的是2018-12版本,下载链接如下。http://ftp.yz.yamagata-u.ac.jp/pub/eclipse/technology/epp/downloads/release/2018-12/R/eclipse-jee-2018-12-R-wi...
2019-07-29 16:26:21 251
原创 基于centos7.6搭建hadoop-3.1.2集群
基于centos7.6搭建hadoop-3.1.2集群hadoop单节点安装。Hadoop单节点的安装不需要守护进程,所以不需要安装zookeeper。准备环境centos7.6、java1.8、hadoop-3.1.2。首先安装虚拟机。我选择的是最小安装,这样会更节省资源,更快一些,但是有些东西会缺少,需要自己手动安装。在创建虚拟机之前点击左上角的虚拟网络编辑器。之后安装虚拟机的...
2019-07-19 14:28:19 370
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人