4 lebboop-L

尚未进行身份认证

我要认证

机器学习爱好者,相信一份记录,一份收获!

等级
TA的排名 1w+

MapReduce Configuration.deprecation (Configuration.java:warnOnceIfDeprecated(1173))

写了一个mapreduce程序,控制台输出如下:2020-07-19 19:13:06,845 INFO [main] Configuration.deprecation (Configuration.java:warnOnceIfDeprecated(1173)) - session.id is deprecated. Instead, use dfs.metrics.session-id2020-07-19 19:13:06,849 INFO [main] jvm.JvmMetrics (Jv..

2020-07-19 19:19:00

gson+mapreduce解析Json数据保存到多个文件中(Json含多层嵌套数组)

直接上代码。涉及技术点:- Json解析成关系型数据表结构- MapReduce多文件输出- 消除MapReduce默认文件输出格式(1)FileOutputFormatpackage com.leboop.www.json;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.ha

2020-07-18 16:48:55

gson解析Json后保存到关系数据库表中(Json含多层嵌套对象数组)

首先需要设计Json解析后保存的关系型数据库表结构,包括主表,附表,各表的主键和外键;解析详细代码如下:package jsonparser;import com.google.gson.JsonArray;import com.google.gson.JsonElement;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.util.*;/** *.

2020-07-18 14:59:25

Java枚举类如何关联常值?

如下两个类,EventType和KeeperState,是ZooKeeper源码中枚举类的实现方法: public enum EventType { // 事件类型 // 无 None (-1), // 结点创建 NodeCreated (1), // 结点删除 NodeDeleted (2), // 结点数据变化 .

2020-07-03 00:03:31

JAXBContext注解方式解析XML

config.xml内容如下:<?xml version="1.0" encoding="UTF-8"?><sql> <thread>1</thread> <jsonfiles> <jsonfile> <id>2</id> <name>zs</name> </jsonfile&gt

2020-07-02 23:48:13

MapReduce如何去除reducer阶段,如何去除map的排序?

以WordCount为例,假设已经按正常情况编写了Mapper和Reducer,主程序中job如下设置:Job job = Job.getInstance(conf,"Word-Count");job.setJarByClass(WordCountMain.class);job.setMapperClass(WordCountMapper.class);job.setReducerClass(WordCountReducer.class);job.setOutputKey...

2020-06-30 22:51:43

Job jar is not present. Not adding any jar to the list of resources

eclipse开发mapreduce程序,本地可以正常运行,使用eclipse打包上传到Linux上,使用hadoop jar命令执行,报错如下:[root@single test]# hadoop jar salarysum.jar hdfs://single:9000/input/emp.txt /outputSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [rsrc:org/slf4j/im.

2020-06-27 21:32:47

oozie自定义action,以操作mysql为例(工作回忆录)

目录创建java项目添加依赖自定义action定义schema项目打包oozie-site.xml添加配置job.propertiesworkflow.xml测试本文以oozie-5.2.0.tar.gz为例。创建java项目使用IDEA开发工具创建一个java项目,目录结构如图:添加依赖jdom-1.1.jaroozie-client-5.2.0.jaroozie-core-5.2.0.jar这三个包在oozie安装目录的lib目录.

2020-06-21 22:22:04

Linux安装oozie(填坑手记)

原文链接本文安装oozie版本:oozie-5.2.0.tar.gzoozie官网安装系统要求:Unix box (tested on Mac OS X and Linux) Java JDK 1.8+ Maven 3.0.1+ Hadoop 2.6.0+ Pig 0.10.1+maven安装1、下载下载地址:apache-maven-3.6.3-bin.tar.gz2、解压执行如下命令,解压到/opt目录下:tar -zxvf /root/...

2020-06-20 12:21:50

Flink术语表(Glossary)

原文链接Flink Application Cluster Flink应用程序集群是一个专用的Flink集群(Flink Cluster),它只执行一个Flink作业。Flink集群的生存期与Flink作业的生存期绑定。以前的Flink应用程序集群也称为作业模式下的Flink集群。与Flink会话集群相比。Flink Cluster 由一个Flink主进程(Flink Master)和一个或多个Flink TaskManager进程组成的分布式系统。...

2020-06-17 15:02:02

Flink分布式运行环境(Distributed Runtime Environment)

目录任务和操作算子链(Tasks and Operator Chains)作业管理器、任务管理器和客户端(Job Managers, Task Managers, Clients)任务槽和资源(Task Slots and Resources)状态后端(State Backends)保存点(Savepoints)原文链接任务和操作算子链(Tasks and Operator Chains) 对于分布式执行,Flink将操作算子子任务(operator subta...

2020-06-17 14:37:07

Flink数据流编程模型(Dataflow Programming Model)

抽象层次(Levels of Abstraction) Flink提供了不同层次的抽象来开发流/批处理(streaming/batch)应用程序。如下:抽象级别从低到高依次是:Stateful Stream Processing —> DataStream/DataSet API —> Table API —> SQL。(1)Stateful Stream Processing 它是整个抽象的最底层,通过过程函数(Process Fun...

2020-06-16 16:35:45

Spark提交任务到yarn上报错:is running beyond virtual memory limits

spark版本:spark-2.4.5-bin-hadoop2.7.tgzhadoop版本:hadoop-2.7.3.tar.gz使用spark-submit将spark自带的一个example提交到yarn上执行,命令如下:spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \/opt/spark/examples/jars/spark-examples_2.11-2.4.5.jar...

2020-06-09 20:51:26

一个例子让你明白Scala中的call by name和call by value

先看一个例子def get(x:Int):Int={println(s"$x")x}def getByValue(y:Int):Int={x+x}def getByName(y: =>Int):Int={x+x}getByValue(get(1))getByName(get(2))(1)get方法该方法传入x,先打印x,然后将x作为返回值。(2)getByValue和getByName这两个方法定义非常相似,参数写法不同,getByName参...

2020-05-30 18:09:07

大数据生态HA(全)

目录Hadoop HANameNode FederationHBase HAStorm HAFlink HA先安装好ZooKeeper。Hadoop HA1、集群规划host HDFS Yarn ZK HA bigdata111 NameNode SecondaryNameNode ResourceManager QuorumPeerMain bigdata112 DataNode...

2020-05-28 18:13:45

Java设计模式(十五)之访问者模式(Visitor)

本文以学校领导访问学生和教师为例介绍。被访问者首先抽象被访问者的“可被访问”特征,然后定义两个具体的被访问者“教师”和“学生”,如下:/** * Created by leboop on 2020/5/26. * 该接口对被访问者的“可访问性”进行抽象 */public interface IVisitable { /** * 表示接受访问者访问 * @param visitor 访问者 */ void accept(IVisitor...

2020-05-26 15:51:14

Java设计模式(十四)之状态模式(State)

本文以十字路口红绿灯为例介绍。红绿灯有3个颜色,我们使用如下Color枚举类来表示:/** * Created by leboop on 2020/5/26. */public enum Color { RED, GREEN, YELLOW}红绿灯有三个状态:红灯状态,绿灯状态和黄灯状态,先抽象出三个状态的抽象类State,然后再分别定义三个具体的状态类RedState,GreenState,YellowState,分别如下:/** * Created by lebo...

2020-05-26 14:28:46

Java设计模式(十三)之组合模式(Composite)

本文以磁盘杀毒为例介绍。先定义一个磁盘接口,如下:/** * Created by leboop on 2020/5/26. */public interface Disk { String name = ""; void add(Disk disk); void remove(Disk disk); void kill();}给磁盘杀毒的本质,是给磁盘下的每个目录杀毒,所以下面我们定义一个文件目录类,如下:/** * Created b...

2020-05-26 12:36:36

Java设计模式(十二)之适配器模式(Adapter)

本文以JDK源码为基础介绍。FileInputStream,InputStreamReader,BufferedReader。

2020-05-26 10:42:34

Java设计模式(十一)之装饰模式(Decorator)

本文以JDK中IO流源码为基础介绍。被装饰者/** * Created by leboop on 2020/5/25. */public abstract class MyInputStream { public abstract int read(String content);}MyInputStream是被装饰者超类,具备读取各种设备的数据功能。MyFileInputStream是MyInputStream的实现类,如下:/** * Created by l...

2020-05-25 18:19:05

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。