3 Master_slaves

尚未进行身份认证

暂无相关简介

等级
TA的排名 6w+

spark-任务提交多个jar包问题(Oozie调度)

spark-submit \--class com.xxx.bigdata.handler.xxx \ -- 运行的主类--master yarn \--deploy-mode client \--driver-memory 1g \--executor-memory 2g \--executor-cores 2 \--jars hdfs:///user/admin/xx/bas...

2020-01-02 17:23:41

spark-streaming 手动提交偏移量至mysql和Druid数据连接池

文章目录一原生查询偏移量二 Druid数据库连接池三 在mysql中创建对应的偏移量表四 获取mysql中的偏移量五维护偏移量至mysql六 获取kafka Dstream七 测试代码八查看mysql中的结果数据一原生查询偏移量 val driver = "com.mysql.jdbc.Driver" val url = "jdbc:mysql://aliyun01:3306/kafka...

2019-11-04 16:44:48

Flink乱序处理测试

文章目录一 数据源二 测试三 总结一 数据源def main(args: Array[String]): Unit = { val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment //设置时间语义 时间发生时间 env.setStreamTime...

2019-10-23 18:41:58

Flink keyed state 和RichFunction测试

文章目录一 数据源及入口二 key State2.1 ValueState[T]保存单个的值,值的类型为T。2.2 ListState[T]保存一个列表,列表里的元素的数据类型为T。基本操作如下:2.3 MapState[K, V]保存Key-Value对。2.4 ReducingState[T]2.5 AggregatingState[I, O]2.6 State.clear()是清空操作。三...

2019-10-23 15:43:52

Flink-SideOutput测输出流-实现分流

文章目录一 数据源二 分流三 输出结果大部分的DataStream API的算子的输出是单一输出,也就是某种数据类型的流。除了split算子,可以将一条流分成多条流,这些流的数据类型也都相同。process function的side outputs功能可以产生多条流,并且这些流的数据类型可以不一样。一个side output可以定义为OutputTag[X]对象,X是输出流的数据类型。proc...

2019-10-23 14:37:15

Flink waterMaker+timeWindow测试

文章目录一 数据源二 滑动窗口三 滚动窗口四 会话窗口注意:一 数据源样例类case class SensorReading(id:String,ts:Long,tm:Double){} val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment //设置时间语...

2019-10-23 09:58:27

Flink 入门程序WordCount

文章目录一 项目依赖二 编码2.1 批处理2.2 流式WordCount一 项目依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactI...

2019-10-20 10:27:37

大数据编程常用方法、依赖、工具

文章目录1 修改序列化器2 Java集合与Scala集合相互转换需要得隐式转换3 DS与RDD、DF之间相互转换得隐式转换4 广播变量5 累加器6 自定义累加器需继承AccumulatorV2这个类7 SparkContext的创建方式8 SparkSession的创建方式9 SparkStreaming的创建方式10 自定义聚合函数11 本地通过SparkSql 查询Hive12 SparkSt...

2019-10-15 19:34:16

Scala-操作Es写入数据

文章目录一 需求描述二 依赖三 手动指定MovieMapping四 写数据到Es中4.1 写入Es工具类4.2 测试五 从es中查询数据一 需求描述使用Spark读取本地Json文件,将读出的电影数据写入到Es中按照电影的Id进行分组统计,统计出每个电影的平均分,升序二 依赖<!--es 相关依赖开始--> <dependency> ...

2019-10-12 19:21:28

Kibana Web页面操作Elastic Search

一 准备工作es版本6.3.1 kibana 版本6.3.1启动三台ES节点,组建成Es集群启动kibana 连接上Es访问kibana提供的Web页面http://hadoop102:5601二 接口Restfull Api2.1 查看es中有哪些索引GET /_cat/indices?v表头含义:health green(集群完整) yellow(单点正常、集群不...

2019-10-11 20:42:53

mybatis整合Phoenix实现日活数据实时查询

简介通过mybatis统计出当天日活数据,返回Json数据一 准备二 项目分层配置三 测试接口

2019-10-09 21:42:11

spark-整合Phoenix将数据写入Hbase

文章目录一 环境准备1.1 pom文件1.2 config配置:1.3 properties解析工具类1.4 HbaseUtil工具类1.5 kafkaUtil根据指定的topic返回对应的Dstream1.6 jedisUtils从连接池中获取Jedis连接实例1.7 样例类二 Spark直接将数据写入Hbase三 Spark整合Phoenix将数据写入hbase四遇到的问题问题1 :Phoen...

2019-10-09 19:44:51

spark操作文件、mysql、hbase

文章目录一读写文件二 读写至mysql2.1 从mysql中读取数据2.1.1 使用spark提供的JDBCRDD2.1.2 使用原生的JDBC连接数据库查询封装为RDD集合2.2 Spark批量写入数据到mysql三 读写至hbase四 读写至kafka一读写文件object ReadFileAndSaveAsFile { def main(args: Array[String]): U...

2019-09-19 14:46:21

Spark-Streaming缓存计算结果,Wordcount累加求和

一 updateStateByKey函数声明:def updateStateByKey[S: ClassTag]( updateFunc: (Seq[V], Option[S]) => Option[S]): DStream[(K, S)]需求:对上次计算的结果进行缓存,在应用重启后,加载上次计算的结果,这里从scoket中读取流数据在这里插入代...

2019-10-04 10:40:46

Structured-Streaming编程练习知识点

一 source官网介绍:File sourcepath: path to the input directory, and common to all file formats. maxFilesPerTrigger: maximum number of new files to be considered in every trigger (default: no max) la...

2019-09-25 18:50:49

spark-streaming有状态转换计算

文章目录一 updateStateByKey二 window操作2.1 reduceByKeyAndWindow2.2 reduceByKeyAndWindow2.3 window(windowLength, slideInterval)2.4 countByWindow(windowLength, slideInterval)一 updateStateByKey操作允许在使用新信息不断更新状...

2019-09-24 19:45:35

spark-Streaming无状态转换Transform

transform 原语允许 DStream上执行任意的RDD-to-RDD函数。可以用来执行一些 RDD 操作, 即使这些操作并没有在 SparkStreaming 中暴露出来.该函数每一批次调度一次。其实也就是对DStream中的RDD应用转换。package com.gc.sparkStreaming.day01.transformimport kafka.serializer.S...

2019-09-24 18:53:12

spark-Streaming整合kafka手动维护offset_wordcount

package com.gc.sparkStreaming.day01import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport org.apache.kafka.clients.consumer.Consum...

2019-09-24 18:33:00

Spark-sql与hive进行整合(代码中操作hive)

文章目录一环境准备pom依赖二 代码编写三 在此基础上基于二对表userinfo中的数据进行指标计算三 总结一环境准备在代码中访问hive需要导入hive的依赖和jdbc依赖需要hive的配置文件,否则默认访问的是自带的hivespark-shell 中默认是开启支持hive的,在本地代码中没有开启,需手动开启pom依赖<dependencies> <de...

2019-09-22 16:29:52

spark-sql自定义UDAF函数

文章目录一需求分析二 自定义UDAF实现三测试一需求分析读输入的数据进行聚合,对给出的集合元素进行累加和求平均值,返回计算后的结果二 自定义UDAF实现import java.text.DecimalFormatimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregat...

2019-09-22 10:53:06

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。