8 java的爪哇

尚未进行身份认证

我要认证

在这里和大家交流IT的技术我很高兴

等级
TA的排名 5k+

spark UDAF根据某列去重求合 distinct sum

spark UDAF根据某列去重求合 distinct sum例子:package spark.groupzbimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.types._import org.apache.spark.sql.{Row, SparkSession}/** * creat...

2020-03-20 10:49:19

spark UDAF 自定义聚合函数 UserDefinedAggregateFunction 带条件的去重操作

需求:按餐品分组,并求出无优惠金额的订单数。package cd.custom.jde.job.udfimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apac...

2020-02-12 01:36:12

spark json字符串转dataframe,dataframe结构转json处理

spark json字会串转dataframe,dataframe结构转json处理package mongoimport org.apache.spark.sql.SparkSessionobject InsertTable { def main(args: Array[String]): Unit = { val spark = SparkSession.build...

2019-10-22 11:25:58

spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql

spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql.数据清洗过程比较复杂,没办法,上游给的屡一样的数据,正则去解析并全量按时间取最新一条去重。每天kafka数据5千万条。1分钟要刷一次,看上去还可以满足。只有屡一样去堆代码了。package biReportJob.streamingimport jav...

2019-08-15 17:52:29

spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案

spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案问题:解析字符串,构建spark dataframe结果集,全量去重,数据量过多,解析复杂,导致从早上1分钟到晚上30分钟才能跑完一次任务。spark streaming的接收源一般是推来的,不像kafka会推过来,然后再根据偏移量来记录刻度,优化方案:按小时去清理数据,把解...

2019-08-12 18:39:55

spark streaming 自定义接收数据源Receiver测试

spark streaming 自定义接收数据源Receiver测试package orderimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * c...

2019-08-12 16:45:18

scala spark 手动构建DataFrame复杂类型,arrayType,StructType

scala spark 手动构建DataFrame复杂类型,arrayType,StructTypepackage biReportJob.ztimport org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.functions._import org.a...

2019-07-29 18:35:52

python json 字符串,字典转换操作,json Decimal类型处理问题。

python json 字符串,字典转换操作,json Decimal类型处理问题,中文乱码问题。python json转换有点小费尽,这里标记一下。JSON: TypeError: Decimal('34.3') is not JSON serializable [duplicate]import jsonfrom api_py_connector.cdCconnector.ap...

2019-07-26 11:44:36

sbt多环境打包自定义插件

好久没写博客了,但这个sbt太坑了,本来一个小小的功能,看了好久的文档才弄出来。sbt打包scala语言 sarpk jar时 多环境的的问题。于是自已写了一个插件具体代码请查看github :https://github.com/liangrui1988/sbtEnvironment...

2019-06-05 13:04:26

架构图整理

游戏-WEB后台,控制服,服务交互图说明游戏-WEB后台,控制服,服务架构图游戏-日志采集,数据调度,经分平台架构说明

2018-05-29 20:22:04

postgresql partition by over 窗口函数(分组求数量 并求某个条件之上的数量和)

-- 角色活越等级分布,并累加大于(含当前等级)的角色数量select server_id,lv, os,rid,chn,num , sum(num) over(PARTITION BY server_id,os,rid,chn order by (lv)::int desc ) lv_sum from( SELECT server_id,cont->>'lv' lv,co...

2018-03-29 17:20:32

java排查一个线上死循环cpu暴涨的过程

问题,打一个页面cpu暴涨,打开一次就涨100%,一会系统就卡的不行了。排查方法,因为是线上的linux,没有用jvm监控工具rim链接上去。只好用命令排查:top cpu排序,一个java进程cpu到500%了,什么鬼.....查到对应java进程jps  || ps -aux | grep 端口  pid=13455查看进程中线程使用情况  T排

2018-02-01 16:46:49

flume拉取日志压测数据分析

DEUBG模式拉取(消耗模式),内存缓存模式,批量100条写入(可调大)52G日志开始增量到70G  137个log文件 11:29开始抽样:63737900条  表数据=29 GB   索引+表数据=39 GB67338900条  表数据=31 GB   索引+表数据=41 GB82897700条  表数据=38 GB   索引+表数据=51 GB111146500条 表

2018-01-22 15:31:56

日志系统架构,后台服务架构图

日志系统架构,后台服务架构图

2017-12-08 16:40:37

kafka安装应用,zookeeper集群集成测试应用

kafka安装应用,zookeeper集群集成测试应用

2017-08-11 16:26:28

接入-分布式任务调度平台XXL-JOB

接入-分布式任务调度平台XXL-JOB

2017-07-14 15:24:02

flume之Taildir Source支持变化追加文件的日志收集

flume之Taildir Source支持变化追加文件的日志收集

2017-07-14 14:26:10

supervisor管理后台进程之flume

supervisor管理后台进程之flume

2017-07-14 14:20:12

flume收集日志到mysql

flume收集日志到mysql

2017-05-14 20:19:45

flume-ng安装,应用,几个简单测试例子!

flume-ng安装,应用,几个简单测试例子!

2017-05-13 02:13:19

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享王者
    分享王者
    成功上传51个资源即可获取