自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (1)
  • 收藏
  • 关注

原创 数仓表数据一般保留多久,而每个日志分区全量表快照一般保留多久

数据仓库整理部分内容类型:ods/永久保留 添加数据生命周期 ods 180天dw/365天/迭代删除/不用要的/ 1个月在存储资源有限的前提下,如何优化明细层存储:已经做好了orc+gz的压缩之后,如何优化存储1:大宽表+累计快照/删数据明细2:直接删/根据数据等级3.不删/业务提供资源...

2022-04-19 14:11:09 1016

原创 mysql调优查询缓存

show global status like ‘qcache%’;Qcache_free_blocks:缓存中相邻内存块的个数。数目大说明可能有碎片。FLUSH QUERY CACHE 会对缓存中的碎片进行整理,从而得到一个空闲块。Qcache_free_memory:缓存中的空闲内存。Qcache_hits:每次查询在缓存中命中时就增大Qcache_inserts:每次插入一个查询时就增大。命中次数除以插入次数就是不中比率。Qcache_lowmem_prunes:缓存出现内存不足并且必须

2022-04-18 09:21:52 216

原创 SQL的select 语句的执行顺序

SQL的select 语句的执行顺序SQL的select 语句的执行顺序2022-04-06 17:01·张念初蛇姐镇楼SQL的select 语句的执行顺序标准SQL的解析顺序为:(1)from 子句, 组装来自不同数据源的数据(2)where子句, 基于指定的条件对记录进行筛选(3)group by 子句, 将子句划分为多个分组(4)使用聚合函数进行计算(5)使用having子句筛选分组(6)计算所有的表达式(7)使用order by 对结果集进行排序上述未有select语句,为

2022-04-16 18:03:50 400

原创 logstash处理解析失败的数据,不写入数据库或elasticsearch

filter { dissect{ mapping => { "message" => "%{clientip} - - [%{time_local}] %{request} %{url} " } } if "_dissectfailure" in [tags] { drop {} } }使用dissect做解析匹配或者grok解析失败写入数据源,...

2019-11-26 17:07:05 1976

原创 postgres如何不插入重复的值

用一句sql语句搞定INSERT INTO pm (metric, objectname, c_md5, e_md5) SELECT 'oracle', 'OR' ,'4', '7' WHERE NOT EXISTS(SELECT id FROM pm WHERE metric='oracle' AND objectname='OR');pm为数据库的表名metric, objectna...

2019-11-07 16:39:31 1562

原创 Java对象封装实体类,使用Gson和阿里的方式封装

需要建立好实体类的对应类型,Gson的封装方法ss是对应的数据源 List<实体建立好的实体类> tntities = new Gson().fromJson(ss, new TypeToken<List<实体建立好的实体类>>() {}.getType());阿里的方法QueryMetric建立好实体类的对应类型 QueryMetric query...

2019-10-29 09:57:45 441

原创 idea如何读取配置properties文件以及加载外部文件目录下的配置

如何去读properties结尾的文件,方便程序的灵活配置参数首先建立`PropertiesReader类一般放在util包下面public class PropertiesReader {/** * 读取配置文件 */private Properties getProperties(){ Properties p = null; try{ // 读取...

2019-07-11 09:55:42 2081

原创 Hive的十四种调优方式:

Hive的十四种调优方式:第一种调优方式:fetch(hive可以避免MapReduce)对于hive可以简单地读取employee对应的储存目录下的文件,然后输出查询结果到控制台.修改hive.fetch.task.conversion默认是more,老版本为minimal,修改为more即可第二种:本地模式(在hive输入数据量是非常小的情况下,可以通过本地模式处理单台机器上所有的任务,...

2019-07-01 09:57:41 897 1

原创 Apache atlas的UI界面如何修改密码

Apache atlas的UI界面如何修改密码在apache-atlas-1.1.0/conf中的users-credentials.propertiesadmin=ADMIN::后面跟的为sha256加密在线转换方式http://tool.oschina.net/encrypt?type=2重启登录...

2019-05-17 11:03:13 2013 1

原创 apache atlas编译踩坑

纪念编辑atlas编辑踩过的坑官方下载地址:http://atlas.apache.org/Downloads.html我的是 apache-atlas-1.1.0-bin.tar.gz编译源码环境准备,jdk1.8以上,我的是 jdk1.8.0_211注意jdk1.8后的一定要大于155,我的是211,这个坑编译的时候踩过要大于155以上,哭过.maven3.5以上, 我的是 apa...

2019-05-09 17:12:34 2965 5

转载 Storm 的nimbus 单节点宕机如何自动重启?

storm在生产上跑得很欢快,但是突然遇到一个问题,不知道storm是什么原因,无缘无故的自动停止了。查看日志没有任何的报错信息,包括警告信息都没有,反正就是无缘无故的shut down了。问题分析,初步我们判断应该是系统资源不足导致的,但这只是推测,因为storm集群的这些server都没有做监控,只有后面加上监控才能验证是否是因为资源问题引起的。好吧!既然遇到问题咱们就解决问题吧!首先网上一...

2018-12-18 10:05:53 668

原创 spark的三种部署模式

三种模式standalone即独立模式,自带完整的服务,可单独部署到一个集群中,无须依赖任何其他资源系统spark on mesos模式 正式由于spark开发之初就考虑支持mesos,因此,目前而言,spark运行在mesos上会比运行在yarn上更加灵活,更加自然,目前在spark on mesos环境中,用户可选择两种调度模式之一运行自己的应用程序(1) 粗粒度模式:每个应用程序的运...

2018-12-04 17:01:42 1233

原创 Spark性能调优合理设置并行度

spark作业中,各个stage的task的数量,也就代表了spark作业在各个stage的并行度,50个Executor,3个core,也就是说Application任何一个stage运行的时候,都有150个cpu core,可以并行运行,官方建议task的数量,设置为spark Application总cpu core数量的2~3倍,比如150个CPU core,基本设置task数量为300~...

2018-12-04 16:59:44 196

原创 spark的程序开发调优

原则一:避免创建重复的RDD,对于同一份数据,只应该创建一个RDD.原则二:尽可以复用同一个RDD,对于类似这种多个RDD的数据有重叠或者包含的情况,我们应该尽量复用一个RDD,尽量减少RDD的数量,从而尽可能减少算子执行的次数原则三:对多次使用的RDD进行持久化,对多次进行操作的算子使用persist持久化算则四:尽量避免使用shuffle类算子,尽量避免使用reducebykey...

2018-12-04 16:58:31 66

原创 spark的shuffle相关参数调优

1.spark.shuffle.file.buffer默认是32K该参数用于设置shuffle write task 的BufferedOutputStream的buffer缓冲大小,将数据写到磁盘文件,在内存作业资源充足的情况下,可以调为64K2.spark.reduce.maxSizeInFlight默认值:48M该参数用于设置shuffle read task的buffer缓冲大小...

2018-12-04 16:56:45 491

原创 spark的持久化 persist

memory_only 使用未序列化的Java对象格式,将数据保存在内存中。memory_and_disk使用未序列化的Java对象格式,优先尝试将数据保存在内存中,如果内存不够存放所有的数据,会将数据写入磁盘文件汇总,下次对这个RDD执行算子是,持久化在磁盘文件中的数据会被读取出来使用.memory_only_ser基本含义同memory_only,唯一的区别是,会将RDD中的数据进行...

2018-12-04 16:54:40 327

原创 spark的资源参数调优

1.num-executors参数说明:该参数用于设置spark作业总共要用多少个Executor,建议每个spark作业运行一般设置50~100个左右的Executor进程比较合适2.executor-memory参数说明:该参数用于设置每个executor进程的内存,executor内存的大小,很多时候度决定了spark作业的性能,常见jvm oom异常建议每个executor内存设...

2018-12-04 16:52:24 191

原创 yarn中的三个调度器

yarn中的三个调度器FIFO调度器,容量调度器,公平调度器系统默认是FIFO调度器,具体用那种调度器需要结合实际情况来.具体的修改路径在yarn-site.xmlFIFO调度器:优点是,简单易懂,不需要任何配置,但是不适合共享集群,大的应用汇占用集群的所有资源,所有每个应用必须等待直到轮到自己运行,在一个共享集群中,更合适使用容量调度器或公平调度器.容量调度器:允许多个组织共享一个hado...

2018-11-26 10:19:33 202

Talend学习资料入门指南

数据清洗,大数据方向,使用Talend完成,只需要妥妥拽拽就能实现,从数据库到hadoop的文件上

2018-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除