自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 CDH提供的推荐配置

HBase的两个参数,解释如下:hbase.hregion.preclose.flush.size默认值:5M建议值:5M含义:如果在关闭 Region 时,某个 Region 内的 memstore 大小超过此大小,会先运行pre-flush以清除 memstore,然后再放置Region关闭标记并使Region脱机。关闭时,在关闭标志下运行刷新以清空内存。在此期间,该Region处...

2019-11-22 09:22:04 708

原创 工业物联网sparkstreaming+kafka+mqtt

一、概述工业物联网数据通过mqtt协议发送到emqtt,kafka订阅emqtt数据,sparkstreaming消费kafka数据和原始留存在oracle的信息表关联计算。二、demo示例package streamTestimport java.util.concurrent.Futureimport java.util.{Date, Properties}import com...

2019-08-28 15:57:24 1462

原创 六、海量hive数据写入es优化

场景:业务部门将客户画像结果表通过hive映射到es表,其中结果表600W条数据,但每条数据接近2W个标签,数据入到es后主要场景是多字段组合过滤查询后聚合求和。优化思路es默认最大字段数是1000,需要增大字段数hive端优化: hive的取数据的速度大于写入到es的速度,es会由于集群规模问题或者资源问题无法同时接收hive过多的并发数。 由此hive端主要优化是减小map数set...

2019-08-16 11:21:40 3846

原创 五、es6.x版本mapping设置介绍

Mapping主要类似数据库中表字段定义,主要有如下作用:定义Index下字段名(Field Name)定义字段的类型,比如数值型,字符串型、布尔型等定义倒排索引的相关配置,比如是否索引、记录postion等需要注意的是,在索引中定义太多字段可能会导致索引膨胀,出现内存不足和难以恢复的情况,下面有几个设置:index.mapping.total_fields.limit:一个索引中能定...

2019-08-15 18:31:00 2242

原创 生产环境各组件调优总结

HDFS:dfs.datanode.du.reserved 100g (计算方法 磁盘总容量*0.05+50g)其中50g适量即可其他参数指定一些日志目录和datanode目录rebalance阈值 2不启用hdfs权限启用zookeeper还有一些进程的内存限制大小记得配置HAdfs.datanode.handler.count=30dfs.namenode.handler.c...

2019-08-15 11:51:41 499

原创 oracle数据导入hive及自动处理type错误

1、oracle2hive#!/bin/shuser='skoanasqp'passwd='temp0628'db=`echo $user|sed 's/sqp//'`jdbc='100.73.57.56:1534'sqlplus -S "$user/[email protected]:1534/$db" >./tables.txt <<EOFset echo...

2019-08-14 15:19:07 332

原创 四、es6.3.1基于searchguard实现多租户

引言  search-guard是Elasticsearch的一个安全权限plugin,权限控制粒度可以到indices、types,甚至可以到过滤field层次。同时也可以限制用户行为CRUD, admin权限等。search-guard可以实现用户访问es中日志需要登陆授权,不同用户访问不同索引,不授权的索引无法查看,从而实现分组控制不同用户查看各自的业务。1、search-guard插件...

2019-05-23 16:54:48 1870

原创 三、elasticsearch架构原理

引言从数据流向和分布的层面,介绍es的工作原理和架构设计,然后针对性的做性能优化、故障处理等。这次主要介绍es的准实时索引的实现、segment的影响、routing和replica的的读写过程,shard的allocate控制以及自动发现的配置做一些介绍。而关于更底层的lucene的原理,在以后会做一些简单介绍。1、准实时索引的实现  把es的每个分片(shard)当做一个lucene,...

2019-03-16 20:18:42 1259

原创 二、elasticsearch的安装

es的安装使用一、安装前环境准备1、五台centos7机器,一台客户端节点,三台作为master节点,五台data数据节点,并挂载好数据盘2、5台机器配置好elasticsearch用户的免密在elasticsearch用户下执行ssh-keygen -t -rsa,按回车shell命令行for i in seq 1 5dossh-copy-id node-$idone3、每台...

2019-03-16 15:48:01 224

原创 一、为什么选择elasticsearch

一个技术服务组件,首先需要了解它的使用场景,才能更针对性的去研究及推广。 首先es作为针对海量数据的分布式存储和快速搜索场景的服务,主要是将全文检索、数据分析以及分布式技术合并在了一起,通过横向扩容和新建索引满足不同的业务场景。 分析数据(group、sort、count),快速模糊匹配并高亮显示,同义词和停顿次处理,相关度排名,复杂数据分析,海量数据的近实时处理等。 优...

2019-03-16 14:54:20 885

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除