自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (1)
  • 收藏
  • 关注

原创 cassandra节点增删磁盘

cassandra增删磁盘

2022-12-06 15:12:57 510 1

原创 cassandra安装及配置

apache cassandra的配置及安装

2022-12-06 15:10:27 1466

原创 Ranger集成CDH Hive

安装HIVE插件只对使用JDBC方式访问HIVE的请求进行权限管理,HIVE-CLI不受限制!解压文件ranger-2.1.0-hive-plugin.tar.gz并修改install.properties文件#ranger admin的路径POLICY_MGR_URL=http://cdh04:6080#hive服务名称REPOSITORY_NAME=hivedev#hive的安装路径COMPONENT_INSTALL_DIR_NAME=/opt/cloudera/parcels/CDH/

2021-05-28 11:29:41 1858 5

原创 Ranger集成CDH impala3.4

CM的impala配置如下:server-name的值为ranger-hive插件所在的节点,impala要去此节点读取策略在启动impala时加载ranger相关文件,如xasecure-audit.xml文件等,可将hive配置文件目录的xasecure-audit.xml等文件加载到impala相关进程的配置文件目录中(所有impala节点都需修改)如图,添加内容:重启Impala服务...

2021-05-28 11:22:34 1072 1

原创 CDH Impala3.2升级到Impala3.4

1.下载下载impala-branch-3.4.0.zip,并上传到Linux解压[root@bd-offcn-02 impala]# unzip impala-branch-3.4.0drwxr-xr-x. 24 root root 4096 5月 24 17:11 impala-branch-3.4.0-rw-r--r--. 1 root root 48958262 5月 24 16:08 impala-branch-3.4.0.zip2.编译vi...

2021-05-28 11:18:09 970

原创 OpenLDAP服务安装

参考:https://cloud.tencent.com/developer/article/1100819众所周知Hadoop安全模块不存储用户和用户组信息,而是依赖Linux系统的用户和用户组。同时在集群开启安全认证模式之后,需要映射Kerberos Principle到Linux的用户以及映射用户到用户组。那么随之而来的问题是如何统一管理用户信息。这里统一管理用户信息的方式有多种(如OpenLDAP、AD等等),在前面Fayson介绍了如何在Redhat6中安装OpenLDAP,本篇文章主要...

2021-04-29 13:49:10 655 1

原创 Centos7 搭建openldap

[root@myc-test ~]# lsb_release -aLSB Version: :core-4.1-amd64:core-4.1-noarch:cxx-4.1-amd64:cxx-4.1-noarch:desktop-4.1-amd64:desktop-4.1-noarch:languages-4.1-amd64:languages-4.1-noarch:printing-4.1-amd64:printing-4.1-noarchDistributor ID: CentOSDescrip.

2021-04-28 12:56:44 688

原创 CDH6.3.2 + Ranger2.1集成 以及hadoop插件安装

此文档是关于CDH6.3.1 + Ranger2.1的集成源码编译详见:https://www.freesion.com/article/72991387429/安装ranger-admin解压ranger-2.0.0-admin.tar.gz并编辑install.propertiesSQL_CONNECTOR_JAR=/usr/share/java/mysql-connector-java.jar#使用mysql作为数据缓存db_root_user=root #mysq.

2021-04-25 10:49:39 6239 5

转载 kafka producer 生产者客户端参数配置

acks = all         #指定分区中有多少副本必须收到这条消息,生产者才认为这条消息发送成功 acks = 0      #生产者发送消息之后不需要等待任何服务端的响应 acks = 1    #只要分区的leader副本成功写入消息,那么它就会收到服务端的成功响应 acks = -1 或all   #生产者在发送消息之后,需要等待ISR中的所有副本都成功写入消息之后,才能够收到来自服务端的成功响应。 batch.siz...

2020-07-16 19:35:07 327

转载 HBase分析之用户机制

HBase的用户机制和Hadoop的用户机制是一样的。但对刚接触的人来说,相当的隐蔽,启动HBase不用设置用户名、密码,连接HBase也不需要设置用户名、密码。但HBase(实质上是Hadoop)提供了默认的用户来执行操作。超级用户 如果没有特意配置,那么HBase会选择启动HBase的系统用户作为超级用户。如果需要改变超级用户,可通过修改hbase-site.xml来配置,加入hbase...

2020-03-25 11:42:03 1339

原创 Hive表删除表中指定数据

1.分区表删除具体partitionalter table table_name drop partition(partiton_name='xxx'))删除具体partition的部分数据INSERT OVERWRITE TABLE table_name PARTITION(year='2018') SELECT * FROM table_name WHERE ...

2019-12-25 16:45:37 8720

转载 Azure Event Hub 技术研究系列2-发送事件到Event Hub

转自:https://www.cnblogs.com/tianqing/p/6865046.html上篇博文中,我们介绍了Azure Event Hub的一些基本概念和架构:Azure Event Hub 技术研究系列1-Event Hub入门篇本篇文章中,我们继续深入研究,了解Azure Event Hub的创建、编程SDK,实现将事件发送到云端的Azure Event Hub...

2019-07-23 15:53:46 1037

转载 Azure Event Hub 技术研究系列1-Event Hub入门篇

转载自:https://www.cnblogs.com/tianqing/p/6839149.htmlAzure Event Hub的官方介绍:1.Azure 事件中心是超大规模的遥测引入服务,可收集、传输和存储数以百万的事件2.从网站、应用和任何数据流引入云端大规模的遥测数据,进行流式处理和分析可以看出,Azure Event Hub是一个数据的云端接入服务。我们上面的博客中...

2019-07-23 15:52:25 1185

原创 kudu表数据的导入导出

一、kudu数据导出到文件例:impala-shell -l -u xuyi --auth_creds_ok_in_clear -q "select sms_content from warehouse.restart where eventId='filtrate_inbox_sms_delete_sms' " -B --output_delimiter=“,” --print_he...

2019-06-04 09:50:01 3341

原创 JAVA12启用ShenandoahGC

要启用/使用Shenandoah GC,需要以下JVM选项:-XX:+UnlockExperimentalVMOptions -XX:+UseShenandoahGC更多关于调整Shenandoah GC参数的信息,请参考Shenandoah wiki页面。

2019-05-28 18:23:40 807

转载 Java 11新特性概述

转自:http://www.52im.net/article-340-1.html 概述 美国时间2018年09 月 25 日,Oralce 正式发布了 Java 11,这是 Java 8 发布以后支持的首个长期版本。 为什么说是长期版本,看下面的官方发布的支持路线图表: 可以看出 Java 8 扩展支持到 2025 ...

2019-05-22 14:35:42 245

原创 springboot引用外部jar包并打包成jar程序运行

一、引用外部jar包1、在项目中建一个目录并将外部jar包拷贝进去,此处新建目录名为libs2、加入进去的外部jar还是压缩包,要解压一下,如下在Libraries添加java,将libs下的jar包都加进去,此时外部jar就解压完可用了,每个jar包解压完会带有下拉箭头,像上图一样:二、关于程序打包把外部jar包打包进去pom.xml将每个外部jar包以以下形式依赖进去,...

2019-03-01 15:30:43 4342 2

转载 airflow-api 插件的安装与使用介绍

本文转自:https://www.cnblogs.com/ZhangShY/p/10082994.html原文存在错误,使得本人踩了一天的坑,现纠正如下。学习过程可参考https://github.com/teamclairvoyant/airflow-rest-api-plugin1. 安装插件airflow-rest-api1)获取wget https://github.com/...

2019-02-19 16:24:21 1452

转载 shell脚本对空格的严格规定

shell 脚本中 空格的注意问题:= 赋值两边不能有空格,而if比较判断时 = 两边必须加空格shell脚本对空格有严格的规定,赋值语句等号两边不能有空格,而字符串比较,等号两边必须有空格赋值时: i=1    i=$((i+1))                   //    =用作赋值时,两边绝对不能有空格比较时: if [ $a = $b ]       // =用作比较...

2019-02-14 17:06:28 3095

转载 防反射和反序列化破解单例模式

破解代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29...

2019-01-11 19:04:22 125

转载 Mysql和Redis查询速度的对比

“在软件系统中,IO速度比内存速度慢,IO读写在很多情况下会是系统的瓶颈,我们也知道Redis的查询速度比直接查数据库要快,因为Redis将数据存在内存中,而mysql的查询是执行IO操作。那么他们之间到底有多大的差距呢?”实例首先我们看一张图片: 我想大家都很熟悉这张图片,打开网页调试,在日常工作中应该是很频繁的,但是你是否注意到这张图? 这张图上面有很多时间数据...

2019-01-10 19:00:03 15537 1

转载 azkaban编译安装配置文档

参考官方文档: http://azkaban.github.io/azkaban/docs/latest/azkaban的配置文件说明:http://azkaban.github.io/azkaban/docs/latest/#configuration本文挡主要参考azkaban的官方文档。在azkaban3.0 以后的版本,提供了3中安装模式。单 solo-server mode,...

2019-01-10 14:24:26 331 1

转载 Kudu+Impala介绍

转自:http://www.360doc.com/content/18/0913/16/59691344_786386910.shtmlKudu+Impala介绍概述Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Im...

2018-09-13 16:44:00 12946 1

原创 sql with as 用法

  WITH AS短语,也叫做子查询部分(subquery factoring),如果WITH AS短语所定义的表名被调用两次以上,则优化器会自动将WITH AS短语所获取的数据放入一个TEMP表里,如果只是被调用一次,则不会。将WITH AS短语里的数据放入一个全局临时表里。很多查询通过这种方法都可以提高速度。with cr as( select CountryRegionCode from...

2018-08-04 14:01:36 1502

转载 impala 和 kudu

1. impala(官网)实时交互SQL大数据查询工具 它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 Impala的最大特点也是最大卖点就是它的快速。 Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式 通过使用与商用并行关系数据库中类似的分布式查询引擎,可以直接从HDFS或HBase中用SELECT、JOIN和统...

2018-08-01 14:24:03 1919

转载 使用Spark Streaming + Kudu + Impala构建一个预测引擎

 Spark Streaming Impala  随着用户使用天数的增加,不管你的业务是扩大还是缩减了,为什么你的大数据中心架构保持线性增长的趋势?很明显需要一个稳定的基本架构来保障你的业务线。当你的客户处在休眠期,或者你的业务处在淡季,你增加的计算资源就处在浪费阶段;相对应地,当你的业务在旺季期,或者每周一每个人对上周的数据进行查询分析,有多少次你忒想拥有额外的计算资源。根据需求水平...

2018-08-01 10:42:44 768

转载 HBase region的split

转自:https://www.aliyun.com/jiaocheng/811424.html可以这样理解region和hbase的架构: 1、Table在行的方向上分割为多个Region; 2、Region按大小分割的,每个表开始只有一个region,随着数据增多,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region,之后会有越来越多的region; 3、...

2018-07-22 18:37:36 3662

转载 Flume Sink Group

Sink组为了消除数据处理管道中的单点故障,Flume可以使用负载平衡或故障转移策略,将event发送到不同的sink。sink组是用来创建逻辑上的一组sink。这个组的行为是由sink处理器来决定的,它决定了event的路由策略。agent.sinkgroups=sg1名叫”agent”的agent定义了一个sink的组叫sg1.agent.sinkgroups.sg1.sink...

2018-07-22 17:40:32 2493

转载 Spark集群高可用HA配置

Spark集群高可用HA配置转自:https://www.cnblogs.com/nswdxpg/p/8528980.html本文中的Spark集群包含三个节点,分别是Master,Worker1,Worker2。1、在Master机器上安装Zookeeper,本文安装在/usr/etc目录下2、在Master机器配置Zookeeper  2.1、cp /usr/etc/zoo...

2018-07-22 15:29:01 223

原创 spark用scala读取hive表数据

spark1.6写法:    val conf = new SparkConf()     val sc = new SparkContext(conf)    val hiveContext = new HiveContext(sc)    // 指定hive中使用的数据库;    hiveContext.sql("use abc_hive_db")    //执行hive查询...

2018-07-20 16:59:01 14745 2

转载 mapreduce编程模型之hbase表作为数据源输入输出

package cn.luxh.app;      import java.io.IOException;   import java.util.StringTokenizer;      import org.apache.hadoop.conf.Configuration;   import org.apache.hadoop.hbase.HBaseConfiguration;  ...

2018-07-19 13:29:25 638

转载 ELK原理与介绍

转自:https://www.cnblogs.com/aresxin/p/8035137.html为什么用到ELK:一般我们需要进行日志分析场景:直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景中,此方法效率低下,面临问题包括日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询。需要集中化的日志管理,所有服务器上的日志收集汇总。常见解决思路是建立集中式日志...

2018-07-16 21:32:48 190

转载 Spark createDirectStream 维护 Kafka offset(Scala)

转自:https://www.cnblogs.com/zhangtianyuan/p/8483082.htmlcreateDirectStream方式需要自己维护offset,使程序可以实现中断后从中断处继续消费数据。KafkaManager.scala1234567891011121314151617181920212223242526272829303132333435363738394041...

2018-07-14 09:32:09 621

转载 快速排序

转自:http://developer.51cto.com/art/201403/430986.htm高快省的排序算法有没有既不浪费空间又可以快一点的排序算法呢?那就是“快速排序”啦!光听这个名字是不是就觉得很高端呢。假设我们现在对“6  1  2 7  9  3  4  5 10  8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数(不要被这个名词吓到了,就是一个用来参照的数,待会...

2018-07-12 22:17:12 71

转载 createStream和createDirectStream的区别

1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费者api,对于所有的receivers接收到的数据将会保存在spark executors中,然后通过Spa...

2018-07-08 17:20:14 4296

转载 hbase列族作用 HBASE列族不能太多的原因

hbase列族作用 HBASE列族不能太多的原因 来源: 昆山拓天信息网责任编辑:小sHRegionServer内部管理了一系列HRegion对象,每个HRegion对 应了table中的一个region,HRegion中由多 个HStore组成。每个HStore对应了Table中的一个column family的存储,可以看出每个columnfamily其实就是一个集中的存储单元,因此最好将具备...

2018-07-06 21:14:43 4351

转载 kafka配置参数

kafka配置参数详解【收藏】3.1      Broker  Configs基本配置如下:-broker.id-log.dirs-zookeeper.connectTopic-level配置以及其默认值将在下面讨论。PropertyDefaultDescriptionbroker.id 每个broker都可以用一个唯一的非负整数id进行标识;这个id可以作为broker的“名字”,并且它的存在使...

2018-07-06 19:05:44 178

转载 SparkStreaming参数配置

2018-07-06 17:16:24 1098

转载 kafka offset的存储

转自:https://www.cnblogs.com/smartloli/p/6266453.html之前版本,Kafka其实存在一个比较大的隐患,就是利用 Zookeeper 来存储记录每个消费者/组的消费进度。目前,Kafka 官网已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。它实现的原理是:利用 Kafka 自身的 Top...

2018-05-31 10:23:42 1152

airFlow的安装使用以及参数说明.docx

定时任务airflow工具的安装使用以及如何进行配置,参数的说明等

2019-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除