wjmmjr1-CSDN博客

原创 cassandra安装及配置

apache cassandra的配置及安装

2022-12-06 15:10:27 1466

安装HIVE插件只对使用JDBC方式访问HIVE的请求进行权限管理，HIVE-CLI不受限制！解压文件ranger-2.1.0-hive-plugin.tar.gz并修改install.properties文件#ranger admin的路径POLICY_MGR_URL=http://cdh04:6080#hive服务名称REPOSITORY_NAME=hivedev#hive的安装路径COMPONENT_INSTALL_DIR_NAME=/opt/cloudera/parcels/CDH/

2021-05-28 11:29:41 1858 5

原创 Ranger集成CDH impala3.4

CM的impala配置如下：server-name的值为ranger-hive插件所在的节点，impala要去此节点读取策略在启动impala时加载ranger相关文件，如xasecure-audit.xml文件等，可将hive配置文件目录的xasecure-audit.xml等文件加载到impala相关进程的配置文件目录中（所有impala节点都需修改）如图，添加内容：重启Impala服务...

2021-05-28 11:22:34 1072 1

原创 CDH Impala3.2升级到Impala3.4

1.下载下载impala-branch-3.4.0.zip，并上传到Linux解压[root@bd-offcn-02 impala]# unzip impala-branch-3.4.0drwxr-xr-x. 24 root root 4096 5月 24 17:11 impala-branch-3.4.0-rw-r--r--. 1 root root 48958262 5月 24 16:08 impala-branch-3.4.0.zip2.编译vi...

2021-05-28 11:18:09 970

原创 OpenLDAP服务安装

参考:https://cloud.tencent.com/developer/article/1100819众所周知Hadoop安全模块不存储用户和用户组信息，而是依赖Linux系统的用户和用户组。同时在集群开启安全认证模式之后，需要映射Kerberos Principle到Linux的用户以及映射用户到用户组。那么随之而来的问题是如何统一管理用户信息。这里统一管理用户信息的方式有多种（如OpenLDAP、AD等等），在前面Fayson介绍了如何在Redhat6中安装OpenLDAP，本篇文章主要...

2021-04-29 13:49:10 655 1

原创 Centos7 搭建openldap

[root@myc-test ~]# lsb_release -aLSB Version: :core-4.1-amd64:core-4.1-noarch:cxx-4.1-amd64:cxx-4.1-noarch:desktop-4.1-amd64:desktop-4.1-noarch:languages-4.1-amd64:languages-4.1-noarch:printing-4.1-amd64:printing-4.1-noarchDistributor ID: CentOSDescrip.

2021-04-28 12:56:44 688

原创 CDH6.3.2 + Ranger2.1集成以及hadoop插件安装

此文档是关于CDH6.3.1 + Ranger2.1的集成源码编译详见：https://www.freesion.com/article/72991387429/安装ranger-admin解压ranger-2.0.0-admin.tar.gz并编辑install.propertiesSQL_CONNECTOR_JAR=/usr/share/java/mysql-connector-java.jar#使用mysql作为数据缓存db_root_user=root #mysq.

2021-04-25 10:49:39 6239 5

转载 kafka producer 生产者客户端参数配置

acks = all　　　　　　　　　#指定分区中有多少副本必须收到这条消息，生产者才认为这条消息发送成功 acks = 0　　　　　　#生产者发送消息之后不需要等待任何服务端的响应 acks = 1 　　　#只要分区的leader副本成功写入消息，那么它就会收到服务端的成功响应 acks = -1 或all 　 #生产者在发送消息之后，需要等待ISR中的所有副本都成功写入消息之后，才能够收到来自服务端的成功响应。 batch.siz...

2020-07-16 19:35:07 327

转载 HBase分析之用户机制

HBase的用户机制和Hadoop的用户机制是一样的。但对刚接触的人来说，相当的隐蔽，启动HBase不用设置用户名、密码，连接HBase也不需要设置用户名、密码。但HBase（实质上是Hadoop）提供了默认的用户来执行操作。超级用户如果没有特意配置，那么HBase会选择启动HBase的系统用户作为超级用户。如果需要改变超级用户，可通过修改hbase-site.xml来配置，加入hbase...

2020-03-25 11:42:03 1339

原创 Hive表删除表中指定数据

1.分区表删除具体partitionalter table table_name drop partition(partiton_name='xxx'))删除具体partition的部分数据INSERT OVERWRITE TABLE table_name PARTITION(year='2018') SELECT * FROM table_name WHERE ...

2019-12-25 16:45:37 8720

转载 Azure Event Hub 技术研究系列2-发送事件到Event Hub

转自：https://www.cnblogs.com/tianqing/p/6865046.html上篇博文中，我们介绍了Azure Event Hub的一些基本概念和架构：Azure Event Hub 技术研究系列1-Event Hub入门篇本篇文章中，我们继续深入研究，了解Azure Event Hub的创建、编程SDK，实现将事件发送到云端的Azure Event Hub...

2019-07-23 15:53:46 1037

转载 Azure Event Hub 技术研究系列1-Event Hub入门篇

转载自：https://www.cnblogs.com/tianqing/p/6839149.htmlAzure Event Hub的官方介绍：1.Azure 事件中心是超大规模的遥测引入服务，可收集、传输和存储数以百万的事件2.从网站、应用和任何数据流引入云端大规模的遥测数据，进行流式处理和分析可以看出，Azure Event Hub是一个数据的云端接入服务。我们上面的博客中...

2019-07-23 15:52:25 1185

原创 kudu表数据的导入导出

一、kudu数据导出到文件例：impala-shell -l -u xuyi --auth_creds_ok_in_clear -q "select sms_content from warehouse.restart where eventId='filtrate_inbox_sms_delete_sms' " -B --output_delimiter=“,” --print_he...

2019-06-04 09:50:01 3341

原创 JAVA12启用ShenandoahGC

要启用/使用Shenandoah GC，需要以下JVM选项：-XX:+UnlockExperimentalVMOptions -XX:+UseShenandoahGC更多关于调整Shenandoah GC参数的信息，请参考Shenandoah wiki页面。

2019-05-28 18:23:40 807

转载 Java 11新特性概述

转自：http://www.52im.net/article-340-1.html 概述美国时间2018年09 月 25 日，Oralce 正式发布了 Java 11，这是 Java 8 发布以后支持的首个长期版本。为什么说是长期版本，看下面的官方发布的支持路线图表：可以看出 Java 8 扩展支持到 2025 ...

2019-05-22 14:35:42 245

原创 springboot引用外部jar包并打包成jar程序运行

一、引用外部jar包1、在项目中建一个目录并将外部jar包拷贝进去，此处新建目录名为libs2、加入进去的外部jar还是压缩包，要解压一下，如下在Libraries添加java,将libs下的jar包都加进去，此时外部jar就解压完可用了，每个jar包解压完会带有下拉箭头，像上图一样：二、关于程序打包把外部jar包打包进去pom.xml将每个外部jar包以以下形式依赖进去，...

2019-03-01 15:30:43 4342 2

转载 airflow-api 插件的安装与使用介绍

本文转自：https://www.cnblogs.com/ZhangShY/p/10082994.html原文存在错误，使得本人踩了一天的坑，现纠正如下。学习过程可参考https://github.com/teamclairvoyant/airflow-rest-api-plugin1. 安装插件airflow-rest-api1）获取wget https://github.com/...

2019-02-19 16:24:21 1452

转载 shell脚本对空格的严格规定

shell 脚本中空格的注意问题：= 赋值两边不能有空格，而if比较判断时 = 两边必须加空格shell脚本对空格有严格的规定，赋值语句等号两边不能有空格，而字符串比较，等号两边必须有空格赋值时： i=1　　　　i=$((i+1)) // =用作赋值时，两边绝对不能有空格比较时： if [ $a = $b ] 　　// =用作比较...

2019-02-14 17:06:28 3095

转载防反射和反序列化破解单例模式

破解代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29...

2019-01-11 19:04:22 125

转载 Mysql和Redis查询速度的对比

“在软件系统中,IO速度比内存速度慢,IO读写在很多情况下会是系统的瓶颈，我们也知道Redis的查询速度比直接查数据库要快，因为Redis将数据存在内存中，而mysql的查询是执行IO操作。那么他们之间到底有多大的差距呢？”实例首先我们看一张图片：我想大家都很熟悉这张图片，打开网页调试，在日常工作中应该是很频繁的，但是你是否注意到这张图？这张图上面有很多时间数据...

2019-01-10 19:00:03 15537 1

转载 azkaban编译安装配置文档

参考官方文档: http://azkaban.github.io/azkaban/docs/latest/azkaban的配置文件说明：http://azkaban.github.io/azkaban/docs/latest/#configuration本文挡主要参考azkaban的官方文档。在azkaban3.0 以后的版本，提供了3中安装模式。单 solo-server mode，...

2019-01-10 14:24:26 331 1

转载 Kudu+Impala介绍

转自：http://www.360doc.com/content/18/0913/16/59691344_786386910.shtmlKudu+Impala介绍概述Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储，在支持高并发低延迟kv查询的同时，还保持良好的Scan性能，该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Im...

2018-09-13 16:44:00 12946 1

原创 sql with as 用法

WITH AS短语，也叫做子查询部分（subquery factoring）,如果WITH AS短语所定义的表名被调用两次以上，则优化器会自动将WITH AS短语所获取的数据放入一个TEMP表里，如果只是被调用一次，则不会。将WITH AS短语里的数据放入一个全局临时表里。很多查询通过这种方法都可以提高速度。with cr as( select CountryRegionCode from...

2018-08-04 14:01:36 1502

转载 impala 和 kudu

1. impala（官网）实时交互SQL大数据查询工具它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 Impala的最大特点也是最大卖点就是它的快速。 Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式通过使用与商用并行关系数据库中类似的分布式查询引擎，可以直接从HDFS或HBase中用SELECT、JOIN和统...

2018-08-01 14:24:03 1919

转载使用Spark Streaming + Kudu + Impala构建一个预测引擎

Spark Streaming Impala 随着用户使用天数的增加，不管你的业务是扩大还是缩减了，为什么你的大数据中心架构保持线性增长的趋势？很明显需要一个稳定的基本架构来保障你的业务线。当你的客户处在休眠期，或者你的业务处在淡季，你增加的计算资源就处在浪费阶段；相对应地，当你的业务在旺季期，或者每周一每个人对上周的数据进行查询分析，有多少次你忒想拥有额外的计算资源。根据需求水平...

2018-08-01 10:42:44 768

转载 HBase region的split

转自：https://www.aliyun.com/jiaocheng/811424.html可以这样理解region和hbase的架构: 1、Table在行的方向上分割为多个Region; 2、Region按大小分割的,每个表开始只有一个region,随着数据增多,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region,之后会有越来越多的region; 3、...

2018-07-22 18:37:36 3662

转载 Flume Sink Group

Sink组为了消除数据处理管道中的单点故障，Flume可以使用负载平衡或故障转移策略，将event发送到不同的sink。sink组是用来创建逻辑上的一组sink。这个组的行为是由sink处理器来决定的，它决定了event的路由策略。agent.sinkgroups=sg1名叫”agent”的agent定义了一个sink的组叫sg1.agent.sinkgroups.sg1.sink...

2018-07-22 17:40:32 2493

转载 Spark集群高可用HA配置

Spark集群高可用HA配置转自：https://www.cnblogs.com/nswdxpg/p/8528980.html本文中的Spark集群包含三个节点，分别是Master,Worker1,Worker2。1、在Master机器上安装Zookeeper,本文安装在/usr/etc目录下2、在Master机器配置Zookeeper　　2.1、cp /usr/etc/zoo...

2018-07-22 15:29:01 223

原创 spark用scala读取hive表数据

spark1.6写法： val conf = new SparkConf() val sc = new SparkContext(conf) val hiveContext = new HiveContext(sc) // 指定hive中使用的数据库; hiveContext.sql("use abc_hive_db") //执行hive查询...

2018-07-20 16:59:01 14745 2

转载 mapreduce编程模型之hbase表作为数据源输入输出

package cn.luxh.app; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; ...

2018-07-19 13:29:25 638

转载 ELK原理与介绍

转自：https://www.cnblogs.com/aresxin/p/8035137.html为什么用到ELK：一般我们需要进行日志分析场景：直接在日志文件中 grep、awk 就可以获得自己想要的信息。但在规模较大的场景中，此方法效率低下，面临问题包括日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询。需要集中化的日志管理，所有服务器上的日志收集汇总。常见解决思路是建立集中式日志...

2018-07-16 21:32:48 190

转载 Spark createDirectStream 维护 Kafka offset（Scala）

转自：https://www.cnblogs.com/zhangtianyuan/p/8483082.htmlcreateDirectStream方式需要自己维护offset，使程序可以实现中断后从中断处继续消费数据。KafkaManager.scala1234567891011121314151617181920212223242526272829303132333435363738394041...

2018-07-14 09:32:09 621

转载快速排序

转自：http://developer.51cto.com/art/201403/430986.htm高快省的排序算法有没有既不浪费空间又可以快一点的排序算法呢？那就是“快速排序”啦！光听这个名字是不是就觉得很高端呢。假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数（不要被这个名词吓到了，就是一个用来参照的数，待会...

2018-07-12 22:17:12 71

转载 createStream和createDirectStream的区别

1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据，利用的是Kafka高层次的消费者api，对于所有的receivers接收到的数据将会保存在spark executors中，然后通过Spa...

2018-07-08 17:20:14 4296

转载 hbase列族作用 HBASE列族不能太多的原因

hbase列族作用 HBASE列族不能太多的原因来源：昆山拓天信息网责任编辑：小sHRegionServer内部管理了一系列HRegion对象，每个HRegion对应了table中的一个region，HRegion中由多个HStore组成。每个HStore对应了Table中的一个column family的存储，可以看出每个columnfamily其实就是一个集中的存储单元，因此最好将具备...

2018-07-06 21:14:43 4351

转载 kafka配置参数

kafka配置参数详解【收藏】3.1 Broker Configs基本配置如下：-broker.id-log.dirs-zookeeper.connectTopic-level配置以及其默认值将在下面讨论。PropertyDefaultDescriptionbroker.id 每个broker都可以用一个唯一的非负整数id进行标识；这个id可以作为broker的“名字”，并且它的存在使...

2018-07-06 19:05:44 178

转载 SparkStreaming参数配置

2018-07-06 17:16:24 1098

转载 kafka offset的存储

转自：https://www.cnblogs.com/smartloli/p/6266453.html之前版本，Kafka其实存在一个比较大的隐患，就是利用 Zookeeper 来存储记录每个消费者/组的消费进度。目前，Kafka 官网已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。它实现的原理是：利用 Kafka 自身的 Top...

2018-05-31 10:23:42 1152

airFlow的安装使用以及参数说明.docx

空空如也