- 博客(41)
- 收藏
- 关注
转载 Hive3新特性
Hive ACID v2SQL兼容性约束和代理键物化视图 Hive ACID v2Hive3的ACID v2相比Hive2的ACID v1,对很多事务的特性进行了优化升级,使之更接近于关系型数据库。使用ACID语义修改现有Hive表数据,包括insert, update, delete, merge支持数据库四大特性, Atomicity, Consistency, Isolation, Durability允许在使用长时间运行的分析查询同时进行并发更新。使用MVCC(Multi-Version
2021-08-27 09:47:10 652
翻译 Creating the Principals and Keytab on Active Directory
Active Directory存储关于Windows域成员的信息,包括用户和hosts。verticause使用Kerberos协议来访问这些信息,以便对Windows用户进行Vertica数据库的身份验证。Kerberos协议使用principals 来标识用户,并使用keytab文件来存储用户的密码信息。您需要将keytab文件安装到Vertica中,以使Vertica数据库能够以密码方式对windows用户进行身份验证。这个过程描述:创建Vertica service principal。
2020-05-31 17:23:30 561
翻译 Kerberos Authentication -- Configure JDBC Clients on All Platforms
JDBC客户机上的Kerberos身份验证使用Java身份验证和授权服务(JAAS)获取初始Kerberos凭证。JAAS是一个API框架,它隐藏特定于平台的身份验证细节,并为其他应用程序提供一致的接口。您可以通过JAAS登录配置文件指定客户机登录过程。这个文件包含指定Kerberos的身份验证方法和其他设置的选项。一个名为LoginModule的类在配置文件中定义了有效的选项。JDBC客户端principal 被设计为JDBC -username@server-from-connection-stri
2020-05-31 16:50:16 428
原创 vertica JDBC API 之 VerticaCopyStream
VerticaCopyStream类(有关该类的详细信息可在JDBC文档中找到)允许您将数据从客户机系统传输到Vertica数据库。它允许直接使用SQL COPY语句,而不必首先将数据复制到数据库集群中的主机。使用复制命令从主机加载数据需要超级用户特权才能访问主机的文件系统。用于从流中加载数据的COPY语句不需要超级用户特权,因此您的客户端可以使用在将要接收的表上具有INSERT特权的任何用户帐户进行连接。适用场景: 从数据文件或者inputStream中,批量copy数据到vertica。copy语句可
2020-05-10 11:02:28 875
翻译 vertica 最佳实践之 Reading Query Plans
Reading Query PlansQuery PlansThe EXPLAIN StatementEXPLAIN Output OptionsEXPLAIN ResultsTextual Output for EXPLAINGraphical Output for EXPLAINEXPLAIN LOCAL VERBOSE ResultsEXPLAIN LOCAL VERBOSE的图形输出EXP...
2020-05-03 16:34:28 606
翻译 vertica 最佳实践之 Data Loading in Vertica Using COPY
Data Loading in Vertica Using COPY使用COPY语句批量加载COPY语句如何加载数据加载方式何时使用COPY AUTO何时使用COPY DIRECT何时使用COPY TRICKLE监视数据负载的Vertica系统表调优数据负载资源池参数查询预算如何更改资源池参数数据加载配置参数对负载方案进行故障排除加载大文件将多个小文件加载到同一目标表加载宽表用于加载的execut...
2020-05-03 11:45:52 812
翻译 vertica 最佳实践之 ROS Bundling
ROS BundlingVertica file architectureNew storage formatHow is the new format different?Does the new functionality bundle all projection files?Why is ROS bundling useful?What configuration parameters a...
2020-05-02 22:34:08 453
翻译 vertica最佳实践之 tuple_mover操作
vertica最佳实践之 tuple_mover操作Tuple Mover OverviewTuple Mover Moveout Operation检测wos spillovermoveout最佳实践使用COPY DIRECT加载大数据文件配置参数: MoveOutIntervalWOS中未提交的数据不要将WOS用于大型临时表WOSDATA资源池的maxMemorySize配置参数: Move...
2020-05-02 21:27:00 520
翻译 vertica备份与恢复(二)
vertica备份与恢复(二)文档名词解释将整个群集从源复制到目标群集(Copycluster)如何在相似的Vertica群集之间复制完整群集完整数据库复制的优点和局限性如何在相似的Vertica群集之间复制特定表在相似的Vertica群集之间复制特定表的优点和限制本博客主要介绍相似的vertica集群间数据的备份与恢复。本博客翻译整理自:Copying Data Between Simila...
2020-05-02 17:49:07 269
翻译 vertica备份与恢复(一)
vertica备份与恢复(一)关于vertica备份与恢复的一系列文章翻译整理自:Vertica Backup and Restore: What’s Your Use Case?本篇博文主要介绍当备份集群和恢复集群规模相同的使用场景。翻译整理自:Copy and Restore Data from a Vertica Cluster to a Backup文档名词解释源集群:执行备份的...
2020-05-02 17:24:23 446
翻译 vertica最佳实践之优化projection
文章目录How Vertica Works with ProjectionsHelpful TipsSegmentationEncodingMonitoring ProjectionsOther Projection TasksRefreshing ProjectionMerging ProjectionMaking Projections K-Safe本文翻译自:Best Practic...
2020-05-02 17:02:16 1437
转载 MySQL索引-B+树(看完你就明白了)
文章目录 索引是一种数据结构,用于帮助我们在大量数据中快速定位到我们想要查找的数据。索引最形象的比喻就是图书的目录了。注意这里的大量,数据量大了索引才显得有意义,如果我想要在 [1,2,3,4] 中找到 4 这个数据,直接对全数据检索也很快,没有必要费力气建索引再去查找。索引在 MySQL 数据库中分三类:B+ 树索引Hash 索引全文索引我们今天要介绍的是工作开发中最常接...
2020-03-10 22:43:02 472
原创 各种类型的Writable
各种类型的Writable(Text、ByteWritable、NullWritable、ObjectWritable、GenericWritable、ArrayWritable、MapWritable、SortedMapWritable) java原生类型除char类型以外,所有的原生类型都有对应的Writable类,并且通过get和set方法可以他们的值。IntWritable和...
2020-02-19 20:52:29 2255
原创 spring boot jpa学习笔记(一)
文章目录Jpa 是什么spring boot jpa 能做什么基本查询复杂查询自定义SQL操作常用注解yml配置
2020-02-11 16:06:32 712 2
原创 springboot整合Thymeleaf详解
Thymeleaf介绍简单说, Thymeleaf 是一个跟 Velocity、FreeMarker 类似的模板引擎,它可以完全替代 JSP 。相较与其他的模板引擎,它有如下三个极吸引人的特点:Thymeleaf 在有网络和无网络的环境下皆可运行,即它可以让美工在浏览器查看页面的静态效果,也可以让程序员在服务器查看带数据的动态页面效果。这是由于它支持 html 原型,然后在 html 标签里增...
2020-02-10 22:31:34 449
原创 springboot 注解
Spring MVC相关注解Spring MVC相关注解解释@Controller声明该类为SpringMVC中的Controller,用来处理http请求@RestController组合注解,@Controller + @ResponseBody.意味着,该Controller的所有方法都默认加上了@ResponseBody@RequestMapping把...
2020-02-10 15:38:46 146
原创 IntelliJ Idea 常用快捷键列表
IntelliJ Idea 常用快捷键列表Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引...
2019-12-28 10:41:44 71
原创 kylin cube 构建优化
随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)、必要维度(Mandatory Dimension)和衍生维度(De...
2019-12-27 17:18:59 336
原创 通过生成大宽表来优化kylin的cube构建
Kylin将Cube构建任务分解为几个依次执行的步骤,这些步骤包括Hive操作、MapReduce操作和其他类型的操作。如果你有很多Cube构建任务需要每天运行,那么你肯定想要减少其中消耗的时间。本文的优化主要是讲kylin对于join连接性能差,需要通过hive 把各数据源join,生成一个中间表(大宽表,把需要的数据都关联到一个表,可以设计成分区表,增量刷新),然后kylin直接以此表作为数据...
2019-12-27 16:33:46 673
原创 Spark 性能调优
由于大多数Spark计算的内存性质,Spark程序可能会受到群集中任何资源(CPU,网络带宽或内存)的瓶颈。通常,如果数据适合内存,则瓶颈是网络带宽,但是有时,您还需要进行一些调整,例如 以序列化形式存储RDD,以减少内存使用量。对于大多数程序,切换到Kryo序列化并以序列化形式保留数据将解决大多数常见的性能问题(官网提示)。1. 常规性能调优一:最优资源配置Spark性能调优的第一步,就是...
2019-12-27 10:14:34 255
原创 Spark的Checkpoint源码和机制
深入浅出Spark的Checkpoint机制1 Overview当第一次碰到 Spark,尤其是 Checkpoint 的时候难免有点一脸懵逼,不禁要问,Checkpoint 到底是什么。所以,当我们在说 Checkpoint 的时候,我们到底是指什么?网上找到一篇文章,说到 Checkpoint,大概意思是检查点创建一个已知的节点,SQL Server 数据库引擎可以在意外关闭或崩溃后从恢...
2019-12-25 22:40:22 202
原创 spark checkpoint基础
翻译自:http://spark.apache.org/docs/2.1.1/streaming-programming-guide.html#checkpointing流应用程序必须24/7运行,因此必须能够抵御与应用程序逻辑无关的故障(例如,系统故障、JVM崩溃等)。为了实现这一点,Spark流需要检查足够多的信息,以便容错存储系统能够从故障中恢复。检查点有两种类型的数据。元数据检查点-将...
2019-12-25 19:51:39 122
转载 Vertica常用操作总结
转载:https://blog.csdn.net/jiangshouzhuang/article/details/34434089 Vertica常用操作总结修改列名称alter table app.DIM_TNES_CELL_RAT rename rat_name to CELL_RAT_NAME;Vertica导出自己测试NOAS252:/tmp/vertica6.1.2# /...
2019-12-25 15:45:57 4926
原创 Vertica集群间数据的导入导出
本文介绍vertica 不同集群间互相导入导出数据。导数据可以是先生成csv的数据文件,然后load 入库,也可以是远程连接到另外一个集群,直接导数据。远程连接导数需要开通防火墙端口。导出数据导出过程分为三个步骤:CONNECT 连接到目标数据库。注意:如果连接的任一端是安装到的单节点群集localhost,则导出操作将失败,或者您未指定主机名或IP地址。EXPORT TO VERT...
2019-12-25 15:30:41 1188
原创 Vertica分区
本文翻译整理自:https://www.vertica.com/docs/9.2.x/HTML/Content/Authoring/AdministratorsGuide/Partitions/PartitioningTables.htm?tocpath=Administrator%27s%20Guide%7CPartitioning%20Tables%7C_____0基础知识vertica的...
2019-12-25 11:41:53 1065
原创 Vertica中的projections
在vertica中,表只是一个逻辑上的概念,其真实数据其实是存储在一个个的projection中。projections以优化查询执行的格式存储数据。与物化视图类似,projections将结果集存储在磁盘上,而不是在每次查询时计算它们。您可以使用新数据或更新数据刷新projections。projections提供以下好处:1.压缩和编码数据以减少存储空间。Vertica尽可能对编码数据进...
2019-12-25 11:10:15 1352
转载 第三篇:数据仓库系统的实现与使用(含OLAP重点讲解)
第三篇:数据仓库系统的实现与使用(含OLAP重点讲解)转载自:https://www.cnblogs.com/muchen/p/5318808.html前言 上一篇重点讲解了数据仓库建模,它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些组件的开发,其中最主要的是ETL工程,在线分析处理工...
2019-12-24 21:59:43 150
转载 第二篇:数据仓库与数据集市建模
第二篇:数据仓库与数据集市建模转载自:https://www.cnblogs.com/muchen/p/5310732.html 前言 数据仓库建模包含了几种数据建模技术,除了之前在数据库系列中介绍过的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。 ...
2019-12-24 21:55:13 182 1
转载 第一篇:数据仓库概述
第一篇:数据仓库概述转载自:https://www.cnblogs.com/muchen/p/5305658.html前言 阅读本文前,请先回答下面两个问题: 1. 数据库和数据仓库有什么区别? 2. 某大公司Hadoop Hi...
2019-12-24 21:52:41 80
原创 hive优化之数据倾斜
什么是数据倾斜map reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,进度条卡在99%这里很久。(spark 程序也是类似,某几个task处理的数据明显比其他task多,而且时间很久)这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很...
2019-12-24 18:15:55 183
原创 hive文件的存储格式
列式存储和行式存储上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。行存适用于对几行或者多行的操作(查询或者更新)。列存储的特点:因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的...
2019-12-24 16:18:59 250
原创 hive使用动态分区插入数据详解
往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,比如etl_dt 、dat_dt日期 (格式为yyyyMMdd 或者yyyy-MM-dd这样)。每天落盘的数据会对应hdfs的一个目录。hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称。1.创建一个单一字段分区表hive> create table dpartition(i...
2019-12-24 14:58:27 2384
原创 真正让你明白Hive参数调优系列2:如何控制reduce个数与参数调优
相比map个数的控制复杂性,reduce个数的设定要相对简单多了,reduce的个数一般最后决定了输出文件的个数,二者相等,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加reduce个数。如果想减少文件个数,也可以手动较少reduce个数(同样可能程序变慢)。但实际开发中,reduce的个数一般通过程序自动推定,而不人为干涉,因为人为控制的话,如果使用不当很容易造成结果...
2019-12-24 10:08:27 1647 1
原创 hive on mr参数配置
MR参数:set mapreduce.job.queuename=queue_name; #设置作业提交队列set hive.execution.engine=mr; #设置计算引擎set mapreduce.map.memory.mb=4096; #设置map内存set mapreduce...
2019-12-23 20:01:58 2227 1
转载 hive on spark参数配置
hive on Spark参数:set spark.master=yarn-cluster; #设置spark提交模式set hive.execution.engine=spark; #设置计算引擎set spark.yarn.queue=queue_name; #设置作业提交队列set spa...
2019-12-23 19:59:13 2838 1
原创 spark 累加器和自定义累加器 (官网介绍)
本文内容来自官网 spark自定义累加器 的apihttp://spark.apache.org/docs/2.1.1/api/scala/index.html#org.apache.spark.util.AccumulatorV2累加器描述http://spark.apache.org/docs/2.1.1/programming-guide.html#accumulators...
2019-12-23 16:53:53 495
原创 spark的rdd,dataframe和dataset对比
1.RDD RDD,全称为 Resilient Distributed Datasets,即分布式数据集,是 Spark 中最基本的数据抽象,它代表一个不可变、 可分区、里面的元素可以并行计算的集合。在Spark 中,对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同的节点上。RDD 可以包含 P...
2019-11-24 12:02:00 431
原创 正则表达式匹配%和_
特别字符 描述 $ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,请使用 \$。 ( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。 * 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。...
2019-11-24 11:21:56 5191
原创 spark rdd dataframe dataset转换
import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, Struc...
2019-11-23 10:56:48 119
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人