3 sheep8521

尚未进行身份认证

我要认证

让优秀成为一种习惯

等级
TA的排名 3w+

HIVE实战处理(七) hive 新增字段 联级(cascade)

问题描述:实际应用中,常常存在修改数据表结构的需求,比如:增加一个新字段。如果使用一般的add columns(col1 string)的语句增加字段的话,对于旧分区中的col1将为空且无法更新,即便insert overwrite该分区也不会生效。1、准备一个分区表test_partition2、测试数据新增字段alter table temp.test_partition add columns (hour string);3、插入数据插入失败,所以原来的插入方式对以前分分区是不生

2020-08-06 10:50:19

Git的常用统计技巧

GIT的统计功能--1、统计某时间范围的提交代码git log --since=2020-07-01 --until=2020-07-31 --pretty=tformat: --numstat | awk '{ add += $1; subs += $2; loc += $1 - $2 } END { printf "added lines: %s, removed lines: %s, total lines: %s\n", add, subs, loc }'--2、统计某个人时间范围的提交代码

2020-08-04 09:44:35

HIVE实战处理(五) hive json map格式的数据组装

一、前言在做数据聚合整理的时候,存在需要将同一ID的多列,合并成一个json,通过collcet_Set手动拼接json,手动效率不高,而且内置的UDF有连接符,最后生成的json格式怎么调试都不对,本想自己写UDF生成json,google后找到存在的UDF函数,先做以下记录:HiveUDF添加主要分成两种方式1、重编译Hive源码添加:添加UDF可以在Hive源码中增加新的UDF类,然后在一个FunctionRegistry类中注册,重编译Hive然后使用。2、通过命令行添加:独立开发UDF,

2020-07-08 17:34:37

hive到Hbase映射方式(二)——使用hbase的ImportTsv(不支持跨集群)

一、前言本文是为了记录工作中用到的技术方案,为了把同一个集群的hive中的表导入到hbase表的。二.技术方案1、准备hive表数据1)hive的表数据create table adm.adm_2ndline_user_visit_1h_delta_hourly( statis_day string, search_time string,

2020-07-08 16:37:32

Oracle中number类型经过类型转换之后小数点前的0消失了

```bashselect to_char(round(50/342),’‘fm9999999990.00’) || ‘KB’ from dual;

2020-05-22 19:17:38

计算机专业英语词汇1695词(35天记忆)

<link href="https://csdnimg.cn/public/favicon.ico" rel="SHORTCUT ICON"><title>计算机专业英语词汇1695词(35天记忆)_Until_U的博客-CSDN博客</title><meta name="description" content="计算...

2020-05-19 14:19:18

Kettle实战(一)从Hbase导入数据至Mysql

一、连接Hadoop集群与MySQL1、 下载当前集群的Hbase配置文件,首先你的有下载的权限。2 解压改配置文件至cdh510目录下3 修改D:\kettle\data-integration\plugins\pentaho-big-data-plugin下plugin.properties配置4 在Kettle中配置Hadoop集群在测试连接后会发现User Home Directory Access 和 Root Directory Access 是报错的,这个可能是因为我们是在

2020-05-15 13:47:06

HIVE实战处理(四)大数据量导入hive动态分区异常处理

动态分区的异常Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions.The maximum number of dynamic parti...

2020-05-07 16:11:35

HIVE实战处理(六)hive的压缩格式以及压缩文件导入hive实战

一、存储行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。列存储的特点: 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。Hive中常用的存储格式:1....

2020-05-06 19:19:14

Kettle部署文档

一、简单介绍Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个...

2020-04-17 13:51:52

HIVE实战处理(二)hive、hbase、phoenix实战

数据从1、准备hive数据2、phoenix数据-- 添加HIVE对接PHOENIX的JARadd jar hdfs://ns1/user/hadoop/hive_udf/phoenix-core-4.7.1-HBase-1.1-SNAPSHOT.jar;add jar hdfs://ns1/user/hadoop/hive_udf/phoenix-hive-4.7.1-HBase-1....

2020-04-15 13:26:53

HIVE实战处理(三)beeline和hive的区别

1、二、实战1、准备hive数据2、phoenix数据-- 添加HIVE对接PHOENIX的JARadd jar hdfs://ns1/user/hadoop/hive_udf/phoenix-core-4.7.1-HBase-1.1-SNAPSHOT.jar;add jar hdfs://ns1/user/hadoop/hive_udf/phoenix-hive-4.7.1-HBas...

2020-04-15 12:55:04

kettle生产应用之(一)hive2oracle的流程化操作以及oracle的页面展示

1、准备一个hive分区表数据temp.tmp_adm_label2、登录Oracle客户端file->new->command window创建oracle的执行命令窗口输入sql:desc 表名。点击齿轮形状的按钮,执行代码。2、在orcale页面的命令行创建oracle表create table cdmp_dmt.test_oracle_label(dt ...

2020-04-10 19:57:16

oracle数据BUG系列之(一) unable to extend table SYS.AUD$ by 8192 in tablespace SYSTEM

今天在调项目的时候,突然报了这样一个错误 :具体错误信息如下:WARN – com.mchange.v2.resourcepool.BasicResourcePool$AcquireTask@1a78424 — Acquisition Attempt Failed!!! Clearing pending acquires. While trying to acquire a needed ne...

2020-03-31 20:49:26

网络学习系列之(一)四、七层负载均衡

一、网络二到七层负载均衡1、网络七层协议(二到七层含义)所谓四层即运输层,就是基于 IP + 端口的负载均衡;七层即应用层,就是基于 URL 等应用层信息的负载均衡;同理,还有基于 MAC 地址的二层负载均衡和基于 IP 地址的三层负载均衡。换句换说,二层负载均衡会通过一个虚拟 MAC 地址接收请求,然后再分配到真实的 MAC 地址;三层负载均衡会通过一个虚拟 IP 地址接收请求,然...

2020-03-27 20:13:14

kafka执行工具系列之(一)原生的kafka的脚本

原生 kafka 提供的工具脚本:一、所有工具脚本的位置:[root@master my_bin]# cd $KAFKA_HOME [root@master kafka]# cd bin/[root@master bin]# ll总用量 116-rwxr-xr-x. 1 root root 1052 8月 4 2016 connect-distributed.sh-rwxr-xr...

2020-03-26 19:35:40

kafka执行工具系列之(一)原生的kafka的脚本

1、实际生产kafka相关:/home/migu/kafka/kafka_2.11-0.8.2.2/bin/kafka-consumer-offset-checker.sh --zookeeper 10.150.36.222:2181 --topic filter_session_start --group logProcessor-product

2020-03-26 19:30:29

mysql基本操作系列之(一)增删改查

一、数据库管理和存储引擎MySQL是一个关系型数据库管理系统,存储引擎是数据库管理系统用来从数据库创建、读取和更新数据的软件模块。常用的存储引擎:1)INNODB存储格式:.frm(表结构),数据和索引存储在表空间里,支持事务和回滚,读写效率低,占用空间大2)MYISAM存储格式: .frm(表结构).myd- 数据.myi-索引,占用空间小,读写效率高, 不支持事务3)...

2020-03-11 15:23:21

kafka原理系列之(六)如何动态修改Kafka Topic的分区副本数

一、内容简介Kafka提供了一个工具,用于调整Topic中各个分区的复本数据。工具名称叫kafka-reassign-partitions.sh。创建一个Topic,共2个分区,副本数为2(共2份,含原始数据):查看该Topic。分区0的Leader是1,分区1的Leader是2:本文转载自:http://johng.cn/update-kafka-topic-replicas/,本站转载出...

2020-03-11 10:37:01

kafka原理系列之(五)(如何确定Kafka分区个数)

一. Kafka的分区数是不是越多越好?1、 分区多的优点Kafka使用分区将topic的消息打算到多个分区分布保存在不同的broker上,实现了producer和consumer消息处理的高吞吐量。Kafka的producer和consumer都可以多线程地并行操作,而每个线程处理的是一个分区的数据。因此分区实际上是调优Kafka并行度的最小单元。对于producer而言,它实际上是用...

2020-03-10 18:05:29

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。