自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(204)
  • 收藏
  • 关注

原创 我的Oracle学习之路整理

我的Oracle学习之路整理平常的自学加对大佬分享的记录。中间缺失的天数都没怎么做笔记,什么时候心情好再补上吧(估计得找到女朋友之后吧)。目前持续更新中,至于什么时候停止更新,没看到这句话了,就没更新了。基础Oracle基础知识01Oracle基础知识02Oracle 学习笔记第三天Oracle学习笔记第四天Oracle学习笔记第五天Oracle学习笔记第六天Oracle学习笔...

2019-01-05 11:30:03 365

原创 Oracle 学习之 MODEL

Oracle 学习之 MODEL文章目录Oracle 学习之 MODEL概念官网格式自己用到的简略版格式官网例程练习1. 通过具体的维度进行四则运算2. 直接赋值3. 新生成的字段(左边)中指定范围,使用 <、>、<=、>=4. 数据计算字段(右边) 指定范围5. CV()6. ANY7. 等号左边的维度需要选择一个范围,并且获取到新值8. 设置规则评估的顺序9. nul...

2020-02-05 10:45:29 602

原创 Oracle视图

Oracle视图文章目录Oracle视图视图定义视图的优缺点优点:缺点:视图的分类视图的创建**关系视图**内嵌视图对象视图*物化视图*简单视图的DML操作更改视图更改视图定义视图重新编译删除视图参考博客:Oracle 视图Oracle12C–对象视图(67)注:本博客使用 scott 账号练习,再次之前需要赋予 scott 账号创建 视图的权限(使用SYS用户赋权)。grant cr...

2020-01-16 15:50:40 979

原创 Oracle报错:ORA-00911: invalid character

Oracle报错:ORA-00911: invalid character该错误发生在我创建物化视图时报错。执行环境为PL SQL,Oracle版本为11g。错误重现:-- 代码1CREATE MATERIALIZED VIEW VM1_EMPDISABLE QUERY REWRITEAS SELECT * FROM EMP;-- 代码2CREATE MATERIALIZED ...

2020-01-16 11:50:37 6382

原创 Oracle编程艺术学习笔记—01

Oracle编程艺术学习笔记—01文章目录Oracle编程艺术学习笔记—01环境准备1. 按书中所示,先创建一个eoda用户,并赋予相关权限2. 以 eoda 身份登录,然后创建 SCOTT 用户下的四张表3. 设置每次启动时都启动 DBMS_OUTPUT4. 设置 AUTORACE5. 配置 Statspack6. 安装runstats7. 创建测试表 big_table8. 测试runsta...

2019-12-31 11:47:53 364 1

原创 Oracle 去除字符--TRIM、LTRIM、RTRIM

Oracle 去除字符–TRIM、LTRIM、RTRIM文章目录Oracle 去除字符--TRIM、LTRIM、RTRIM1. TRIM2. LTRIM1. TRIM功能:去除指定位置的指定字符。TRIM([LEADING|TRAILING|BOTH [STRING1] FROM] STRING2)TRIM(STRING2)去除字符串 STRING2 前后的空格。SELECT ...

2019-12-30 13:59:19 5399 1

原创 kettle连接Hive操作

kettle连接Hive操作文章目录kettle连接Hive操作从Hive中下载数据到excel中向Hive中写入数据通过Hadoopcopyfiles作业组件把数据加载到hive数据库中执行Hive的SQL语句从Hive中下载数据到excel中拉出表输入步骤,然后创建一个新的数据库连接,连接上Hive。这里第一次连接时报错,怀疑是Hive没启动,后面在node-1上运行hive发现...

2019-10-08 15:29:25 6336 1

原创 使用kettle从HDFS上 下载、上传文件

使用kettle从HDFS上 下载、上传文件文章目录使用kettle从HDFS上 下载、上传文件1. 从核心对象中找到Big data,拉出 Hadoop file input 步骤,然后输入相关信息。2. 将结果输出到excel中。上传1. 拉出一个excel 输入,和一个 Hadoop file output ,连接起来。然后修改两者。2. 上传报错,发现是没有权限。3. 最终结果下载1...

2019-10-08 15:27:16 845

原创 kettle配置Hadoop环境

kettle配置Hadoop环境文章目录kettle配置Hadoop环境1. 从Hadoop集群上下载 core-site.xml 和 hdfs-site.xml1. 从Hadoop集群上下载 core-site.xml 和 hdfs-site.xml先进入Hadoop的配置文件位置,然后找到 core-site.xml 和 hdfs-site.xml,使用 sz 命令下载下来。cd ...

2019-10-08 15:24:49 1634 1

原创 Hive调优

Hive调优文章目录Hive调优使用 EXPLAIN限制调整JOIN 优化本地模式并行执行严格模式调整mapper 和 reducer 个数JVM重用动态分区调整推测执行虚拟列使用 EXPLAIN在查询语句前加上 EXPLAN 关键字,然后来查询下查询计划和其他一些信息。这个查询本身是不会执行的。首先会打印出抽象语法树。它表明Hive 是如何将查询解析成 token(符号) 和 liter...

2019-09-19 09:34:32 171

原创 Hive模式设计

Hive模式设计文章目录Hive模式设计关于分区按时间分区的优点唯一键和标准化避免标准化的主要原因分桶表数据存储关于分区HDFS用于设计存储数百万的大文件,而非数十亿的小文件,使用过多分区可能导致的一个问题就是会床架内大量的非必须的Hadoop文件和文件夹。在 《Hive编程指南》中,之前的解决方案是将数据转存在Amazon S3上。MapReduce 会将一个任务(job)转换成多个任务...

2019-09-19 09:33:22 249

原创 HiveQL索引

HiveQL索引文章目录HiveQL索引创建索引重建索引显示索引删除索引实现一个定制化的索引处理器索引的其他信息见我的另外一篇博客。Hive只有有限的索引功能。Hive中没有普通关系型数据库中键的概念,但是还是可以对一些字段建立索引来加速某些操作的。一张表的索引数据存储在另外一张表中。当逻辑分区实际上太多太细而几乎无法使用时,建立索引也就成为分区的另一个选择。建立索引可以帮助裁剪掉一张表的...

2019-09-19 09:32:46 256

原创 HiveQL视图

HiveQL视图文章目录HiveQL视图使用视图来限制基于条件过滤的数据动态分区中的视图和map类型视图其他相关视图可以允许保存一个查询并像对待表一样对这个查询进行操作。这是一个逻辑结构,因为它不像一个表会存储数据。换句话说,Hive目前暂不支持物化视图。当一个查询引用一个视图时,这个视图所定义的查询语句将和用户的查询语句组合在一起,然后供Hive制定查询计划。从逻辑上讲,可以想象为Hive...

2019-09-19 09:31:53 273

原创 HiveQL:查询

HiveQL:查询文章目录HiveQL:查询SELECT ...FROM 语句LIMIT 语句什么情况下Hive可以避免进行MapReduceWHERE 语句关于浮点数比较join 语句join优化LEFT SEMI-JOINmap-side JOINORDER BY 和 SORT BY含有SORT BY 的 DISTRIBUTE BYCLUSTER BYxxx.by 之前的相关笔记:抽样查询数...

2019-09-19 09:30:38 355 3

原创 Hive常用函数

Hive常用函数文章目录Hive常用函数数学函数聚合函数表生成函数其他内置函数该部分来源 《Hive编程指南》 第六章数学函数聚合函数表生成函数其他内置函数...

2019-09-19 09:29:28 116

原创 Hive数据定义

Hive数据定义文章目录Hive数据定义Hive中的数据库创建一个数据库:查看数据库目录:使用数据库:删除数据库:修改数据库Hive中的表创建表查询表信息管理表(内部表)外部表复制表结构时有无 `EXTERNAL` 关键字与内部表,外部表的影响内部分区表外部分区表自定义表的存储格式删除表hadoop回收站功能修改表Hive修改时的"钩子"Hive防误删除Hive中的数据库创建一个数据库:命...

2019-09-19 09:27:57 288

原创 Hive数据类型和文件格式

Hive数据类型和文件格式Hive基本数据类型数据类型长度例子TINYINT1 byte 有符号整数20SMALINT2 byte 有符号整数20INT4 byte 有符号整数20BIGINT8 byte 有符号整数20BOOLEAN布尔类型,true或者falseTRUEFLOAT单精度浮点数3.14159DO...

2019-09-19 09:24:59 276

原创 Hive编程指南整理部分基础概念

Hive编程指南整理部分基础概念文章目录Hive编程指南整理部分基础概念部分笔记Hive服务Hive中的变量和属性命名空间Hive CLIHive查看操作命令历史在Hive中使用Hadoop的dfs命令Amazon S3部分笔记MapReduce任务的启动过程需要消耗较长的时间,所以Hive的查询延迟比较严重。Hive不支持OLTP(联机事务处理)所需的关键功能,而更接近成为一个O...

2019-09-19 09:24:04 192

原创 Azkanban基本概念

Azkanban基本概念博客资源:链接:https://pan.baidu.com/s/1XgXXyGdSz4T9qDXK44ypjA提取码:n2ay内包含Azkaban安装所需的三个tar包。介绍Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban 使用 job 配置文件建立任务之间的依赖关系...

2019-09-18 10:53:46 1091

原创 Sqoop的导入和导出

Sqoop的导入和导出博客资源:MySQL创建测试表和数据,Sqoop相关练习脚本:链接:https://pan.baidu.com/s/1M_Zr3-cJNJMZQHhUA3XZKQ提取码:csgw导入将MySQL的数据导入到hdfs本地连接node-1上的数据库:使用SQLyog连接先新建一个测试数据库,名为:userdb先在本地使用之前安装好的sqlyang连接nod...

2019-09-18 10:47:49 323

原创 Sqoop的安装

Sqoop的安装博客资源:Sqoop 1.4.6版和MySQL连接驱动包:链接:https://pan.baidu.com/s/19CFgnSt6dCgoet2tSx2adQ提取码:b614前置工作:需要先具备 java 和 hadoop 的环境。安装流程:先将安装包上传到软件保存位置命令:cd /export/server/然后使用 rz 命令上传Sqoop的安装包...

2019-09-18 10:43:26 146

转载 Hive创建UDTF函数

Hive创建UDTF函数文章目录Hive创建UDTF函数参考:这部分不知道建一个什么样的函数,就照着网上的来了,所以就不写其他东西了package com.chinasofti.hive.udf;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec...

2019-09-18 10:40:22 321

原创 Hive创建UDAF函数

Hive创建UDAF函数文章目录Hive创建UDAF函数1. 在之前的maven工程上重新创建一个java类2. 将写好的程序打包3. 上传至Linux系统上4. 连接上Hive5. 使用命令,将jar包添加进Hive中6. 创建一个临时函数与添加进来的jar包进行关联7. 测试一下参考:1. 在之前的maven工程上重新创建一个java类package com.chinasofti.hiv...

2019-09-18 10:39:19 1148

原创 Hive创建自定义GenericUDF函数

Hive创建自定义GenericUDF函数文章目录Hive创建自定义GenericUDF函数本文需要了解的几个点:1. 在之前的maven工程上重新创建一个java类2. 将写好的程序打包3. 上传至Linux系统上4. 连接上Hive5. 使用命令,将jar包添加进Hive中6. 创建一个临时函数与添加进来的jar包进行关联7. 测试一下参考:本文需要了解的几个点:ObjectInsp...

2019-09-18 10:35:58 2213

原创 Hive创建自定义UDF函数

Hive创建自定义UDF函数文章目录Hive创建自定义UDF函数博客资源:1. 首先打开IDEA,创建一个maven项目2. 导入所需要的依赖3. 创建一个包来存储相关的类4. 写一个 java 类,继承 UDF,并重载 evaluate 方法5. 将写好的程序打包6. 上传至Linux系统上7. 连接上Hive8. 使用命令,将jar包添加进Hive中9. 创建一个临时函数与添加进来的jar包...

2019-09-18 10:33:18 1233 1

原创 Hive索引

Hive索引文章目录Hive索引Compact索引Aggregation索引Bitmap索引Compact索引CREATE INDEX idx_xxx ON TABLE xxx(tablename) AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' WITH DEFERRED REBUILD;使用 show ...

2019-09-18 10:30:04 273

原创 Hive MR优化

Hive MR优化文章目录Hive MR优化1. map reduce个数选择2. 调整一批运行的map数3. 动态调整4. 设置合理的reduce启动时间5. 设置sort时的内存6. 对map的输出结果进行压缩,提升从map到reduce的传输效率7. 对于复杂的任务,还需要通过并行来提升整体运行速度1. map reduce个数选择在这方面,尤其是map的选择,基本上决定了整个job的...

2019-09-18 10:29:16 412

原创 Hive 参数配置

Hive 参数配置1. Hive 命令行直接输入 $HIVE_HOME/bin/hive 会进入Hive的shell客户端交互窗口。输入$HIVE_HOME/bin/hive –H或者 –help可以显示帮助选项:说明:-i 初始化 HQL 文件。-e 从命令行执行指定的 HQL-f 执行 HQL 脚本-v 输出执行的 HQL 语句到控制台-p <port> con...

2019-09-18 10:28:21 248

原创 Hive中文乱码解决

Hive中文乱码解决在练习Hivesql语句时,发现中文插入乱码。首先查看文件的编码格式使用命令:cd /export/data/hivedata/ 进入数据存储位置然后使用命令:file t_map.txt发现文件编码格式时UTF-8 ,所以不是文件编码格式问题。查看MySQL的编码格式先使用命令mysql -uroot -p ,然后输入密码,进入MySQL;使用命令:show...

2019-09-17 09:04:56 4816

原创 Hive练习

Hive练习文章目录Hive练习博客资源:创建表创建分区表创建单分区表创建多个分区表创建分桶表开启分桶功能创建分桶表映射数据:多重插入:动态分区Hive数据导出Hive的本地模式博客资源:一些自己编造的数据,还有一个从朋友那里获取到的数据,随意玩玩。当前下面练习描述中我会用到。链接:https://pan.baidu.com/s/15Ix8wlQ5zQOEB6Q-7mW9yA提取码:z7...

2019-09-17 09:01:21 399

原创 Hive的基本操作

Hive的基本操作1. DDL 操作1.1. 创建表建表语法:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_typ...

2019-09-17 08:55:40 320

原创 Hive表与内部数据的映射关系

Hive表与内部数据的映射关系1. 在练习Hive之前,先创建一个文件夹来存放Hive的练习数据。命令:cd /export/data/ ,然后创建对应文件夹: mkdir hivedata2. 进入hivedata文件夹,创建一个名为1.txt 的文件,将如下数据复制进去。1,allen,182,jack,283,rose,204,lucy,103. 然后将文件上传值HDF...

2019-09-17 08:53:21 2585

原创 Hive的几种启动方式

Hive的几种启动方式A. shell客户端启动使用命令:/export/server/hive/bin/hive 直接启动。B. 远程访问Hiveshell客户端启动只能启动本机上的Hive,如果要在别的客户端上启动,就不能使用这个方式,所以这里提供一种远程访问的启动方式。1. 在Hive的bin目录下可以启动一个服务器来接受远程服务。进入Hive的安装目录,使用命令:bin/hi...

2019-09-17 08:50:31 9953

原创 Hive安装部署

Hive安装部署博客资源:Hive的安装包和源码包:链接:https://pan.baidu.com/s/13xvIMzJ69PZUJ75Eo11cHQ提取码:olnlHive连接MySQL的驱动:链接:https://pan.baidu.com/s/1eNiSY_GBRh6s-x-atbNlGw提取码:cfdxHive 安装前需要安装好 JDK 和 Hadoop。配置好环境变量。...

2019-09-17 08:48:13 498

原创 Hadoop Federation(联邦)

Hadoop Federation(联邦)单 NameNode 的架构使得 HDFS 在集群扩展性和性能上都有潜在的问题,当集群大到一定程度后,NameNode 进程使用的内存可能会达到上百 G,NameNode 成为了性能的瓶颈。因而提出了 namenode 水平扩展方案-- Federation。Federation 中文意思为联邦,联盟,是 NameNode 的 Federation,也...

2019-09-17 08:43:56 320

原创 Hadoop HA

Hadoop HA文章目录Hadoop HA概述Namenode HANamenode HA 详解架构上的修改:Failover ControllerZKFailoverController 主要职责:YARN HA概述HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正...

2019-09-17 08:42:55 276

原创 HDFS 安全模式

HDFS 安全模式文章目录HDFS 安全模式安全模式概述安全模式配置安全模式命令安全模式概述安全模式是 HDFS 所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求,是一种保护机制,用于保证集群中的数据块的安全性。在 NameNode 主节点启动时,HDFS 首先进入安全模式,集群会开始检查数据块的完整性。DataNode 在启动的时候会向 namen...

2019-09-17 08:41:01 311

原创 HDFS 元数据管理机制

HDFS 元数据管理机制文章目录HDFS 元数据管理机制元数据管理概述元数据目录相关文件dfs.namenode.name.dirVERSIONseen_txidFsimage & editssecondary namenodeCheckpointCheckpoint 详细步骤Checkpoint 触发条件元数据管理概述HDFS 元数据,按类型分,主要包括以下几个部分:文件、目...

2019-09-17 08:39:00 386

原创 YARN基础概念

YARN基础概念文章目录YARN基础概念概述特性基本架构三大组件ResourceManagerNodeManagerApplicationMaster运行流程调度器 SchedulerFIFO SchedulerCapacity SchedulerFair Scheduler调度器的抢占和延迟调度YARN应用的生命周期概述Apache Hadoop YARN (Yet Another Res...

2019-09-16 15:43:28 2474

原创 MapReduce 优化参数

MapReduce 优化参数文章目录MapReduce 优化参数资源相关参数以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效以下参数应该在 yarn 启动之前就配置在服务器的配置文件中才能生效shuffle 性能优化的关键参数,应在 yarn 启动之前就配置好容错相关参数效率跟稳定性参数资源相关参数以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效m...

2019-09-16 15:39:42 1569 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除