9 silentwolfyh

尚未进行身份认证

学习是一种享受,也是一种痛苦,更是一种回忆!!!

等级
博文 375
排名 2k+

大数据系列的默认端口(hbase,hadoop,hived等)

组件Daemon端口配置说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输50075dfs.datanode.http.addresshttp服务的端口50475dfs.datanode.https.addresshttps服务的端口50020dfs.data...

2019-06-20 17:04:31

Python3爬虫--页面数据寻找

目录一、需求说明二、页面数据源在内嵌Iframe三、页面数据源为json四、页面数据源为js五、页面数据源为xml一、需求说明近期有一个项目是爬取多家银行汇率,我提取了几个相似的案例,本文主要讲解页面数据获取方法。二、页面数据源在内嵌Iframe中银香港URL为:https://www.bochk.com/tc/investment/rates/deposit.html实...

2019-06-20 16:47:41

CDH 如何获取Hive正在执行或者已结束的的MapReduce作业的SQL语句

目录一、文档编写目的二、通过YARN执行作业的xml配置文件获取三、通过ClouderaManager来获取四、通过ClouderaManager的API接口获取一、文档编写目的当我们提交HiveSQL语句到YARN后,有时如果我们想监控某个SQL的执行情况,需要查看具体SQL语句,如果这个SQL语句比较长,无论是通过YARN的8088界面还是YARN的命令都无法看全这个SQ...

2019-06-20 15:39:08

Sqoop抽取Phoenix数据

使用场景:主要想实现抽取hbase数据到hive中,Sqoop不支持对hbase的直接抽取,但是我们可以通过Phoenix映射hbase表实现。安装好phoenix后对于HBase中已经存在的数据表不会自动进行映射,所以想要再phoenix中操作HBase已有数据表就需要手动进行配置。查看phoenix的版本,如果版本是4.10之前的,映射关系是根据列来映射的,phoenix可以通过create...

2019-05-06 21:35:09

Hive中row_number()函数用法详解及示例

目录一、Hive中row_number()函数介绍二、使用示例三、总结四、附录在Oracle中,我们经常会用到row_number()over(partitionbyclo1orderbyclo2desc)方法来取表中clo1重复记录clo2最大的一条或几条记录,那在Hive上row_number()是否存在这个函数,其具体的用法是怎么样的呢?下面我们通过具体的示...

2019-04-26 10:51:17

azkaban失败任务批量重跑

其他接口可以参考官方文档https://azkaban.readthedocs.io/en/latest/ajaxApi.html一、mydb查询失败数据(查出projectname和flowid)selectb.name,a.flow_idfromexecution_jobsaINNERJOINprojectsbONa.project_id=b.idWHERE...

2019-04-25 15:43:02

hive表的备份及清除脚本

#!/usr/bin/envbash:<<EOF将${db}中的${tableName}备份到${bak_db}中,且删除${db}.${tableName}EOFif[$#!=2];thenecho"请输入参数:库名表名"echo"e.g.:./cleanHiveTable.shappapp_system_yh_d"exit1;fi...

2019-04-25 11:17:59

数据仓库中拉链表的实现

在有些情况下,为了保持历史的一些状态,需要用拉链表来做,这样做目的在可以保留所有状态的情况下可以节省空间。拉链表适用于以下几种情况吧数据量有点大,表中某些字段有变化,但是呢变化的频率也不是很高,业务需求呢又需要统计这种变化状态,每天全量一份呢,有点不太现实,不仅浪费了存储空间,有时可能业务统计也有点麻烦,这时,拉链表的作用就提现出来了,既节省空间,又满足了需求。一般在数仓中通过增加begi...

2019-04-17 18:23:48

数据仓库中的增量表,全量表,快照表,拉链表

目录1、增量表2、全量表3、快照表4、拉链表1、增量表增量表:新增数据,增量数据是上次导出之后的新数据。(1)记录每次增加的量,而不是总量;(2)增量表,只报变化量,无变化不用报(3)每天一个分区2、全量表每天的所有的最新状态的数据。(1)全量表,有无变化,都要报(2)每次上报的数据都是所有的数据(变化的+没有变化的)(3)只有一个分区3、快照表按日分区...

2019-04-17 14:25:43

Shell教学-函数

#!/usr/bin/envbash:<<EOFShell函数EOF###########################[function]funname[()]#{#action;#[returnint;]#返回值只能为int#}##########################demoFun(){...

2019-04-17 13:37:12

Shell教学-流程控制

#!/usr/bin/envbash:<<EOFShell流程控制ififelseifelse-ifelseEOF############################if语句语法格式,ifelse语法格式,ifelse-ifelse语法格式,##ifcondition...

2019-04-17 13:36:30

Shell教学-输出的格式化

#!/usr/bin/envbash:<<EOFShellprintf命令(输出的格式化)EOF#=================================================================================#语法printfformat-string[arguments...]#...

2019-04-17 13:35:54

Shell教学-算术运算符

#!/usr/bin/envbash:<<EOFShell算术运算符EOFecho"==============Shell算术运算符========================"a=10b=20val=`expr$a+$b`echo"a+b:$val"val=`expr$a-$b`echo"a-b:$val"...

2019-04-17 13:35:13

Shell教学-参数传递

#!/usr/bin/envbash:<<EOFShell参数传递EOF#--------------------------------------------#$# 传递到脚本的参数个数#$* 以一个单字符串显示所有向脚本传递的参数。#如"$*"用「"」括起来的情况、以"$1$2…$n"的形式输出所有参数。#$$ ...

2019-04-17 13:34:34

Shell教学-变量

#!/usr/bin/envbash:<<EOF1、shell变量EOFecho"============Shell变量===================="#注意,变量名和等号之间不能有空格your_name="runoob.com"echo$your_name#有效变量RUNOOB="RUNOOB"LD_LIBRARY_PATH="LD...

2019-04-17 13:30:23

Hive中UDF函数包含HttpClient依赖冲突

目录一、错误信息二、问题分析及解决三、httpclient-4.2.5版本Get,Post方法四、httpclient-4.5.3版本Get,Post方法一、错误信息:Causedby:org.apache.hadoop.hive.ql.metadata.HiveException:Unabletoexecutemethodpublicjava.lang.String...

2019-04-11 20:05:32

CDH5.14.4离线安装Spark2.1详细步骤

目录一、简介:二、安装准备三、开始安装一、简介:在我的CDH5.14.4集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。这里做一下安装spark2.1版本的步骤记录。二、安装准备csd包:http...

2019-03-19 11:48:22

CDH5.14.4之HDFS-Hbase-Yarn的高可用配置

需求:CDH5.14.4需要将HDFS、Hbase、Yarn做一个高可用设置HDFS高可用配置前提:在搭建cdh的时候是有一个secondNameNode角色,而在做HDFS的HA机制的时候会删除这个角色。同时需要JournalNode角色。步鄹如下:HDFS高可用结果如下:Hbase高可用配置Hbase高可用如下:Yarn高可用配置...

2019-03-18 16:09:11

CDH邮件报警配置(亲测)

clouderamanager提供邮箱警告功能,方便管理员在集群出现问题的第一时间维护集群。具体操作如下:1.登录clouderamanager页面,进入clouderamanagerservice服务2.点击配置,在搜索框中写入alert:3.邮箱服务器密码的获取方法:这里很重要:进入发件人的qq邮箱,用户-账户-smtp开启-服务码,具体方法可以问度娘,这里不详述。将授权...

2019-03-07 14:32:06

sqoop入门教程

目录一、Sqoop概述    1、简介    2、Sqoop架构原理   &nb

2019-01-22 20:45:01
CSDN身份
  • 博客专家
奖章
  • Github
    Github
    绑定github第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。