張萠飛-CSDN博客

原创 Hase Java API 和 Hbase Scala API

Table of ContentsJava 版的Hbase 工具类，配置 zookeeper 的地址建表操作修改表结构列出所有表删表写表根据 rowKey 删数据查表，所有数据根据 rowKey 查数据Scala 版的Hbase 工具类列出所有表建表查看表结构删表写数据扫描整个表根据 rowKey 查数据根据 rowK...

2019-11-21 21:35:37 596 3

原创使用 Hbase Shell 命令创建预分区表（hbase预分区）

在通过 HBase Shell create 命令创建表时，可以使用多种选项来对表进行预分区。最简单的方法是在创建表时指定一个拆分点数组。注意：当将字符串文本指定为拆分点时，这些拆分点将基于字符串的底层字节表示创建拆分点。因此，当指定一个 split point 为'10'时，实际上是在指定字节分割'\x31\30'。split point将定义n+1个区域，其中n是分割点的数...

2019-09-19 17:09:04 7544

原创记一次Spark 提交任务执行缓慢之问题解决了

hive 分区字段没有用引号括起来，导致hive或spark sql类型的任务执行时间很长

2022-09-02 15:27:57 1437 1

翻译 Hadoop: Capacity Scheduler yarn容量调度

本文描述了 CapacityScheduler，这是一种可插拔的 Hadoop 调度器，它允许多租户安全地共享一个大型集群，从而在分配容量的限制下及时为其应用程序分配资源。

2022-08-15 17:31:48 1047

原创 Linux 命令使用笔记【mapstat】

cpu 监控命令，报告处理器相关的统计数据。

2022-08-12 14:56:15 296

翻译 YARN Service

Yarn Service 框架提供了一个类拉来支持和 API来在 Yarn 中本地托管长期运行的服务。简而言之，它是一个容器编排平台，用于管理 YARN 上的容器化服务。它既支持 docker 容器，也支持传统的基于进程的容器。该框架的职责包括执行配置解析和挂载、生命周期管理(如停止/启动/删除服务)、伸缩服务组件、在 YARN 上滚动升级服务、监控服务的健康和就绪情况等等。...

2022-08-12 14:12:16 841

原创 Linux 命令使用笔记【sysctl】

linux sysctl命令修改系统内核配置

2022-08-11 17:03:28 1280

原创 ssh登录闪退

通过XShell登录主机，从日志看可以登录上，只不过登录成功之后立马闪退，并报权限拒绝。

2022-08-11 16:55:43 1761

load average高查看负载情况命令topuptimew判断负载高问题的命令mapstatmpstat 5 4 每5秒打印1次 CPU 使用情况，一共打印4次％usr: 显示在用户级（应用程序）执行时发生的CPU利用率百分比。％nice: 显示以优先级较高的用户级别执行时发生的CPU利用率百分比。％sys: 显示在系统级（内核）执行时发生的CPU利用率百分比。请注意，这不包括维护硬件和软件的时间中断。％iowait: 显示系统具有未完成磁

2020-12-03 10:58:05 566 1

翻译 Kafka迭代升级，轮询升级

升级步骤从0.8.x, 0.9.x, 0.10.0.x, 0.10.1.x, 0.10.2.x, 0.11.0.x, 1.0.x, 1.1.x, 2.0.x or 2.1.x or 2.2.x, 2.3.x, 2.4.x 升级到2.5.0如果您正在从2.1.x之前的版本升级。请参阅下面关于用于存储消费者偏移量的模式更改的注释。一旦您更改了 inter.broker.protocol.version 到最新版本时，将不可能降级到2.1之前的版本。滚动升级：1、更新 server.proper.

2020-12-03 10:46:37 1841

翻译 HDFS 客户端的 Shell 命令

classpathdfsenvvarsfetchdtfsckgetconfgroupshttpfslsSnapshottableDirjmxgetoevoivoiv_legacysnapshotDiffversion

2020-11-21 14:52:55 841 1

原创 Linux 命令使用笔记【vmstat】

vmstat命令vmstat 命令的含义为显示虚拟内存状态（“Virtual Memory Statistics”），但是它可以报告关于进程、内存、I/O等系统整体运行状态。语法vmstat(选项)(参数)选项-a：显示活动内页； -f：显示启动后创建的进程总数； -m：显示slab信息； -n：头信息仅显示一次； -s：以表格方式显示事件计数器和内存状态； -d：报告磁盘状态； -p：显示指定的硬盘分区状态； -S：输出信息的单位。参数事件间隔：状态信息刷新的.

2020-10-13 16:29:13 215 1

翻译 HDFS 视图(View Fs)

介绍视图文件系统(ViewFs)提供了一种管理多个Hadoop文件系统名称空间(或名称空间卷)的方法。对于具有多个namenode的集群，因此在HDFS联合中具有多个名称空间，这一点特别有用。ViewFs类似于某些Unix/Linux系统中的客户端挂载表。ViewFs可以用来创建个性化的名称空间视图，也可以创建每个集群的通用视图。...

2020-09-07 14:48:13 1663

翻译 YARN 客户端命令

概述纱线命令由bin/纱线脚本调用。运行不带任何参数的纱线脚本将打印所有命令的描述。Usage: yarn [SHELL_OPTIONS] COMMAND [GENERIC_OPTIONS] [SUB_COMMAND] [COMMAND_OPTIONS]纱线有一个选项解析框架，它使用解析泛型选项和运行类。COMMAND_OPTIONS Description SHELL_OPTIONS 一组常见的shell选项。这些都记录在命令手册页上。 GENERIC_OPTIONS

2020-09-07 14:46:47 1952

翻译 MapReduce V2 开发手册

目的这个文档全面描述了 Hadoop MapReduce 框架面向用户的所有方面，作为一个教程。前提条件确保 Hadoop 已安装、配置并正在运行。更多的细节： Single Node Setup for first-time users. Cluster Setup for large, distributed clusters. 概述Hadoop MapReduce 是一个软件框架，可以轻松地编写在大型集群(数千个节点)上并行处理大量数据(兆兆字节数据集)的应

2020-09-07 11:35:45 348

原创 Linux 命令使用笔记【iostat】

iostat命令iostat 命令被用于监视系统输入输出设备和 CPU 的使用情况。它的特点是汇报磁盘活动统计情况，同时也会汇报出 CPU 使用情况。同 vmstat 一样，iostat 也有一个弱点，就是它不能对某个进程进行深入分析，仅对系统的整体情况进行分析。语法iostat(选项)(参数)选项-c：仅显示CPU使用情况； -d：仅显示设备利用率； -k：显示状态以千字节每秒为单位，而不使用块每秒； -m：显示状态以兆字节每秒为单位； -p：仅显示块设备和所有被使用的其他分区

2020-09-07 10:07:47 207

原创 HDP 平台通过 Ambari 的 API 获取 YARN 运行状况

主机上需要安装 jq 用来解析 json 串通过 curl 访问 Ambari API，获取 json 格式的数据curl -u ${username}:${password} -sS -G "${url_base_path}services/YARN/components/RESOURCEMANAGER"获取 resourcemanager 的总数rm_total=`echo $rm_json| jq '.ServiceComponentInfo.total_count'`获取.

2020-08-07 18:18:48 761

原创通过访问 YARN 的 API 来获取队列信息

主机上需要安装 jq 用来解析 json 串访问 API，获取 json 数据curl -s --negotiate -u : "$rm:8088/ws/v1/cluster/scheduler"通过 jq 命令来解析队列部分的数据queue_json=`echo $queue_json|jq '.scheduler.schedulerInfo.queues'`获取队列总数量queue_json_size=`echo $queue_json|jq '.queue[]|.q.

2020-08-07 18:12:26 2526

原创统计 HDFS 的小文件个数

使用 hdfs oiv 命令解析 namenode fsimage 文件，输入为 , 号分隔的文本文件hdfs oiv -i $fsimage -t /data1/zpf/ops/small_file/tmp/ -o /data1/zpf/ops/small_file/fsimage.txt -p Delimited -delimiter ,在hive上建一个表将数据 put 到 hive 表对应的 hdfs 目录上hadoop fs -put -f /data1/zpf/ops/sma

2020-08-07 18:00:10 2560

原创 xlsx2json2file

使用 POI 实现解析 xlsx 转换成 json 写入文件Maven 依赖<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>3.14</version> </dependency> <dependency>

2020-07-30 15:22:28 222

原创 Ambari API 将数据采集到 MySQL

前提主机上需要安装 jq 才能正常解析 json Ambari API服务可用 Ambari 版本 2.7.3脚本如下：#!/bin/bashdb_host=10.62.31.3db_user=monitordb_password=Mon@123username=adminpassword=Bjdx@2019url_base_path=http://10.62.28.1:8080/api/v1/clusters/bjdxyzbd/file_base_path=/da.

2020-07-22 16:17:47 200

原创 Linux 命令使用笔记【tree】

1

2020-07-13 00:41:00 131

原创 Linux 命令使用笔记【chkconfig】

chkconfig 命令chkconfig 命令检查、设置系统的各种服务。这是 RedHat 公司遵循 GPL 规则所开发的程序，它可查询操作系统在每一个执行等级中会执行哪些系统服务，其中包括各类常驻服务。谨记 chkconfig 不是立即自动禁止或激活一个服务，它只是简单的改变了符号连接。语法chkconfig(选项)选项--add：增加所指定的系统服务，让chkconfig指令得以管理它，并同时在系统启动的叙述文件内增加相关数据； --del：删除所指定的系统服务，不再..

2020-07-05 09:16:29 235

原创 Linux 命令使用笔记【systemctl】

systemctl 命令systemctl 命令是系统服务管理器指令，它实际上将 service 和 chkconfig 这两个命令组合到一起。任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfi.

2020-06-30 22:06:15 422

原创 Linux 命令使用笔记【yum】

yum 命令yum 命令是在 Fedora 和 RedHat 以及 SUSE 中基于 rpm 的软件包管理器，它可以使系统管理人员交互和自动化地更细与管理RPM软件包，能够从指定的服务器自动下载RPM包并且安装，可以自动处理依赖性关系，并且一次安装所有依赖的软体包，无须繁琐地一次次下载、安装。yum 提供了查找、安装、删除某一个、一组甚至全部软件包的命令，而且命令简洁而又好记。语法yum(选项)(参数)选项-h：显示帮助信息； -y：对所有的提问都回答“yes”； -c：指.

2020-06-30 21:54:59 217

原创 Linux 命令使用笔记【zcat】

zcat 命令zcat 命令用于不真正解压缩文件，就能显示压缩包中文件的内容的场合。语法zcat (选项)(参数)选项-S：指定 gzip 格式的压缩包的后缀。当后缀不是标准压缩包后缀时使用此选项； -c：将文件内容写到标注输出； -d：执行解压缩操作； -l：显示压缩包中文件的列表； -L：显示软件许可信息； -q：禁用警告信息； -r：在目录上执行递归操作； -t：测试压缩文件的完整性； -V：显示指令的版本信息； -l：更快的压缩速度； -9：更高的压缩比.

2020-06-30 21:47:14 684

原创 Linux 命令使用笔记【free】

free命令free 命令可以显示当前系统未使用的和已使用的内存数目，还可以显示被内核使用的内存缓冲区。语法free(选项)选项-b：以Byte为单位显示内存使用情况； -k：以KB为单位显示内存使用情况； -m：以MB为单位显示内存使用情况； -g：以GB为单位显示内存使用情况； -h：以合适的单位显示内存的使用情况； -l：显示详细的低内存和高内存统计信息； -c<间隔秒数>：重复打印N次，然后退出 -w：拆分打印，与单位的格式化配合使用； -o：不.

2020-06-12 08:46:50 150

原创 Linux 命令使用笔记【ulimit】

ulimit 命令ulimit 命令用来限制系统用户对 shell 资源的访问。如果不懂什么意思，下面一段内容可以帮助你理解：假设有这样一种情况，当一台 Linux 主机上同时登陆了 10 个人，在系统资源无限制的情况下，这 10 个用户同时打开了 500 个文档，而假设每个文档的大小有 10M，这时系统的内存资源就会受到巨大的挑战。而实际应用的环境要比这种假设复杂的多，例如在一个嵌入式开发环境中，各方面的资源都是非常紧缺的，对于开启文件描述符的数量，分配堆栈的大小，CPU 时间，虚拟内.

2020-06-09 10:17:49 161

翻译 HDFS 纠删码 EC

目的复制是昂贵的 - HDFS中的默认3x 复制方案在存储空间和其他资源(例如，网络带宽)上有 200%的开销。但是，对于具有较低 I/O 活动的暖数据集和冷数据集，在正常操作期间很少访问其他块副本，但仍然消耗与第一个副本相同的资源。...

2020-06-08 09:05:40 1631 1

翻译 HDFS 联邦

背景HDFS 有两个主要层：HDFS has two main layers:Namespace 由目录、文件和块组成。它支持所有与名称空间相关的文件系统操作，如创建、删除、修改和列出文件和目录。 Block Storage Service分为两部分： Block Management (在 Namenode 中执行) 通过处理注册和定期心跳提供 Datanode 集群成员资格。处理块报告并维护块的位置。支持块相关的操作，如创建，删除，修改和获取块的位.

2020-06-04 18:38:17 348

原创 Linux 命令使用笔记【uptime】

uptime 命令uptime 命令能够打印系统总共运行了多长时间和系统的平均负载。uptime 命令可以显示的信息显示依次为：现在时间、系统已经运行了多长时间、目前有多少登陆用户、系统在过去的1分钟、5分钟和15分钟内的平均负载。语法uptime(选项)选项-p：格式化打印系统开始时间 -h：打印帮助信息并退出 -s：系统开始时间 -V：显示指令的版本信息。实例使用 uptime 命令查看系统负载：[root@LinServ-1 ~]# uptime -V

2020-06-03 18:17:41 233

原创 Linux 命令使用笔记【w】

w 命令w 命令用于显示目前登陆系统的用户列表，并显示用户正在执行的指令。执行这个命令可得知目前登入系统的用户有那些人，以及他们正在执行的程序。单独执行 w 命令会显示所有的用户，您也可指定用户名称，仅显示某位用户的相关信息。语法w(选项)(参数)选项-h：不打印头信息； -u：当显示当前进程和cpu时间时忽略用户名； -s：使用短输出格式； -f：显示用户从哪登录； -o：旧的输出格式 -i：显示IP地址而不是主机名 -V：显示版本信息。参数用户：仅显示指定用户

2020-06-02 18:17:44 211

原创 Linux 命令使用笔记【top】

top 命令top 命令可以实时动态地查看系统的整体运行情况，是一个综合了多方信息监测系统性能和运行信息的实用工具。通过 top 命令所提供的互动式界面，用热键可以管理。语法top(选项)选项-b：以批处理模式操作； -c：显示完整的治命令； -d：屏幕刷新间隔时间； -I：忽略失效过程； -s：保密模式； -S：累积模式； -i<时间>：设置间隔时间； -u<用户名>：指定用户名； -p<进程号>：指定进程； -n<次数>：循环显示的次数

2020-06-01 10:19:35 190

原创 idea修改git提交到本地分支的代码的提交注释备注信息

打开 Git 的 Console 找到本地分支提交记录右击需要修改的记录点击 Edit Commit Message 修改

2020-05-28 15:33:15 8407 1

翻译 The YARN Timeline Service v.2

Table of ContentsTimeline Service v.2 概述介绍架构现状和未来计划部署Basic configurationTimeline Service v.2 概述介绍YARN Timeline Service v.2是时间轴服务器的下一个主要迭代，在v.1和v.1.5 之后创建V.2是为了解决v.1的两个主要挑战。可扩展性V.1 仅限于写/读器和存储的单个实例，并且不能很好地扩展到小集群之外。v2 使用了更可伸缩的分布式写入器体..

2020-05-15 09:39:37 2020

翻译 The YARN Timeline Server

YARN Timeline Server 概述YARN Timeline Server 介绍以通用方式存储和检索应用程序的当前和历史信息是通过时间轴服务器在 YARN 中实现的。它有两项责任：1、存储应用程序特定的信息完全特定于应用程序或框架的信息的收集和检索。例如，Hadoop MapReduce 框架可以包含一些信息，比如 map 任务的数量、reduce 任务、计数器等等。应用程序开发人员可以通过应用程序主容器和/或应用程序容器中的 TimelineClient 将特定信息发布到时间轴

2020-05-14 20:35:35 882

翻译 Tez 简介

Tez 本地模式是一种测试 Tez 作业的开发工具，不需要启动 Hadoop 集群。本地模式运行 Tez 组件 AppMaster、TaskRunner，这些组件在集群上执行作业时使用。从开发人员工具的角度来看，它提供了几个优点。快速原型 Hadoop 设置，启动成本等不涉及。单元测试快速执行，因为分配资源、启动 jvm 等的开销被消除了。易于调试的单个 JVM 运行所有用户代码。虽然大多数组件在本地模式下重用，但也有一些组件不是调度和容器重用是不同的。 yarn 本地资源的处理。本地模

2020-05-14 11:56:12 2844

翻译 Hbase 的二级索引

最终使用协处理器实现一致的二级索引

2020-05-14 11:37:47 366

翻译 Hbase Coprocessors 协处理器

目录Hbase 协处理器的概述与其他协处理器的比较Triggers and Stored ProcedureMapReduceAOP协处理器如何实现Coprocessors类型观察者协处理器Observer Coprocessor 使用样例Observer Coprocessor 的类型端点协处理器如何加载协处理器静态加载静态卸载动态加载动态卸载使用样例观察者样例端点样例其他协处理器的使用手册目前的限制Hbase 协处理

2020-05-14 10:57:59 753

Linux常用命令以及使用样例.pdf

空空如也