自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(98)
  • 资源 (3)
  • 收藏
  • 关注

原创 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态

背景yarn 在开启lable功能时,运行任务出现大量节点被加入黑名单,且任务无法释放黑名单。一直处于运行中。原理yarn的黑名单功能是为了防止多个task在同一个节点重试运行失败导致最总任务失败。解决办法https://issues.apache.org/jira/browse/YARN-11107...

2022-04-07 10:46:46 663

转载 Jetty 架构

一、Jetty具备以下特点:   快速高效   。Jetty是最快的Servlet服务器之一   。Jetty可以处理上千个并发连接   小巧嵌入   。Jetty的jar只有600多K   。可动态嵌入到应用程序,适合开发web2.0等应用   应用广泛   。开源项目有Geronimo , JBoss, JOnAS等   。商业项目有IBM Tivoli, Sonic MQ and Cisco SESM等   可到Jetty网站 http:/...

2022-01-19 14:43:47 586

转载 认证模式之Spnego模式

Spnego模式是一种由微软提出的使用GSS-API接口的认证模式。它扩展了Kerberos协议,在了解Spnego协议之前必须先了解Kerberos协议,Kerberos协议主要解决身份认证及通信密钥协商问题。它大致的工作流程例如以下:①client依据自己username向密钥分发中心KDC的身份认证服务AS请求TGS票证。②AS生成一个TGS票证、查询相应用户的password,然后通过用户password将TGS票证加密,响应给client。③client通过用户password解密TGS票

2022-01-19 11:34:39 1840 1

转载 Load很高,CPU使用率很低的诡异情况

Load很高,CPU使用率很低的诡异情况 第一次碰到这种Case:物理机的Load很高,CPU使用率很低 先看CPU、Load情况 如图一: 这个现象不太合乎常规,也许是在等磁盘IO、也许在等网络返回会导致CPU利用率很低而Load很高 贴个vmstat 说明文档(图片来源于网络N年了,找不到出处) 检查磁盘状态,很正常(vmstat 第二列也一直为0) 再看Load是在5号下午15:50突然飙起来的: 同一时间段的网络流量、TCP连接相关数据很平稳: 所以分析...

2022-01-14 11:16:42 4710 1

原创 hadoop集群不停服上线 hadoop router

hadoop router 是解决单个NS 瓶颈的组件。

2021-04-12 15:07:44 236

原创 Hadoop Router上线过程 Cannot get available namenode 问题分析

在说明这个问题之前,梳理一下router内部的工作流程。router 内部请求转发流程上图说明如下:第1步:通过访问的路径找到挂载点对应的NameSpace(NS)第2步:通过NS,找到对应的NN第3步:NN的信息存储在缓存中StateStore第4步:StateStore启动时,会先加载ZK里面的数据,并且开启一个线程,每隔1分钟去ZK获取最新的记录第5步:在StateStore启动之后,后启动NamenodeHeartbeatService服务,这个服务每个NN 对应一个线程,线程每隔5

2021-04-12 11:22:30 794

原创 TestMYRouter

/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The ASF licenses this file * to y

2021-01-04 17:01:11 111

原创 window本地运行hadoop 测试用例 failed to create symlink

解决办法:以管理员身份运行IDEA原因:只有管理员可以创建符号链接

2020-11-03 11:33:52 996 1

原创 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/St

背景window运行hadoop测试用例报错:java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/St解决办法下载链接: https://pan.baidu.com/s/1nFMHk1NIbpvXwqZ7rq0o6A 提取码: fagn覆盖本地的HADOOP_HOME路径下bin目录所有文件...

2020-11-03 11:05:04 158

转载 hdfs 元数据理解

HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的dfs.namenode.name.dir和dfs.datanode.data.dir。一、NameNodeHDFS metadata主要存储两种类型的文件1、fsimage记录某一永久性检查点(Check

2020-10-13 10:50:14 982

转载 NameNode启动过程耗时详细剖析

NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时间段过后(sec,由fs.checkpo...

2020-09-15 18:59:41 689

原创 window10 下编译hadoop2.9.2

Win7下编译hadoop一、解压源码Hadoop2.7.7 源码下载:hadoop-2.7.7-src.tar.gz源码下载 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common...

2020-08-11 16:29:47 349

原创 idea 错误: 编码GBK的不可映射字符

背景在我们导入一些项目时,或者拷贝一些代码时经常会遇到编码的问题。在网上搜索到的解决方案也是各种都要,最后发现试了很多还是解决不了。通常在编译的时候会报这样的错:[ERROR] \project\myproject\hadoopLearn\hadoopRPC\PbRPC\src\main\java\org\zxp\pbtest\server\business\CalculatorService.java:[115,47] 错误: 编码GBK的不可映射字符\project\myproject\ha

2020-08-05 10:19:48 5546 2

原创 清理指定路径日期的数据

keepday=$1cat database.txt |while read datado echo "$data" hdfs dfs -ls $data |awk '{printf "%s\n", $8}' | while read line do if [ $line ]; then old_version=$(hdfs dfs -ls $line | awk --re-interval -v day="$keepday" 'BEGIN{ five_days_ago

2020-07-10 15:24:23 149

原创 sparkStreaming 任务监控

背景公司一般做业务监控都是采用实时任务的方式,实时任务的可用性就更加需要保障了。监控脚本#!/bin/bash#去azkaban数据库获取所有的实时任务名称,stream开头的#stream.sql#use azkaban;#SELECT name FROM azkaban.projects where name like 'stream_%' and active =1;mysql -hhdh06.c.p.xyidc -uuser -ppasswd <stream.sql >a

2020-07-01 11:25:22 565

原创 CDH服务监控,短信邮箱告警

背景实现CDH服务出现异常能够及时通知。脚本实现#! /bin/bash#异常服务出现次数累加数量export count=0#异常服务列表export BADserver#单次轮询标志位,0 无异常服务,1 有异常服务export sc=0#轮询次数累加数量export lxcount=0 while truedo # 每三分钟轮询 /home/azkaban/serveies.txt 里配置监控的cdh服务 while read line do

2020-07-01 10:48:16 1471

原创 yarn 离线任务运行超时监控告警

背景在运行spark任务时,可能因为某种异常问题导致任务没有正常退出。一直处于假死异常状态。这就需要我们通过一直机制发现这样的情况。#!/bin/bashtodaydate=`expr $(date +%s) \* 1000`yarn application -list -appStates running |grep "application_"|grep -v "stream" |awk '{print $1}' | while read line do yarn application

2020-07-01 10:42:59 1222 1

原创 maven常用仓库地址

仓库索引地址:http://mvnrepository.com/http://search.maven.org/仓库下载地址:https://repo1.maven.org/maven2/https://repository.jboss.org/maven2/https://repository.sonatype.org/content/groups/public/http://maven.aliyun.com/nexus/content/groups/publichttp://repo.s

2020-07-01 10:34:02 686

原创 yarn 运行环境添加外部jar

在提交命令添加参数:–conf spark.yarn.jars=local:/opt/cloudera/parcels/CDH/lib/spark/jars/,local:/opt/cloudera/parcels/CDH/lib/spark/hive/:/opt/cloudera/parcels/CDH/lib/hive/lib/*spark-submit --class ezviz.bigdata.spark.OfflineJob --master yarn --deploy-mode cluster

2020-06-29 14:50:02 665

原创 ELK 采集系统日志,nginx日志

背景为了满足公司的安全合规要求,我们需要采集系统的服务的系统日志,nignx日志,能够提供给政府安全部门查询。这里选择(ELK)Elasticsearch、Logstash、Kibana 作为落地实现工具。日志样例接口调用日志包括两部分:ys-web服务日志位置:/usr/local/hikvision/tomcat6/logs/shipin7-api.log日志格式:2018-08-16 12:29:13,438 INFO API - execution(UserController.l

2020-06-02 13:58:26 1358

原创 hive 2.1.1 hive命令提交任务 Error caching map.xml:... ConcurrentModificationException

背景今天在使用hive 命令执行一个sql,这个sql使用了自己开发的UDF函数,提交运行遇到一个很棘手的问题,hive版本2.1.1,先看下错误日志:Serialization trace:classes (sun.misc.Launcher$AppClassLoader)classloader (java.security.ProtectionDomain)context (java.security.AccessControlContext)acc (org.apache.hadoop.h

2020-05-26 21:26:32 2969

原创 cdh hive2.1版本中文注释乱码

一、问题描述环境 cdh6.3.1 + hive 2.1.0。 hive 元数据库用的是mysql创建hive表后,用show create table 查看表信息,中文注释出现乱码,如下1 CREATE TABLE `stage_mysql.userdevice_default_group_day`(2 `id` int COMMENT '??', 3 `user_id` string COMMENT '????', 4 `sub_serial` string COMMENT '?

2020-05-20 16:01:39 255

转载 java 快速失败Vs安全失败

https://www.cnblogs.com/zrbfree/p/6323422.html

2020-05-12 09:57:31 160

原创 ES 学习记录

说在前面的话:最近一年做了很多大数据相关的业务,发现ES的应用场景非常多,即可作为查询服务,配合一些可视化组件,例如grafana也可作为监控数据存储服务,查询性能能到毫秒级的,但一直停留在使用的层面,所以有必要系统的学习底层并记录一下。...

2020-05-11 23:32:27 111

原创 sparkStreaming写入elasticsearch报错Could not write all entries for bulk operation

背景今天遇到一个问题,在运行sparkStreaming任务写ES,出现如下错误:20/04/27 09:45:12 ERROR spark.TaskContextImpl: Error in TaskCompletionListenerorg.elasticsearch.hadoop.EsHadoopException: Could not write all entries for bu...

2020-05-06 10:28:38 1698

原创 cdh 中 hive impala on sentry权限使用

背景现在我们公司有一些数据分析的场景,主要实现方式通过impala实现在线分析,现在接入我们cdh大数据平台的日志有很多,数据接入流程很简单,业务方所有的数据都发送至kafkak总线,flume二次开发,支持写入parquet格式数据,通过flume写入hdfs,db库数据通过dataX写入hdfs,格式为orc格式,这两种格式在压缩,和在线分析都有不错的性能提升。在线分析场景,由于各个业务方只...

2020-05-06 09:43:26 1276

原创 实时任务 offset管理

背景现在运行的实时任务基本上都是使用sparkStreaming,当然后面考虑使用最近比较火的flink,看了部分资料介绍后,我感觉sparkStreaming相对于flink,唯一的不足是,sparkStreaming在task调度上损耗了不少性能。flink还没有深入研究内部实现,flink现在这么火,后面找找相关资料学习一番。今天主要记录一下当前我所用到的sparkStreaming任务是...

2020-04-28 15:02:37 279

原创 mongodb client安装,导出数据

1.安装 https://repo.mongodb.org/yum/redhat/6/mongodb-org/3.4/x86_64 下载 rpm -ivh mongodb-org-shell-3.4.9-1.el6.x86_64.rpm rpm -ivh mongodb-org-tools-3.4.9-1.el6.x86_64.rpm2. 连接命令...

2020-04-24 14:16:18 226 1

转载 Elasticsearch的索引模板

链接: Elasticsearch的索引模板.

2020-04-15 14:06:29 146

转载 ES Java scala客户端-Elasticsearch

链接: ES Java客户端-Elasticsearch.

2020-04-13 15:31:21 323

转载 IT架构分层描述

IT架构九重天——IT架构分层描述楼主最近开始学习云计算,这东西有多火或者这是怎么样的一个大趋势相信大家都不言而喻了。没什么练手条件下当然先把理论知识补充补充,所以找身边的大牛们推荐了一本入门级别的书。你得先有那么一点基础才能一步步往上不是嘛,就跟你得先有那么几个英雄才能打排位,然后从青铜到白银,再到黄金,接着晋级铂金、钻石….最后到达最强王者,然后就下一个赛季了。啊,不好意思,扯远了,最近有点...

2020-04-08 11:10:47 3771 1

转载 云计算四层分——IaaS、PaaS、SaaS、DaaS

云计算四层分——IaaS、PaaS、SaaS、DaaS云计算通俗来说就是输入/输出和计算不在一个主机上。计算要用到计算设备,计算设备一般是指CPU、内存和硬盘,输入/输出设备一般是指键盘、鼠标、显示器、耳机、音响、话筒等外设。而我们的个人计算机是使用主板将这些东西连接到一起来协调工作。一个软件在执行以完成某项任务的时候,如果用到的计算设备和输入/输出设备不是通过主板连接,而是通过网络连接,那么...

2020-04-08 10:21:52 11935

原创 批量导出hive表结构 生成建表语句

说明最近在做集群数据迁移,需要把hive所有的表同步至新的集群。脚本#! /bin/bashmkdir -p /opt/hive/tables/tablesDDLhive -e "show databases;" > /opt/hive/databases.txtecho "cat database"cat /opt/hive/databases.txtcat /opt/h...

2020-03-28 11:33:49 2118

转载 java 线程 线程状态

线程

2020-03-25 19:47:45 72

原创 问题 Spark Yarn集群模式 exitCode = 13

背景今天一同事在提交任务时遇到一个很奇葩的问题,使用的是集群模式提交的spark任务下面是运行的日志:Log Length: 1906020/03/25 14:43:03 INFO util.SignalUtils: Registered signal handler for TERM20/03/25 14:43:03 INFO util.SignalUtils: Registered...

2020-03-25 17:29:02 6762 2

原创 spark Rest Api 使用

Rest APIspark可以通过UI查看指标。这样可以让开发者很容易的创建一些可视化的工具。这些命令同时也只支持正在运行的应用。对于history server,访问的地址是http://:18080/api/v1,对于正在运行的任务,可以访问http://localhost:4040/api/v1在这些api中,应用的标识为ID[app-id]。当通过YARN启动时,每个应用可能会有多次尝...

2020-03-24 14:40:13 1768 4

原创 spark 调试篇

调试命令调试所有spark-submit --master yarn --deploy-mode client --verbose --conf spark.rpc.askTimeout=600s --conf spark.rpc.lookupTimeout=600s --conf spark.rpc.retry.wait=60s --conf spark.network.timeout=6...

2020-03-23 20:16:09 298

原创 HBase中的TTL与MinVersion的关系

如果HBase中的表设置了TTL的时候,MinVersion才会起作用。a)MIN_VERSION > 0时:Cell至少有MIN_VERSION个最新版本会保留下来。这样确保在你的查询以及数据早于TTL时有结果返回。b)MIN_VERSION = 0时:Cell中的数据超过TTL时间时,全部清空,不保留最低版本。...

2020-03-23 15:59:30 467

转载 Elasticsearch-spark 源码解析 ---savetoEs

...

2020-03-18 13:42:19 305

原创 sparksql 2.4 PIVOT 使用

1.背景在设计用户标签时,需要将1个维度多个值的情况生成多个标签,例如,用户视频的设备的类型,由于用户含有多个设备,所以需要将每个设备类型设置成一个标签,业务方在使用时,需要过滤同时含有多个某些设备时,就可以方便的过滤。例如下面数据:+------------+--------------------+-----+-----+| proxyId| ...

2020-03-10 15:25:13 1819

汇编语言实现与PC端通信

汇编语言实现与PC端通信

2020-03-30

JDK1.8源码(sun等包,以及C/C++ native模块)

(没有积分下载,私信我) 1.8u131版本OpenJDK源码 ,源代码包含rt.jar中没有的sun包源代码,以及C/C++ native模块,该模块包含了基本的输入输出流,java基本类型的C代码

2019-11-19

JFVideoEncrypt

1、灵活的认证授权模式,比如:一机一码加密,video2exe,一码通授权等;可以指定 播放次数、播放时间和截止日期等; 2、可以设置播放时断开网络,禁止用户通过远程共享或者远程翻录; 3、可以设置播放时禁止开启其他窗口,以便学员可以专心学习; 4、可以指定是否可以提供免费试看试听 ; 5、您可以设置提示语,以便告知用户通过何种途径与您联系获得播放密码; 6、可以设置视频播放尺寸和拉伸效果; 7、可以防止屏幕录像和拷屏; 8、可以禁止在虚拟机中播放; 9、可以指定防翻录跟踪水印; 10、本系统也可以结合网络应用,通过网 络向客户发放播放密码,结合会员验证等方式 进行播放授权,无需人工参与; 打包方式与授权方式请参看下载包中的视频教程。 飓风加密JFVideoEncrypt 加密文件: 1、选择待加密视频,可以添加多个文件到列表内 2、指定加密秘钥,只有知道加密秘钥的人才可以创建播放密码 3、执行加密 创建播放密码: 1、指定加密时使用的加密秘钥 2、指定用户的机器码 3、创建播放密码 如果需要创建带播放次数控制的播放密码,可以勾选下面的相关控制选项再创建。

2018-01-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除