自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(125)
  • 资源 (5)
  • 收藏
  • 关注

原创 mysql中的变量使用

1、mysql中的变量系统变量:全局变量会话变量自定义变量:用户变量局部变量2、系统变量:说明:变量由系统提供,不是用户定义,属于服务器层面注意:如果是全局级别,则需要加global,如果是会话级别,则需要加session,如果不写,则默认是session语法:1、查看所有的系统变量show global | [session] variables;2、查看满足条件的部分系统变量show global | [session] variables like '';

2021-08-10 17:15:10 1924

原创 mysql中group_concat()以及字符串拼接、数值函数使用

1、数据源emp表department(部门)staff_name(员工姓名)销售部王五销售部李四销售部张三财务部张一财务部张一财务部赵六2、concat()函数使用用法:concat(str1, str2,…) 将多个字符串连接成一个字符串返回结果为连接参数产生的字符串,如果有任何一个参数为null,则返回值为null。select concat(department,staff_name) as tmp from em

2021-08-03 11:21:38 1690

原创 mysql的时间日期函数

1、获取当前时间:current_date()select current_date()current_time()select current_time()now()select now()2、时间格式化:select date_format( now(),'%Y-%m-%d')3、打印输入时间是周几实际上 ‘2021-07-26’ 是周一weekday() 这里输出的0–6代表周一到周日select weekday('2021-07-26')

2021-07-30 10:42:16 260

原创 hive创表中文字段报错:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaExcepti

1、详细报错信息ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Add request failed : INSERT INTO `COLUMNS_V2` (`CD_ID`,`COMMENT`,`COLUMN_NAME`,`TYPE_NAME`,`INTEGER_IDX`) VALUES (?,?,?,?,?) )运行作业出

2021-06-24 17:55:14 2309 2

原创 sqoop报错ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Query

一、详细报错ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Query [select id,login_name from user_info where id >= 10 and id <= 30] must contain '$CONDITIONS' in WHERE clause. at org.apache.sqoop.manager.ConnManage

2021-01-11 17:25:47 2135 1

原创 hadoop报错:ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_

一、详细报错信息[root@hadoop101 hadoop-3.1.3]# sbin/start-dfs.shStarting namenodes on [hadoop101]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Attempting to

2021-01-09 14:12:41 1630 2

原创 flume报错 java.lang.OutOfMemoryError: Java heap space已解决

1、详细报错信息在用flume收集kafka中数据到hdfs中内存溢出了2020-11-26 17:41:25,679 (kafka-coordinator-heartbeat-thread | flume) [ERROR - org.apache.kafka.clients.consumer.internals.AbstractCoordinator$HeartbeatThread.run(AbstractCoordinator.java:1083)] [Consumer clientId=consu

2020-11-26 19:01:31 1694

原创 jvm优化参数讲解

1、为什么要进行JVM优化在本地开发环境中我们很少有需求对JVM进行优化,但是到了生产环境我们的程序可能出现如下问题:运行的引用卡住了,日志不输出,程序没反应服务器的CPU负载突然升高在多线程应用下,如何合理的分配线程的数量2、JVM运行参数2.1、堆设置-Xms 堆内存的最小大小,默认为物理内存的1/64-Xmx 堆内存的最大大小,默认为物理内存的1/4-Xmn 堆内新生代的大小。通过这个值也可以得到老生代的大小:-Xmx减去-Xmn-Xss 设置每个线程可使用的内存大小,即栈的

2020-11-26 18:43:28 270

原创 Linux中mysql的数据文件存储在哪里

1、开启mysql服务service mysql start2、进入mysqlmysql -uroot -p1234563、查看mysql> show variables like '%dir%';+-----------------------------------------+----------------------------+| Variable_name | Value |

2020-11-25 12:04:46 6526 3

原创 Linux中查看集群jps的shell脚本

1、脚本:xcall.sh#! /bin/bashfor i in centos7-1 centos7-2 centos7-3 centos7-4do echo --------- $i ---------- ssh $i "$*"done2、加权限:chmod 777 xcall.sh3、放到 /bin目录下mv xcall.sh /bin4、该脚本可以执行一些命令,例如查看集群的jpsxcall.sh jps...

2020-11-24 09:39:29 997

原创 flume多路复用案例

1、需求使用Flume采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。2、需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到Flume拓扑结构中的Multiplexing结构,Multiplexing的原理是,根据event中Header的某个key的值,将不同的event发送到不同的Channel中,所以我们需要自定义一个Interceptor,为不同类型的event的Header中的key赋予不同的

2020-11-24 09:24:15 464

原创 flume事务及agent内部原理

1、flume事务2、flume Agent内部原理重要组件:ChannelSelector: ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel。SinkProcessor: SinkProces

2020-11-23 19:16:25 136

原创 flume聚合

1、需求centos7-2服务器上的Flume-1监控文件/data/mydata/hive.logcentos7-3服务器上的Flume-2监控某一个端口的数据流Flume-1与Flume-2将数据发送给centos7-4服务器上的Flume-3,Flume-3将最终数据打印到控制台。2、需求分析3、准备在centos7-2、centos7-3以及centos7-4的/data/flume/apache-flume/目录下创建job/group3文件夹。cd /data/flume/

2020-11-23 19:10:47 172

原创 flume故障转移详解

1、需求:使用Flume1监控一个端口,其sink组中的sink分别对接Flume2和Flume3LoadBalancingSinkProcessor可以实现负载均衡的功能,FailoverSinkProcessor可以实现故障转移的功能.2、需求分析3、准备在/data/flume/apache-flume/job目录下创建group2文件夹cd /data/flume/apache-flume/jobmkdir group24、创建flume1 agent配置文件flume-n

2020-11-23 13:21:53 644

原创 flume复制

1、需求:使用Flume-1监控文件变动,Flume-1将变动内容传递给Flume-2,Flume-2负责存储到HDFS。同时Flume-1将变动内容传递给Flume-3,Flume-3负责输出到Local FileSystem。2、需求分析:

2020-11-23 11:25:44 144

原创 flume taildir source实时监控多文件

1、需求:使用Flume监听多个目录下的多个文件实时追加,并上传至HDFS2、几种常用source比较Exec source适用于监控一个实时追加的文件,但不能保证数据不丢失。Spooldir Source能够保证数据不丢失,且能够实现断点续传,但延迟较高,不能实时监控,采集的目录,适合离线采集的场景。而Taildir Source既能够实现断点续传,又可以保证数据不丢失,还能够进行实时监控,既可以做离线采集也可以做实时采集。3、需求分析4、创建flume agent配置文件flume-ta

2020-11-23 08:45:18 515

原创 flume spooldir source监控单目录下的多个新文件

1、需求:使用Flume监听整个目录的文件,并上传至HDFS2、需求分析spooldir 主要做的对一个目录的采集比如11月21日的(0点15-30分),采集11月20日的数据所在的目录,是离线采集的,采集完成之后把这个目录下的文件打一个标记 .COMPLETED3、创建flume agent配置文件flume-dir-hdfs.confcd /data/flume/apache-flumevim job/flume-dir-hdfs.conf添加:# Name the compo

2020-11-22 17:24:35 640

原创 flume exec source实时监控单个文件

1、需求:实时监控Hive日志,并上传到HDFS中2、需求分析:3、创建flume agent配置文件flume-file-hdfs.conf文件cd /data/flume/apache-flumevim job/flume-file-hdfs.conf添加:# Name the components on this agenta2.sources = r2a2.sinks = k2a2.channels = c2# Describe/configure the source

2020-11-22 15:51:04 291

原创 flume入门案例之监控端口数据

1、需求:使用Flume监听一个端口,收集该端口数据,并打印到控制台。2、安装netcat工具yum -y install nc3、判断44444端口是否被占用netstat -tunlp | grep 444444、创建flume agent配置文件flume-netcat-logger.confcd /data/flume/apache-flumemkdir jobcd job/vim flume-netcat-logger.conf添加:# flume配置的例子# Nam

2020-11-22 15:12:11 377

原创 Linux中tail -F与tail -f的不同

1、tail 命令tail --helptail -f :等同于–follow=descriptor,根据文件描述符进行追踪,当文件改名或被删除,追踪停止tail -F :等同于–follow=name --retry,根据文件名进行追踪,并保持重试,即该文件被删除或改名后,如果再次创建相同的文件名,会继续追踪备注:一般生产环境的日志隔一段时间,或者达到某个阈值会执行:mv a.log a1.logtouch a.log的操作来防止文件过大的操作。flume监控文件的话,多使用

2020-11-21 18:47:08 472

原创 测试hadoop集群的读写与计算能力

1、测试HDFS写性能向HDFS集群写10个128M的文件cd /data/hadoop/hadoop/bin/hadoop jar /data/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB参数代表含义:Number of files: 10:文件数量为10Total MB

2020-11-21 14:00:30 988

原创 linux中单引号与双引号及反引号的区别

1、新建一个脚本vim test.sh 脚本内容:#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`2、加权限chmod 777 test.sh3、放到 /bin 目录下mv test.sh /bin4、执行脚本test.sh 2020-11-215、执行结果6、可以看出(1)单引号不取变量值,类似于一个字符串的用法,

2020-11-21 12:43:49 453 1

原创 hadoop中使用lzo压缩详解

1、简介规则:lzo压缩不是hadoop中自带的,需要安装可以切分,但是需要建立优点:压缩/解压速度比较快,合理的压缩率;支持 split,是 hadoop 中最流行的压缩格式;可以在 linux 系统下安装 lzop 命令,使用方便。缺点:压缩率比 gzip 要低一些; hadoop 本身不支持,需要安装;在应用中对 lzo 格式的文件需要做一些特殊处理(为了支持 split 需要建索引,还需要指定 inputformat 为 lzo 格式)。lzo编译安装详解: https:

2020-11-21 08:55:01 1864

原创 hadoop支持LZO压缩配置详解

1、编译hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译编译过程: https://blog.csdn.net/weixin_46122692/article/details/1098254402、将编译好后的hadoop-lzo-0.4.21-SNAPSHOT.jar重命名为hadoop-lzo-0.4.21.jarmv hadoop-lzo-0.4.21-SNAPSHOT.jar hadoop

2020-11-21 08:51:41 365

原创 不小心关闭进程导致电脑黑屏已解决

1、打开任务管理器按下【CTRL+SHIFT+ESC】快捷键或【CTRL+ALT+.】2、点击【文件】、【运行新任务】选项3、在输入框中输入【explorer.exe】,点击【确定】即可。

2020-11-20 21:38:04 4305

原创 Linux中lzop压缩工具使用

1、Lzop简介:LzO 是一个适合实时解压、压缩的压缩库Lzop 基于Lzo库的压缩解压工具官网地址: http://www.lzop.org/2、安装yum -y install lzop3、查看lzop命令详情lzop --help -1 compress faster -9 compress better -d decompress -x extract (s

2020-11-20 20:13:15 3265

原创 Linux上安装编译lzo报错:Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7:run 已解决

1、详细报错信息[ERROR] Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7:run (build-native-non-win) on project hadoop-lzo: An Ant BuildException has occured: exec returned: 1[ERROR] around Ant part ...<exec failonerror="true" dir="${bui

2020-11-20 11:58:38 2360 1

原创 Linux上安装编译lzo详解

hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,具体编译步骤如下。1、环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)maven 安装地址:https://blog.csdn.net/weixin_46122692/article/details/109822837gcc-c++zlib-develautoconfautomakelibtool通过y

2020-11-20 11:10:10 2510 1

原创 CentOS7 配置阿里云yum源详解

1、进入服务器的 yum文件夹cd /etc/yum.repos.d/2、用 wget下载repo文件yum -y install wgetwget http://mirrors.aliyun.com/repo/Centos-7.repo当前目录是/etc/yum.repos.d/,下载的Centos-7.repo也在这个目录上3、备份系统原来的repo文件mv CentOS-Base.repo CentOS-Base.repo.bak4、替换系统原来的repo文件mv Centos

2020-11-20 09:50:18 858

原创 Linux上安装maven详解

一、简介Maven是一个项目管理和综合工具。Maven提供了开发人员构建一个完整的生命周期框架。开发团队可以自动完成项目的基础工具建设,Maven使用标准的目录结构和默认构建生命周期。二、Linux上安装1、下载maven的tar包:apache-maven-3.6.3-bin.tar.gz,下载地址:https://maven.apache.org/index.html2、 上传到服务器3、解压tar -zxvf apache-maven-3.6.3-bin.tar.gz4、删除ta

2020-11-19 20:40:40 449

原创 json详细介绍

一、概念Json是一种轻量级的数据交换格式,采用一种“键:值”对的文本格式来存储和表示数据,在系统交换数据过程中常常被使用,是一种理想的数据交换语言。JSON字符串必须是一个字符串,由双引号或者单引号包裹数据,支持字符串的各种操作JSON字符串里面的数据格式应该要满足其中一个格式,可以是json对象,也可以是json对象数组或者是两种基本形式的组合变形。二、语法2.1、json对象 { "name": "zhangsan", "age": 18, "sex": "男"}解析

2020-11-19 11:48:39 851

原创 idea中如何快速返回上一次鼠标光标所在位置

一、假如我们自己写的代码很多行,里面有很多的方法,那么看完其中一个方法,再返回是不是很麻烦呢?二:快速返回ctrl + alt + 左/右键或者这样操作

2020-11-19 09:53:02 9223 3

原创 idea中如何快速定位错误所在位置

F2 :快速定位下一个错误shift + F2 :快速定位上一个错误

2020-11-19 09:38:25 3984 1

原创 idea中显示类中的所有方法及属性等

一、这样是看不见的二、像这样就ok了

2020-11-18 20:28:42 1781

原创 zookeeper群起群停脚本

群起的时候 只需加参数 start群停的时候 只需加参数 stop查看状态的时候 只需加参数 status#!/bin/bashcase $1 in"start"){ for i in centos7-1 centos7-2 centos7-3 do echo ---------- zookeeper $i 启动 ------------ ssh $i "/data/zooker/apache-zookeeper/bin/zkServer.sh start" done}

2020-11-18 11:09:13 257

原创 java多线程创建之线程池的方式

一、概念:经常创建和销毁、使用量特别大的资源,比如并发情况下的线程,对性能影响很大提前创建好多个线程,放入线程池中,使用时直接获取,使用完放回池中。可以避免频繁创建销毁、实现重复利用。好处:提高响应速度(减少了创建新线程的时间)降低资源消耗(重复利用线程池中线程,不需要每次都创建)便于线程管理:corePoolSize:核心池的大小maximumPoolSize:最大线程数keepAliveTime:线程没有任务时最多保持多长时间后会终止等等线程池的几种形式:Executors

2020-11-17 10:13:35 89

原创 java多线程创建之实现Callable的方法

一、理解 Future接口: 可以对具体Runnable、Callable任务的执行结果进行取消、查询是 否完成、获取结果等。FutrueTask是Futrue接口的唯一的实现类FutureTask 同时实现了Runnable, Future接口。它既可以作为Runnable被线程执行,又可以作为Future得到Callable的返回值 实现Callable接口的方式创建多线程比实现Runnable接口创建多线程方式强大? call()可以有返回值的。call()可以抛出异常

2020-11-17 09:37:58 384

原创 java死锁例子代码展示

一、死锁的理解不同的线程分别占用对方需要的同步资源不放弃, 都在等待对方放弃自己需要的同步资源,就形成了线程的死锁出现死锁后,不会出现异常,不会出现提示,只是所有的线程都处于阻塞状态,无法继续我们使用同步时,要避免出现死锁。public class ThreadTest { public static void main(String[] args) { // 创建StringBuffer对象 StringBuffer sb1 = new StringB

2020-11-17 08:42:11 132 2

原创 CSDN中发布文章设置字体颜色、字体类型、字体大小、背景色

一、设置字体颜色 举例:<font color=black > black </font>可以设置不同的样式:bluemediumblueredblackbrownbright brownchartreusegreendarkgreenorangedarkorangepinkgoldyellowlawngreenpurplebright magentateal 二、设置字体 <font face="楷体"&...

2020-11-16 21:19:24 1711 3

原创 idea中设置构造器、方法自动显示参数

一、ctrl+alt+s,打开设置二、按照下方操作

2020-11-16 19:48:04 5639 1

flink-shaded-hadoop-2-uber-2.7.5-8.0.jar

flink 搭建 Standalone 高可用模式 需要用到的关于整合 hadoop 的jar包

2020-10-28

项目所需数据源 logs.txt

我的博客中 https://blog.csdn.net/weixin_46122692/article/details/109078495所需用到的数据源文件 用作spark core处理 记录了网站访问的IP

2020-10-14

spark core项目所用到的数据源文件 agent1.log

我的博客 https://blog.csdn.net/weixin_46122692/article/details/109034397 中sparkcore 项目用到的数据源文件 一张大表 记录时间戳、省份ID、城市ID、用户ID、广告ID 一张小表 记录省份ID、省份名称 两张表做Join 求TopN

2020-10-13

数据源文件 agent.log

我的博客 https://blog.csdn.net/weixin_46122692/article/details/109034397 中sparkcore 项目用到的数据源文件 一张大表 记录时间戳、省份ID、城市ID、用户ID、广告ID 一张小表 记录省份ID、省份名称 两张表做Join 求TopN

2020-10-13

项目所需数据源文件 ip.txt

我的博客中 https://blog.csdn.net/weixin_46122692/article/details/109078495所需用到的数据源文件 用作spark core处理 记录了IP的最小值,最大值、以及省份、市

2020-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除