zyj_369-CSDN博客

原创 mysql中的变量使用

1、mysql中的变量系统变量：全局变量会话变量自定义变量：用户变量局部变量2、系统变量：说明：变量由系统提供，不是用户定义，属于服务器层面注意：如果是全局级别，则需要加global,如果是会话级别,则需要加session,如果不写，则默认是session语法：1、查看所有的系统变量show global | [session] variables;2、查看满足条件的部分系统变量show global | [session] variables like '';

2021-08-10 17:15:10 1924

原创 mysql中group_concat()以及字符串拼接、数值函数使用

1、数据源emp表department(部门)staff_name(员工姓名)销售部王五销售部李四销售部张三财务部张一财务部张一财务部赵六2、concat()函数使用用法：concat(str1, str2,…) 将多个字符串连接成一个字符串返回结果为连接参数产生的字符串，如果有任何一个参数为null，则返回值为null。select concat(department,staff_name) as tmp from em

2021-08-03 11:21:38 1690

原创 mysql的时间日期函数

1、获取当前时间：current_date()select current_date()current_time()select current_time()now()select now()2、时间格式化：select date_format( now(),'%Y-%m-%d')3、打印输入时间是周几实际上 ‘2021-07-26’ 是周一weekday() 这里输出的0–6代表周一到周日select weekday('2021-07-26')

2021-07-30 10:42:16 260

原创 hive创表中文字段报错:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaExcepti

1、详细报错信息ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Add request failed : INSERT INTO `COLUMNS_V2` (`CD_ID`,`COMMENT`,`COLUMN_NAME`,`TYPE_NAME`,`INTEGER_IDX`) VALUES (?,?,?,?,?) )运行作业出

2021-06-24 17:55:14 2309 2

原创 sqoop报错ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Query

一、详细报错ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Query [select id,login_name from user_info where id >= 10 and id <= 30] must contain '$CONDITIONS' in WHERE clause. at org.apache.sqoop.manager.ConnManage

2021-01-11 17:25:47 2135 1

原创 hadoop报错：ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_

一、详细报错信息[root@hadoop101 hadoop-3.1.3]# sbin/start-dfs.shStarting namenodes on [hadoop101]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Attempting to

2021-01-09 14:12:41 1630 2

原创 flume报错 java.lang.OutOfMemoryError: Java heap space已解决

1、详细报错信息在用flume收集kafka中数据到hdfs中内存溢出了2020-11-26 17:41:25,679 (kafka-coordinator-heartbeat-thread | flume) [ERROR - org.apache.kafka.clients.consumer.internals.AbstractCoordinator$HeartbeatThread.run(AbstractCoordinator.java:1083)] [Consumer clientId=consu

2020-11-26 19:01:31 1694

原创 jvm优化参数讲解

1、为什么要进行JVM优化在本地开发环境中我们很少有需求对JVM进行优化，但是到了生产环境我们的程序可能出现如下问题：运行的引用卡住了，日志不输出，程序没反应服务器的CPU负载突然升高在多线程应用下，如何合理的分配线程的数量2、JVM运行参数2.1、堆设置-Xms 堆内存的最小大小，默认为物理内存的1/64-Xmx 堆内存的最大大小，默认为物理内存的1/4-Xmn 堆内新生代的大小。通过这个值也可以得到老生代的大小：-Xmx减去-Xmn-Xss 设置每个线程可使用的内存大小，即栈的

2020-11-26 18:43:28 270

原创 Linux中mysql的数据文件存储在哪里

1、开启mysql服务service mysql start2、进入mysqlmysql -uroot -p1234563、查看mysql> show variables like '%dir%';+-----------------------------------------+----------------------------+| Variable_name | Value |

2020-11-25 12:04:46 6526 3

原创 Linux中查看集群jps的shell脚本

1、脚本：xcall.sh#! /bin/bashfor i in centos7-1 centos7-2 centos7-3 centos7-4do echo --------- $i ---------- ssh $i "$*"done2、加权限：chmod 777 xcall.sh3、放到 /bin目录下mv xcall.sh /bin4、该脚本可以执行一些命令，例如查看集群的jpsxcall.sh jps...

2020-11-24 09:39:29 997

原创 flume多路复用案例

1、需求使用Flume采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。2、需求分析在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。此时会用到Flume拓扑结构中的Multiplexing结构，Multiplexing的原理是，根据event中Header的某个key的值，将不同的event发送到不同的Channel中，所以我们需要自定义一个Interceptor，为不同类型的event的Header中的key赋予不同的

2020-11-24 09:24:15 464

原创 flume事务及agent内部原理

1、flume事务2、flume Agent内部原理重要组件：ChannelSelector： ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型，分别是Replicating（复制）和Multiplexing（多路复用）。ReplicatingSelector会将同一个Event发往所有的Channel，Multiplexing会根据相应的原则，将不同的Event发往不同的Channel。SinkProcessor： SinkProces

2020-11-23 19:16:25 136

原创 flume聚合

1、需求centos7-2服务器上的Flume-1监控文件/data/mydata/hive.logcentos7-3服务器上的Flume-2监控某一个端口的数据流Flume-1与Flume-2将数据发送给centos7-4服务器上的Flume-3，Flume-3将最终数据打印到控制台。2、需求分析3、准备在centos7-2、centos7-3以及centos7-4的/data/flume/apache-flume/目录下创建job/group3文件夹。cd /data/flume/

2020-11-23 19:10:47 172

原创 flume故障转移详解

1、需求：使用Flume1监控一个端口，其sink组中的sink分别对接Flume2和Flume3LoadBalancingSinkProcessor可以实现负载均衡的功能，FailoverSinkProcessor可以实现故障转移的功能.2、需求分析3、准备在/data/flume/apache-flume/job目录下创建group2文件夹cd /data/flume/apache-flume/jobmkdir group24、创建flume1 agent配置文件flume-n

2020-11-23 13:21:53 644

原创 flume复制

1、需求：使用Flume-1监控文件变动，Flume-1将变动内容传递给Flume-2，Flume-2负责存储到HDFS。同时Flume-1将变动内容传递给Flume-3，Flume-3负责输出到Local FileSystem。2、需求分析：

2020-11-23 11:25:44 144

原创 flume taildir source实时监控多文件

1、需求：使用Flume监听多个目录下的多个文件实时追加，并上传至HDFS2、几种常用source比较Exec source适用于监控一个实时追加的文件，但不能保证数据不丢失。Spooldir Source能够保证数据不丢失，且能够实现断点续传，但延迟较高，不能实时监控，采集的目录，适合离线采集的场景。而Taildir Source既能够实现断点续传，又可以保证数据不丢失，还能够进行实时监控，既可以做离线采集也可以做实时采集。3、需求分析4、创建flume agent配置文件flume-ta

2020-11-23 08:45:18 515

原创 flume spooldir source监控单目录下的多个新文件

1、需求：使用Flume监听整个目录的文件，并上传至HDFS2、需求分析spooldir 主要做的对一个目录的采集比如11月21日的（0点15-30分），采集11月20日的数据所在的目录，是离线采集的，采集完成之后把这个目录下的文件打一个标记 .COMPLETED3、创建flume agent配置文件flume-dir-hdfs.confcd /data/flume/apache-flumevim job/flume-dir-hdfs.conf添加：# Name the compo

2020-11-22 17:24:35 640

原创 flume exec source实时监控单个文件

1、需求：实时监控Hive日志，并上传到HDFS中2、需求分析：3、创建flume agent配置文件flume-file-hdfs.conf文件cd /data/flume/apache-flumevim job/flume-file-hdfs.conf添加：# Name the components on this agenta2.sources = r2a2.sinks = k2a2.channels = c2# Describe/configure the source

2020-11-22 15:51:04 291

原创 flume入门案例之监控端口数据

1、需求：使用Flume监听一个端口，收集该端口数据，并打印到控制台。2、安装netcat工具yum -y install nc3、判断44444端口是否被占用netstat -tunlp | grep 444444、创建flume agent配置文件flume-netcat-logger.confcd /data/flume/apache-flumemkdir jobcd job/vim flume-netcat-logger.conf添加：# flume配置的例子# Nam

2020-11-22 15:12:11 377

原创 Linux中tail -F与tail -f的不同

1、tail 命令tail --helptail -f ：等同于–follow=descriptor，根据文件描述符进行追踪，当文件改名或被删除，追踪停止tail -F ：等同于–follow=name --retry，根据文件名进行追踪，并保持重试，即该文件被删除或改名后，如果再次创建相同的文件名，会继续追踪备注：一般生产环境的日志隔一段时间，或者达到某个阈值会执行：mv a.log a1.logtouch a.log的操作来防止文件过大的操作。flume监控文件的话，多使用

2020-11-21 18:47:08 472

原创测试hadoop集群的读写与计算能力

1、测试HDFS写性能向HDFS集群写10个128M的文件cd /data/hadoop/hadoop/bin/hadoop jar /data/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB参数代表含义：Number of files: 10：文件数量为10Total MB

2020-11-21 14:00:30 988

原创 linux中单引号与双引号及反引号的区别

1、新建一个脚本vim test.sh 脚本内容：#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`2、加权限chmod 777 test.sh3、放到 /bin 目录下mv test.sh /bin4、执行脚本test.sh 2020-11-215、执行结果6、可以看出（1）单引号不取变量值，类似于一个字符串的用法，

2020-11-21 12:43:49 453 1

原创 hadoop中使用lzo压缩详解

1、简介规则：lzo压缩不是hadoop中自带的，需要安装可以切分，但是需要建立优点：压缩/解压速度比较快，合理的压缩率；支持 split，是 hadoop 中最流行的压缩格式；可以在 linux 系统下安装 lzop 命令，使用方便。缺点：压缩率比 gzip 要低一些； hadoop 本身不支持，需要安装；在应用中对 lzo 格式的文件需要做一些特殊处理（为了支持 split 需要建索引，还需要指定 inputformat 为 lzo 格式）。lzo编译安装详解： https:

2020-11-21 08:55:01 1864

原创 hadoop支持LZO压缩配置详解

1、编译hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译编译过程： https://blog.csdn.net/weixin_46122692/article/details/1098254402、将编译好后的hadoop-lzo-0.4.21-SNAPSHOT.jar重命名为hadoop-lzo-0.4.21.jarmv hadoop-lzo-0.4.21-SNAPSHOT.jar hadoop

2020-11-21 08:51:41 365

原创不小心关闭进程导致电脑黑屏已解决

1、打开任务管理器按下【CTRL+SHIFT+ESC】快捷键或【CTRL+ALT+.】2、点击【文件】、【运行新任务】选项3、在输入框中输入【explorer.exe】，点击【确定】即可。

2020-11-20 21:38:04 4305

原创 Linux中lzop压缩工具使用

1、Lzop简介：LzO 是一个适合实时解压、压缩的压缩库Lzop 基于Lzo库的压缩解压工具官网地址： http://www.lzop.org/2、安装yum -y install lzop3、查看lzop命令详情lzop --help -1 compress faster -9 compress better -d decompress -x extract (s

2020-11-20 20:13:15 3265

原创 Linux上安装编译lzo报错：Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7:run 已解决

1、详细报错信息[ERROR] Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7:run (build-native-non-win) on project hadoop-lzo: An Ant BuildException has occured: exec returned: 1[ERROR] around Ant part ...<exec failonerror="true" dir="${bui

2020-11-20 11:58:38 2360 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

flink-shaded-hadoop-2-uber-2.7.5-8.0.jar

项目所需数据源 logs.txt

spark core项目所用到的数据源文件 agent1.log

数据源文件 agent.log

项目所需数据源文件 ip.txt

空空如也