自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

99滴神

希望对大家有帮助,大家互相进步!

  • 博客(190)
  • 资源 (3)
  • 收藏
  • 关注

原创 HDFS页面操作文件出现Permission denied: user=dr.who, access=WRITE, inode=“/user/lq“:lq:supergroup:drwxr-xr-x

ERROR:HDFS页面操作文件出现Permission denied: user=dr.who, access=WRITE, inode=“/user/lq”:lq:supergroup:drwxr-xr-x。hdfs-default.xml配置文件中dfs.permissions.enabled的值默认是true,也就是默认开启权限检查。排查原因:当前用户权限不够,因为hadoop中http访问的静态用户名默认是dr.who,它没有啥特殊含义。注:测试环境可以这样设置,企业生产环境不建议这样设置。

2023-09-10 15:29:08 1429 1

原创 CentOS8: scp出现Permission denied,please try again的解决办法

注:当scp的时候我们发现错误,被拒绝,是因为ssh的权限问题,需要修改权限,进入到/etc/ssh文件夹下,用root用户修改文件sshd_config将PermitRootLogin no / without-password 改为 PermitRootLogin yes,然后重启sshd服务。重启命令:service NetworkManager restart。

2023-04-05 23:40:01 1682 2

原创 Shell笔记

1、shell中的变量用法1.1、变量的命名规则- 命名只能使用英文字母,数字和下划线。首个字符不能以数字开头- 字母习惯使用大写- 中间不能有空格- 不能使用标点符号- 不能使用bash里的关键字(可用help命令查看保留关键字)1.2、变量的使用规则- 直接定义变量名称,没有类型需要强调(类似于数学中:x=1,y=2,z=x+y)- 赋值时,"="前后不能有空格- 命令的执行结果赋值给变量时,使用反单引号 如:TIME=`date`- 调用变量时,必须使用$ 格式: $变量名 或

2021-09-08 09:02:09 571

原创 Kafka笔记

Kafkfa笔记一、简介[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DC3ZFZeg-1630938851023)(C:\Users\等待\AppData\Roaming\Typora\typora-user-images\1624285209787.png)]二、部署(伪分布)2.1、准备工作#上传、解压、更名、配置环境变量tar -zxvf kafka_2.11-2.3.0.tgz -C /usr/local/#配置KAFKA_HOME环境变量 v

2021-09-06 22:34:48 592

原创 scala笔记

scala注意点一、方法中的注意点1、方法的定义def add(x:Int,y:Int):Int = x+ydef add1(x:Int,y:Int)=x+y//与上面两种方法有区别,省略= 始终返回unit 此处值得注意def add2(x:Int,y:Int) {x+y}2、空参、无参方法的注意点def add3=System.getProperty("user.name")def add4()=System.getProperty("user.name")//空参方法可以作为

2021-09-06 22:34:02 144

原创 Structured Streaming笔记

Structured Streaming笔记标准参考文档网站:http://spark.apache.org/docs/2.3.2/structured-streaming-programming-guide.html2、Structured Streaming 入门Scoket Source如下2.1、简单stuctured Streaming模板步骤: 1、 需求梳理 2、 Structured Streaming 代码实现 3、 运⾏ 4、 验证结果需求梳理: 1、编写⼀个流

2021-09-06 22:33:11 113

原创 Spark Stream笔记

Spark Streaming笔记⼊⼝类SparkStreaming//构造⽅法 def this(sparkContext: SparkContext, batchDuration: Duration) = { this(sparkContext, null, batchDuration) } def this(conf: SparkConf, batchDuration: Duration) = { this(StreamingContext.createNewSparkContext

2021-09-06 22:32:40 70

原创 sparkSQL笔记

SparkSQL笔记一、DataFrameDataFrame:理解了RDD,DataFrame就容易理解些,RDD是一个数据集,DataFrame在RDD的基础上加了Schema(描述数据的信息,可以认为是元数据,DataFrame曾经就有个名字叫SchemaRDD)。1.1、 SparkSQL基本编程1.1.1、SparkSession的创建1、在spark-shell中会自动创建SparkContext和SparkSession[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直

2021-09-06 22:32:06 112

原创 spark笔记

spark笔记1、hadoop与spark的关系与区别1.1、处理流程比较总结:1、Spark把运算的中间数据存放在内存,迭代计算效率更高;mapreduce的中间结果需要落地,需要保存到磁盘,这样必然会有磁盘io操做,影响性能。(不能说mr迭代不使用内存,只是不主打内存)2、Spark容错性高,它通过弹性分布式数据集RDD来实现高效容错;mapreduce的话容错可能只能重新计算了,成本较高。3、Spark更加通用,spark提供了transformation和action这两大类的多个功能a

2021-09-06 22:31:04 114

原创 Azkaban脚本模板

步骤:将 ***.project和***.flow 打包成zip ,然后上传到azkaban就好了示例1:test.ziptest.projectazkaban-flow-version: 2.0test.flownodes: - name: jobA type: command config: command: echo "this is a simple test"示例2:test2.ziptest.projectazkaban-flow

2021-09-06 22:05:29 146

原创 Name node is in safe mode.(NameNode处于安全模式)

INFO client.RMProxy: Connecting to ResourceManager at master/172.18.63.28:8032 WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this..

2021-07-15 08:47:24 305

原创 hfds相关命令

hdfs dfs 常用命令如下:hdfs dfs -put file /#file指的是你本地文件路径地址,/指的是hdfs的根路径hdfs dfs -ls /hdfs dfs -put file /hdfs dfs -mkdir /dirnamehdfs dfs -text /filename#直接在linux中查看此filename的内容hdfs dfs -rm /filenamehdfs dfs 其他命令如下:hdfs dfs -appendToFile localf

2021-07-06 23:12:21 424

原创 总结27 -- E45: ‘readonly‘ option is set (add ! to override)

有一次通过vim命令修改文件出现以下错误:E45: 'readonly' option is set (add ! to override)该错误为当前用户没有权限对文件做修改解决办法:可以:wq! 强行保存退出;

2021-07-06 17:55:53 173

原创 修改NameNode端口后,hive表查询报错

1、修改ip地址后,hdfs上的数据肯定是没法用的,只能删掉重新格式化namenode2、修改namenode的端口后,由于ip地址没有改变,数据还是可以用的,怎么用请看下面的方法我的问题如下:将namenode的端口9000 改为 8020后,连接hive,访问hdfs上的数据出现以下以下错误:FAILED: SemanticException Unable to determine if hdfs://master:9000/data/nshop/ods/dim_pub_base_area i

2021-07-06 17:47:26 645

原创 Plugin ‘net.alchim31.maven:scala-maven-plugin:3.2.0‘ not found

解决方法:在maven库中的settting.xml中的mirrors标签修改一下就好修改前: <mirrors> <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <mirrorOf>cen

2021-06-29 17:35:45 3674

原创 error: <class ‘socket.error‘>, [Errno 111] Connection refused: file: /usr/lib64/python2.7

配置完应用后,重新加载配置出现以下错误:supervisorctl reloaderror: <class 'socket.error'>, [Errno 111] Connection refused: file: /usr/lib64/python2.7原因:因为没有启动supervisor服务首先检查supervisord进程:ps aux|grep supervisord结果是supervisord进程不在了所以启动supervisord, 在进行相关supervis

2021-06-29 10:44:01 2248

原创 Apache国内镜像下载地址

Apache的国内镜像地址如下:https://mirrors.tuna.tsinghua.edu.cn/apache/这个地址下载hadoop、hbase等Apache旗下的貌似速度快一些,大多数都能下载

2021-06-28 17:21:13 1680

原创 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR

mysql数据导入hive出现以下错误:ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.经过查阅资料可知,发现是自己路径设置可能没有设置,肯定有问题。方式一:检查HIVE_CONF_DIR是否有设置echo $HIVE_CONF_DIR如果为空,则是说明没有设置HIVE_CONF_DIR 路径vim ~/.

2021-06-27 19:25:00 1374 1

原创 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apa

sqoop从mysqsql中导入到hive,出现以下错误:21/06/27 17:11:49 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf at org.apache.sqoop.hive.HiveConfig.getHiveConf(HiveConfig.java:50)

2021-06-27 17:25:54 279

原创 ERROR java.lang.RuntimeException: azkaban.jobExecutor.utils.process.ProcessFailureException

错误日志:java.lang.RuntimeException: azkaban.jobExecutor.utils.process.ProcessFailureException at azkaban.jobExecutor.ProcessJob.run(ProcessJob.java:304) at azkaban.execapp.JobRunner.runJob(JobRunner.java:784) at azkaban.execapp.JobRunner.doRun(JobRunner.j

2021-06-27 17:04:44 1615

原创 Spark -总结6- checkpoint的简单介绍

为什么要用checkpoint呢?checkpoint的意思就是建立检查点,类似于快照,比如,在spark计算中,计算流程DAG很长,要是将整个DAG计算完成并得出结果,需要很长时间,在这等待时间中突然中间数据丢失,spark就会根据RDD的依赖关系从头到尾开始计算一遍,这样会很费性能的,怎么解决呢?这就需要用到缓存了,我们可以将中间的计算结过通过cache或者persist方式放到内存中,这样也不一定保证数据不会丢失,如果存储的内存除了问题,也是会导致spark重新根据RDD计算的,所以就有了check

2021-06-26 16:49:17 323

原创 Spark -总结5-DataFrame的select和selectExpr的区别

select:数据DataFrame的方法,是从df中选择列的方式selectExpr: 可以对指定字段进行特殊处理,比如指定别名或者对指定字段调用UDF函数等,也就是说它可构建复杂的表达式其实select与selectExpr函数具有一样的功能效果...

2021-06-26 16:40:27 1138 2

原创 Mysql中count(*) 、count(1)和count(列名)的区别

区别:count(*):包括了所有的列,也就是相当于行数,不会忽略列值为NULL的记录count(1):忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL 的记录count(列名):它包括列名那一列,在统计结果的时候,会忽略列值为空(这里的空不仅仅只是空字符串或者0,null的情况也包括)的计数,即某个字段值为NULL时不统计在执行效率上看,分为如下几种情况:列名为主键,count(列名)会比count(1)快列名不为主键,count(1)会比count(列名)快如果表

2021-06-26 11:12:33 857

原创 总结26 --linux中的jar命令

解释:JAR 文件非常类似 ZIP 文件--准确的说,它就是 ZIP 文件,所以叫它文件包。JAR 文件与 ZIP 文件唯一的区别就是在 JAR 文件的内容中,包含了一个 META-INF/MANIFEST.MF 文件,这个文件是在生成 JAR 文件的时候自动创建的。如果我们使用 JDK 的 jar 命令把它打成 JAR 文件包 test.jar,则这个 JAR 文件的内部目录结构为:  test.jar  |-- META-INF  |  `-- MANIFEST.MF  `-- t

2021-06-22 19:13:47 160

原创 总结25 -- linux下nc命令的使用

nc命令使netcat命令的简称nc命令的作用nc命令所做的就是在两台电脑之间建立连接并返回两个数据流,也可以传输文件啥的。端口的扫描,nc可以作为client发起TCP或UDP连接实现任意的TCP/UDP端口的侦听,nc可以作为server,以TCP或UDP的方式侦听指定端口机器之前进行传输文件通信如果要在主机A上发送消息,能够在主机B上实时的看到主机B的ip:192.168.1.102nc -l 666666解释:实际上就是指定了nc侦听端口666666,nc命令在66666端

2021-06-22 10:54:19 494

原创 azkaban.utils.UndefinedPropertyException: Missing required property ‘azkaban.native.lib‘

使用azkaban调度时出现以下错误: 14-06-2019 19:11:58 PDT initKerberos INFO - Starting job initKerberos at 156056471882514-06-2019 19:11:58 PDT initKerberos INFO - azkaban.webserver.url property was not set14-06-2019 19:11:58 PDT initKerberos INFO - job JVM args: -D

2021-06-20 20:41:04 922

原创 Spark -总结4- parallelize、makeRDD、textFile介绍和区别

在Spark中创建RDD的方式分为三种:1、从外部存储创建RDD2、从集合中创建RDD3、从其他RDD创建从集合中创建RDD:parallelize和makeRDD从读取外部数据集创建RDD:textFile1、parallelize调用SparkContext 的 parallelize()方法,将一个存在的集合,变成一个RDD2、makeRDD2.1、方法一:/** Distribute a local Scala collection to form an RDD. *

2021-06-19 22:22:46 1249 2

原创 SparkSQL -总结3- RDD的概念和特性

RDD 概念1、RDD是一个抽象分布式数据集DataSet,是一个数据描述。2、RDD是Spark提供的核心抽象,表示一个可以进行并行操作的元素的不可变集合。DataSet 可以理解成一个集合,集合里面存储了很多数据。Distributed 它的数据是分布式存储的,每个分区指向一个存储在内存或者硬盘中的数据块 (Block)。Resilient 弹性在面对出错情况(例如任意一台节点宕机)时,Spark 能通过 RDD 之间的依赖关系恢复任意出错的 RDD(如 B 和 D 可以算出最后的 RD

2021-06-19 21:47:10 238

原创 SparkSQL -总结2- 中DSL风格和SQL风格的使用

准备工作:读取文件并转换为DataFrame或DataSetval lineRDD= sc.textFile("hdfs://192.168.1.101:9000/person.txt").map(_.split(" "))case class Person(id:Int, name:String, age:Int)val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))val personDF = pers

2021-06-19 21:30:47 551

原创 总结24 -- jps命令及常用参数说明

ps命令用于显示当前进程 (process) 的状态。jps用于显示当前java进程的状态。jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况jps [ options ] [ hostid ]选项-q 仅输出VM标识符,不包括class name,jar name,arguments in main metho

2021-06-19 20:58:38 606

原创 Mysql语句执行顺序

Mysql语句书写顺序:select[distinct] from join(如left join) on where group by having union order by limit Mysq语句执行顺序from on join where group by having select distinct union order by分析如下:case 1:``select a.Customerfrom or

2021-06-19 20:46:15 507

原创 exception: org.apache.hadoop.security.AccessControlException Permission denied: user=µȴ, access=WRIT

使用IDEA写sparkSQL向hive中建表插入数据出现以下异常:exception: **org.apache.hadoop.security.AccessControlException** Permission denied: user=µȴ, access=WRITE, inode="/user/hive/warehouse":root:supergroup:drwxr-xr-x原因:1、远程提交的情况下如果没有hadoop 的系统环境变量,就会读取当前主机的用户名,所以Hadoop集群的

2021-06-19 19:35:04 799

原创 Java -- 日期对象转字符串、字符串转日期

字符串转成时间(Date)对象和时间(Date)对象转换成时间字符串是开发中经常会遇到的在API中,java.text.SimpleDateFormat下有一个叫SimpleDateFormat的对象,就是专门用来实现时间这种和字符串之间的互相转换。方法:使用SimpleDateFormat对象1、创建SimpleDateFormat对象的实例SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");提..

2021-06-11 10:43:22 1505 1

原创 spark -总结1- CompactBuffer是什么类型

CompactBuffer并不是scala里定义的数据结构,而是spark里的数据结构,它继承自一个迭代器和序列,所以它的返回值是一个很容易进行循环遍历的集合。spark的groupByKey算子结果按key进行分组,生成了一组CompactBuffer结构的数据,PairRDD特有的 ,普通RDD没有示例如下:scala> val words = Array("one", "two", "two", "three", "three", "three")words: Array[S

2021-06-10 22:37:01 2390 3

原创 sqoop -- 查看数据库出现错误:javax.net.ssl.SSLException: closing inbound before receiving peer‘s close_notify

执行sqoop命令:[root@master lib]# sqoop list-databases --connect jdbc:mysql://192.168.1.200:3306 --username root --password Root123@出现以下错误:** BEGIN NESTED EXCEPTION **javax.net.ssl.SSLExceptionMESSAGE: closing inbound before receiving peer's close_n

2021-06-09 19:18:29 352

原创 Scala -补充- 特质trait与抽象类abstract的区别

1、特质trait与抽象类abstract的区别1、抽象类不能多继承,只能单继承;特质可以多继承2、抽象类有带参数的构造函数; 特质没有带有参数的构造函数(比如:trait t(i:Int){} ,这种声明是错误的 )3、都有抽象方法和已经实现的方法,子类重载其非抽象成员都必须加上override关键字,子类重载其抽象成员时override关键字可选;2、注意事项:1、scala中一个类可以继承多个特质 中间用with相连;trailt中的定义的方法,可以有实现,也可以没有实现;.

2021-06-07 21:51:20 1198

原创 Scala -scala进阶- 样例类、模式匹配、偏函数

目录一、样例类(重点)1.1、样例类介绍1.2、样例类特点1.3、样例类与普通类的区别1.4、样例类的实战1.5、普通类模仿样例类二、模式匹配2.1、简单介绍2.2、值匹配2.2.1、值匹配实战2.2.2、Scala对于常量还是变量模式的规则2.3、类型匹配2.4、集合匹配2.4.1、字符串匹配2.4.2、数组匹配2.4.3、列表匹配2.4.4、元组匹配2.5、样例类匹配2.6、unapply提取器2.6.1、unapply规则

2021-06-06 13:36:48 444

原创 Scala -scala进阶- 高阶函数的初次体验

目录高阶函数1、高阶函数的定义2、常见的高阶函数3、常见高阶函数的代码示例3.1、filter函数3.2、foreach函数3.3、map函数3.4 reduce函数3.5 flatMap函数3.6 flatten 函数高阶函数1、高阶函数的定义定义:如果一个函数的传入参数为函数或者返回值是函数,则该函数即为高阶函数一般高阶函数的类型有:1、传入参数为函数2、传入参数为匿名函数3、传入参数为方法4、传入参数为方法(方法自动转换成...

2021-06-03 21:06:06 143

原创 【大数据开发】Java基础-总结23-java中的static变量、static方法、static执行顺序总结

说明:最近想到了static代码块、普通代码块与构造函数的执行顺序,故经过试验了一下,写了一下总结,以防自己再次遗忘;另外,也顺便查阅资料,总结了下日常对static方法、static变量的说明。1、static注意点1、在static方法内部不能调用非静态方法和非静态变量,反而非静态方法可以调用静态方法和访问静态变量。2、如果static修饰了一个方法,在没有创建任何对象的前提下,可以仅仅通过类本身调用static方法。3、如果static修饰了一个变量,在没有创建任何对象的前..

2021-06-03 17:45:49 133 1

原创 Scala -scala基础- 编码规范、变量和常量定义与区别、类型层级关系

scala基础1、编码规范 1.1、文件名和编码# 源文件名必须和它包含的顶层类名保持一致,包括大小写,并以.scala作为后缀名# 源文件编码必须是 UTF-8 1.2、代码书写规范列宽:每行不超过150个字符缩进:4个空格,严禁使用Tab注释风格:使用java风格注释命名规范:驼峰命名法括号的使用: 基本原则:K&R风格 。 左花括号({)前不能换行,在其后换行。 在右花括号(})前要有换行。 ...

2021-06-02 20:29:57 611 3

Hbase配置所需要的配置文件.zip

hbase配置需要的配置文件已配置好,可以直接拿来用

2021-05-06

hadoop2.7.6编译.zip

hadoop2.9.1 hadoop.dll winutils.exe编译资源下载,亲测可用

2021-04-25

集群搭建所需要的配置文件.zip

完全分布式集群搭建需要的四个配置文件 HA集群搭建需要的主要两个配置文件 配置时间同步服务器的ntp.conf文件

2021-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除