99滴神-CSDN博客

原创 HDFS页面操作文件出现Permission denied: user=dr.who, access=WRITE, inode=“/user/lq“:lq:supergroup:drwxr-xr-x

ERROR：HDFS页面操作文件出现Permission denied: user=dr.who, access=WRITE, inode=“/user/lq”:lq:supergroup:drwxr-xr-x。hdfs-default.xml配置文件中dfs.permissions.enabled的值默认是true,也就是默认开启权限检查。排查原因：当前用户权限不够，因为hadoop中http访问的静态用户名默认是dr.who,它没有啥特殊含义。注：测试环境可以这样设置，企业生产环境不建议这样设置。

2023-09-10 15:29:08 1429 1

原创 CentOS8: scp出现Permission denied,please try again的解决办法

注：当scp的时候我们发现错误，被拒绝，是因为ssh的权限问题，需要修改权限，进入到/etc/ssh文件夹下，用root用户修改文件sshd_config将PermitRootLogin no / without-password 改为 PermitRootLogin yes，然后重启sshd服务。重启命令：service NetworkManager restart。

2023-04-05 23:40:01 1682 2

原创 Shell笔记

1、shell中的变量用法1.1、变量的命名规则- 命名只能使用英文字母，数字和下划线。首个字符不能以数字开头- 字母习惯使用大写- 中间不能有空格- 不能使用标点符号- 不能使用bash里的关键字（可用help命令查看保留关键字）1.2、变量的使用规则- 直接定义变量名称，没有类型需要强调（类似于数学中:x=1,y=2,z=x+y）- 赋值时，"="前后不能有空格- 命令的执行结果赋值给变量时，使用反单引号如：TIME=`date`- 调用变量时，必须使用$ 格式： $变量名或

2021-09-08 09:02:09 571

原创 Kafka笔记

Kafkfa笔记一、简介[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DC3ZFZeg-1630938851023)(C:\Users\等待\AppData\Roaming\Typora\typora-user-images\1624285209787.png)]二、部署(伪分布)2.1、准备工作#上传、解压、更名、配置环境变量tar -zxvf kafka_2.11-2.3.0.tgz -C /usr/local/#配置KAFKA_HOME环境变量 v

2021-09-06 22:34:48 592

原创 scala笔记

scala注意点一、方法中的注意点1、方法的定义def add(x:Int,y:Int):Int = x+ydef add1(x:Int,y:Int)=x+y//与上面两种方法有区别，省略= 始终返回unit 此处值得注意def add2(x:Int,y:Int) {x+y}2、空参、无参方法的注意点def add3=System.getProperty("user.name")def add4()=System.getProperty("user.name")//空参方法可以作为

2021-09-06 22:34:02 144

原创 Structured Streaming笔记

Structured Streaming笔记标准参考文档网站：http://spark.apache.org/docs/2.3.2/structured-streaming-programming-guide.html2、Structured Streaming 入门Scoket Source如下2.1、简单stuctured Streaming模板步骤： 1、需求梳理 2、 Structured Streaming 代码实现 3、运⾏ 4、验证结果需求梳理： 1、编写⼀个流

2021-09-06 22:33:11 113

原创 Spark Stream笔记

Spark Streaming笔记⼊⼝类SparkStreaming//构造⽅法 def this(sparkContext: SparkContext, batchDuration: Duration) = { this(sparkContext, null, batchDuration) } def this(conf: SparkConf, batchDuration: Duration) = { this(StreamingContext.createNewSparkContext

2021-09-06 22:32:40 70

原创 sparkSQL笔记

SparkSQL笔记一、DataFrameDataFrame：理解了RDD，DataFrame就容易理解些，RDD是一个数据集，DataFrame在RDD的基础上加了Schema（描述数据的信息，可以认为是元数据，DataFrame曾经就有个名字叫SchemaRDD）。1.1、 SparkSQL基本编程1.1.1、SparkSession的创建1、在spark-shell中会自动创建SparkContext和SparkSession[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直

2021-09-06 22:32:06 112

原创 spark笔记

spark笔记1、hadoop与spark的关系与区别1.1、处理流程比较总结：1、Spark把运算的中间数据存放在内存，迭代计算效率更高；mapreduce的中间结果需要落地，需要保存到磁盘，这样必然会有磁盘io操做，影响性能。（不能说mr迭代不使用内存，只是不主打内存）2、Spark容错性高，它通过弹性分布式数据集RDD来实现高效容错；mapreduce的话容错可能只能重新计算了，成本较高。3、Spark更加通用，spark提供了transformation和action这两大类的多个功能a

2021-09-06 22:31:04 114

原创 Azkaban脚本模板

步骤：将 ***.project和***.flow 打包成zip ，然后上传到azkaban就好了示例1：test.ziptest.projectazkaban-flow-version: 2.0test.flownodes: - name: jobA type: command config: command: echo "this is a simple test"示例2：test2.ziptest.projectazkaban-flow

2021-09-06 22:05:29 146

原创 Name node is in safe mode.（NameNode处于安全模式）

INFO client.RMProxy: Connecting to ResourceManager at master/172.18.63.28:8032 WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this..

2021-07-15 08:47:24 305

原创 hfds相关命令

hdfs dfs 常用命令如下：hdfs dfs -put file /#file指的是你本地文件路径地址，/指的是hdfs的根路径hdfs dfs -ls /hdfs dfs -put file /hdfs dfs -mkdir /dirnamehdfs dfs -text /filename#直接在linux中查看此filename的内容hdfs dfs -rm /filenamehdfs dfs 其他命令如下：hdfs dfs -appendToFile localf

2021-07-06 23:12:21 424

原创总结27 -- E45: ‘readonly‘ option is set (add ! to override)

有一次通过vim命令修改文件出现以下错误：E45: 'readonly' option is set (add ! to override)该错误为当前用户没有权限对文件做修改解决办法:可以:wq! 强行保存退出；

2021-07-06 17:55:53 173

原创修改NameNode端口后，hive表查询报错

1、修改ip地址后，hdfs上的数据肯定是没法用的，只能删掉重新格式化namenode2、修改namenode的端口后，由于ip地址没有改变，数据还是可以用的，怎么用请看下面的方法我的问题如下：将namenode的端口9000 改为 8020后，连接hive，访问hdfs上的数据出现以下以下错误：FAILED: SemanticException Unable to determine if hdfs://master:9000/data/nshop/ods/dim_pub_base_area i

2021-07-06 17:47:26 645

原创 Plugin ‘net.alchim31.maven:scala-maven-plugin:3.2.0‘ not found

解决方法：在maven库中的settting.xml中的mirrors标签修改一下就好修改前： <mirrors> <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <mirrorOf>cen

2021-06-29 17:35:45 3674

原创 error: ＜class ‘socket.error‘＞, [Errno 111] Connection refused: file: /usr/lib64/python2.7

配置完应用后，重新加载配置出现以下错误：supervisorctl reloaderror: <class 'socket.error'>, [Errno 111] Connection refused: file: /usr/lib64/python2.7原因：因为没有启动supervisor服务首先检查supervisord进程：ps aux|grep supervisord结果是supervisord进程不在了所以启动supervisord，在进行相关supervis

2021-06-29 10:44:01 2248

原创 Apache国内镜像下载地址

Apache的国内镜像地址如下：https://mirrors.tuna.tsinghua.edu.cn/apache/这个地址下载hadoop、hbase等Apache旗下的貌似速度快一些，大多数都能下载

2021-06-28 17:21:13 1680

原创 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR

mysql数据导入hive出现以下错误:ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.经过查阅资料可知，发现是自己路径设置可能没有设置，肯定有问题。方式一：检查HIVE_CONF_DIR是否有设置echo $HIVE_CONF_DIR如果为空，则是说明没有设置HIVE_CONF_DIR 路径vim ~/.

2021-06-27 19:25:00 1374 1

原创 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apa

sqoop从mysqsql中导入到hive，出现以下错误:21/06/27 17:11:49 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf at org.apache.sqoop.hive.HiveConfig.getHiveConf(HiveConfig.java:50)

2021-06-27 17:25:54 279

原创 ERROR java.lang.RuntimeException: azkaban.jobExecutor.utils.process.ProcessFailureException

错误日志：java.lang.RuntimeException: azkaban.jobExecutor.utils.process.ProcessFailureException at azkaban.jobExecutor.ProcessJob.run(ProcessJob.java:304) at azkaban.execapp.JobRunner.runJob(JobRunner.java:784) at azkaban.execapp.JobRunner.doRun(JobRunner.j

2021-06-27 17:04:44 1615

原创 Spark -总结6- checkpoint的简单介绍

为什么要用checkpoint呢?checkpoint的意思就是建立检查点,类似于快照，比如，在spark计算中，计算流程DAG很长，要是将整个DAG计算完成并得出结果，需要很长时间，在这等待时间中突然中间数据丢失，spark就会根据RDD的依赖关系从头到尾开始计算一遍，这样会很费性能的，怎么解决呢？这就需要用到缓存了，我们可以将中间的计算结过通过cache或者persist方式放到内存中，这样也不一定保证数据不会丢失，如果存储的内存除了问题，也是会导致spark重新根据RDD计算的，所以就有了check

2021-06-26 16:49:17 323

原创 Spark -总结5-DataFrame的select和selectExpr的区别

select：数据DataFrame的方法，是从df中选择列的方式selectExpr: 可以对指定字段进行特殊处理，比如指定别名或者对指定字段调用UDF函数等，也就是说它可构建复杂的表达式其实select与selectExpr函数具有一样的功能效果...

2021-06-26 16:40:27 1138 2

原创 Mysql中count(*) 、count(1)和count(列名)的区别

区别：count(*)：包括了所有的列，也就是相当于行数，不会忽略列值为NULL的记录count(1)：忽略所有列，用1代表代码行，在统计结果的时候，不会忽略列值为NULL 的记录count(列名)：它包括列名那一列，在统计结果的时候，会忽略列值为空（这里的空不仅仅只是空字符串或者0，null的情况也包括）的计数，即某个字段值为NULL时不统计在执行效率上看，分为如下几种情况：列名为主键，count(列名)会比count(1)快列名不为主键，count(1)会比count(列名)快如果表

2021-06-26 11:12:33 857

原创总结26 --linux中的jar命令

解释：JAR 文件非常类似 ZIP 文件--准确的说，它就是 ZIP 文件，所以叫它文件包。JAR 文件与 ZIP 文件唯一的区别就是在 JAR 文件的内容中，包含了一个 META-INF/MANIFEST.MF 文件，这个文件是在生成 JAR 文件的时候自动创建的。如果我们使用 JDK 的 jar 命令把它打成 JAR 文件包 test.jar，则这个 JAR 文件的内部目录结构为：　　test.jar　　|-- META-INF　　|　 `-- MANIFEST.MF　　`-- t

2021-06-22 19:13:47 160

原创总结25 -- linux下nc命令的使用

nc命令使netcat命令的简称nc命令的作用nc命令所做的就是在两台电脑之间建立连接并返回两个数据流，也可以传输文件啥的。端口的扫描，nc可以作为client发起TCP或UDP连接实现任意的TCP/UDP端口的侦听，nc可以作为server，以TCP或UDP的方式侦听指定端口机器之前进行传输文件通信如果要在主机A上发送消息，能够在主机B上实时的看到主机B的ip：192.168.1.102nc -l 666666解释：实际上就是指定了nc侦听端口666666，nc命令在66666端

2021-06-22 10:54:19 494

原创 azkaban.utils.UndefinedPropertyException: Missing required property ‘azkaban.native.lib‘

使用azkaban调度时出现以下错误： 14-06-2019 19:11:58 PDT initKerberos INFO - Starting job initKerberos at 156056471882514-06-2019 19:11:58 PDT initKerberos INFO - azkaban.webserver.url property was not set14-06-2019 19:11:58 PDT initKerberos INFO - job JVM args: -D

2021-06-20 20:41:04 922

原创 Spark -总结4- parallelize、makeRDD、textFile介绍和区别

在Spark中创建RDD的方式分为三种:1、从外部存储创建RDD2、从集合中创建RDD3、从其他RDD创建从集合中创建RDD：parallelize和makeRDD从读取外部数据集创建RDD：textFile1、parallelize调用SparkContext 的 parallelize()方法，将一个存在的集合，变成一个RDD2、makeRDD2.1、方法一：/** Distribute a local Scala collection to form an RDD. *

2021-06-19 22:22:46 1249 2

原创 SparkSQL -总结3- RDD的概念和特性

RDD 概念1、RDD是一个抽象分布式数据集DataSet，是一个数据描述。2、RDD是Spark提供的核心抽象，表示一个可以进行并行操作的元素的不可变集合。DataSet 可以理解成一个集合，集合里面存储了很多数据。Distributed 它的数据是分布式存储的，每个分区指向一个存储在内存或者硬盘中的数据块 (Block)。Resilient 弹性在面对出错情况（例如任意一台节点宕机）时，Spark 能通过 RDD 之间的依赖关系恢复任意出错的 RDD（如 B 和 D 可以算出最后的 RD

2021-06-19 21:47:10 238

原创 SparkSQL -总结2- 中DSL风格和SQL风格的使用

准备工作：读取文件并转换为DataFrame或DataSetval lineRDD= sc.textFile("hdfs://192.168.1.101:9000/person.txt").map(_.split(" "))case class Person(id:Int, name:String, age:Int)val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))val personDF = pers

2021-06-19 21:30:47 551

原创总结24 -- jps命令及常用参数说明

ps命令用于显示当前进程 (process) 的状态。jps用于显示当前java进程的状态。jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令，简单实用，非常适合在linux/unix平台上简单察看当前java进程的一些简单情况jps [ options ] [ hostid ]选项-q 仅输出VM标识符，不包括class name,jar name,arguments in main metho

2021-06-19 20:58:38 606

原创 Mysql语句执行顺序

Mysql语句书写顺序：select[distinct] from join（如left join） on where group by having union order by limit Mysq语句执行顺序from on join where group by having select distinct union order by分析如下：case 1:``select a.Customerfrom or

2021-06-19 20:46:15 507

原创 exception: org.apache.hadoop.security.AccessControlException Permission denied: user=µȴ, access=WRIT

使用IDEA写sparkSQL向hive中建表插入数据出现以下异常：exception: **org.apache.hadoop.security.AccessControlException** Permission denied: user=µȴ, access=WRITE, inode="/user/hive/warehouse":root:supergroup:drwxr-xr-x原因：1、远程提交的情况下如果没有hadoop 的系统环境变量，就会读取当前主机的用户名，所以Hadoop集群的

2021-06-19 19:35:04 799

Hbase配置所需要的配置文件.zip

hadoop2.7.6编译.zip

集群搭建所需要的配置文件.zip

空空如也