Genebrother-CSDN博客

原创关于Clickhouse拒绝远程连接报错的解决方式

最近在新安装ck，使用dbeaver连接的时候，显示拒绝连接，按照以下操作，解决问题1、查询服务器防火墙是否开启，如果开启，请先关闭，查询防火墙是否开启systemctl status firewalld关闭防火墙systemctl stop firewalld2、添加白名单vi /etc/clickhouse-server/users.xml修改为： <networks incl="networks" replace="replace"> .

2021-08-11 08:56:13 6029 3

原创 sparkSQL----读取csv格式创建DataFrame

package sparksql.day01import org.apache.spark.sql.SparkSessionobject scvSQL { def main(args: Array[String]): Unit = { val session = SparkSession.builder() .master("local[*]") .appName("dataframe") .getOrCreate()//不需要创建RDD .

2021-07-03 11:09:41 786

原创 SparkSQL---使用元组创建DataFrame

package sparksql.day01import org.apache.spark.sql.{DataFrame, SparkSession}object tupleDataFrame { def main(args: Array[String]): Unit = { val session = SparkSession.builder() .master("local[*]") .appName("dataframe") .getOrCre.

2021-07-03 00:48:07 649

原创 SparkSQL---使用普通类创建DataFrame

创建一个Man类，package sparksql.day01import scala.beans.BeanPropertyclass Man { @BeanProperty var name: String= _ @BeanProperty var age: String= _ def this(name:String,age:String){ this() this.name = name this.age = age }}M

2021-07-03 00:43:30 357

原创 SparkSQL---使用样例类创建DataFrame

package sparksql.day01/*使用样例类，创建DataFrame对象，df = rdd + schema 信息*/import org.apache.spark.sql.SparkSession//使用case class 类创建DataFrameobject SparkDataFram { def main(args: Array[String]): Unit = {//构建sparksession对象 val session = SparkSess.

2021-07-03 00:33:21 481

原创 scala 中样例类的应用场景与定义

样例类1、样例类的特性样例类首先是类，除此之外它是为模式匹配而优化的类，样例类用case关键字进行声明。样例类主要是使用在我们后面的sparkSQL当中，通过样例类来映射我们的表当中的对象。首先，我们来说怎么定义样例类： case class Student(name:Stirng,age:Int,city:Sting) 定义这样的类有以下几个特点：1、样例类默认实现了getter方法，当构造方法的成员变量被var修饰时，会重写setter方法。样例类实现了apply方

2021-06-27 11:36:13 886 1

原创 Scala 中伴生类与伴生对象

定义：实现类似 Java中那种既有实例成员又有静态成员的类的功能。为什么会存在伴生类？原因是在scala语法中，去掉了static关键字，不能像JAVA中一样，将成员变量和成员方法使用static修饰，是其成为静态方法和静态成员变量。但是在scala中，又确实需要这样的方式。所以，在scala中，就出现了伴生类的概念。如何定义一个伴生类呢？ 1、定义一个 class并在这里面实现所有的实例成员。 2、添加一个 object ，这个 object要与上面的 class同名，然后在这...

2021-06-27 10:50:45 360

原创 Spark 算子----FlatMap 【切分压平算子】

将传进去的数组或者字符串进行切分操作package sparkcoreimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject flatMapDemo { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir","D:\\spark") val conf =

2021-06-24 15:24:02 352 1

原创如何查看hadoop的resourceManager使用的job调度器

hadoop的job调度器一共有3种，第一种是FIFO调度器、第二种是容量调度器、第三种是公平调度器。可以在resourceManager的web界面查看http://hadoop1.com:8088/cluster/cluster：这里的hadoop 版本是配置job的调度器的参数是在yarn-site.xml文件种配置<property> <name>yarn.resourcemanager.scheduler.class</name&gt

2021-06-23 12:26:08 302

原创 lzo 压缩文件并且创建索引

lzo 压缩算法压缩比较好，默认的lzo文件是不支持切片操作的，需要手动创建索引文件1、确保服务器内已经安装好lzop命令lzop message.log

2021-06-07 15:34:36 601

原创 [HIVE]中行转列的相关函数

1、concat 行转列的拼接函数，例如：查询的结果为zhangsa2、concat_ws3、collect_set

2021-06-04 13:55:22 178

原创【Hive】 order by 、sort by 、distribute by 、cluster by 排序详解

【order by 】：全局排序，并且只有在一个reduce 的情况【sort by 】【distribute by 】【cluster by】

2021-06-03 20:26:59 1418 1

原创 cogroup 算子

package sparkcoreimport org.apache.spark.{SparkConf, SparkContext}/*协分组通group 相同，group 是作用在单个RDD上，对于cogroup ，将2个rdd 进行协分组的时候，返回的rdd 是一个key 为相同的key ，values 为迭代器，第一个迭代器中的内容为key 在rdd1 中的values 的值第二个迭代器中的内容为key 在rdd2 中的values 的值 */object cogroupDem.

2021-05-23 15:20:39 195

原创 spark groupBy算子解析

对于groupBy算子，传入的参数是可变的，虽然都是在做分组，groupBy 可以在传入的参数中指定使用k-v中的哪一个值进行分组，使得该算子更加的灵活，特殊的，如果使用k 进行分组，相对于groupByKey，有什么区别？？？1、在效率上，groupByKey 效率更高，在进行shuffle的过程中，传输的数据量小，那么使得该算子的运行效率更高。2、groupBy的返回是一个带有k和k-v的结构，数据重复冗余。综上：在使用分组算子groupBy和groupByKey中选择的时候，根据K分组的时

2021-05-21 01:08:49 877

原创 groupByKey的聚合原理

2021-05-21 00:39:37 154

原创 Spark core 计算连续登录天数、连续使用次数、连续xxx的案例实操

1、给出以下数据，计算用户连续登录的天数，数据格式为：用户,登录日期user001,2020-03-14user002,2020-03-13user001,2020-03-19user001,2020-03-18user002,2020-03-12user001,2020-03-20user002,2020-03-17user001,2020-03-10user002,2020-03-14user001,2020-03-15user002,2020-03-15思路解析：首

2021-05-04 11:22:10 510

原创 kafka 同一个消费者消费多个主题的多个分区

消费者使用poll拉取数据的时候，返回的是一个records，对于该record，是将所有主题的所有分区的数据全部组成一个集合，返回给消费者，但是当我同一个消费者消费2个不同的topic数据的时候，对于2种topic，数据的格式肯定不一样，做的业务处理也肯定是不一样的，那么我们如何在同一个消费者内，在不同的topic之间做2套不同的业务逻辑。详情见代码package com.kafka;import org.apache.kafka.clients.consumer.ConsumerConf.

2021-03-28 15:20:30 3823

原创 kafka 数据积压的2种解决方式

对于kafka的数据积压，需要搞清楚，到底是在哪里数据积压了对于一般的处理，是以下2种处理方式1、增加分区partitions数，但是partition的数量并不是无限增大的，他是有上限的，一般partition的分区数的数不能大于kafka的broker数，因为我做过测试，当分区数大于broker数的时候，会出现无法消费数据的情况 ./kafka-topics.sh –zookeeper hostname:2181 -alter –partitions 待修改的分区数–topic 主题...

2021-03-28 00:27:50 6521

原创 kafka 生产者订阅主题topic的2种方式以及差异

kafka 消费指定分区数据参考前一篇https://blog.csdn.net/weixin_38638777/article/details/115242721

2021-03-28 00:20:18 1146

原创 kafka 消费指定分区数据

创建kafka消费者的代码如下：1、构建配置参数 1.1 配置bootstrap.server 参数：hadoop102:9092--------指定kafka集群的地址，可以写多个，防止这个节点宕机无法运行 1.2 配置kafka接受的数据的k-v值的序列化参数 props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); props.put("value...

2021-03-26 14:31:55 1758

原创 java中将几个字符串转化为list集合

伪代码：Arrays.asList("test01"，"test02"，"test03")

2021-03-26 10:07:30 891

原创大数据-hadoop-Hive 自定义函数

在hive中，自定义的函数可以根据功能的划分为3中：第一种是：1进一出，我们称之为UDF函数，类似的功能有大写转小写；在name字段前加上一个前缀等功能，这种函数的功能是将传入的1个字段进行转换成另外一个字段第二种是：1进多出，我们称之为UDTF函数，类似的函数功能是explode函数，输入一行数据，可以出来多组的数据第三种是：多进一出，我们称之为UDAF函数，类似的函数有sum,avg等聚合函数,输入多行数据，只出来一个结果下面我们来看一下，如何自定义这些函数1、UDF函数1、导

2021-03-22 14:03:02 357

原创 CDH 5.16.2 Kafka启动Kafka MirrorMaker 失败

如图，点击kafka ，配置----KafkaMirrorMaker ，现在Topic Whiltelist白名单重启kafka启动，解决无法启动MirrorMaker 的问题

2021-03-22 00:45:02 807 2

原创 Flume 采集数据到hdfs 小文件优化

众所周知，从flume采集数据到hdfs的时候，需要避免小文件的产生，太多的小文件，在数据处理的过程中，会降低数据处理的性能，那么在日常的flume采集到hdfs的文件，如果避免小文件的产生？在flume的sink操作时，有涉及到3个默认的参数，分别是:a1.sinks.k1.hdfs.rollIntervala1.sinks.k1.hdfs.rollSize a1.sinks.k1.hdfs.rollCount这三个参数分别表示（rollInterval）：每次间隔多久往hd.

2021-03-20 13:31:19 688

原创解决yum 下载的时候 Another app is currently holding the yum lock； waiting for it to exit.

yum 下载的时候，报错如下一直显示被占用，输入命令m -rf /var/run/yum.pid即可搞定

2021-03-16 09:05:59 75

原创执行hive查询语句报错org.apache.hadoop.security.AccessControlException: Permission denied: user=root...

产生原因：在hdfs的文件系统上，没有root用户，而hive的操作默认使用了root用户，在检查文件的权限的时候，发生报错解决思路：1、关闭hdfs的权限检查在hdfs-site.xml的配置文件中，将dfs.permissions修改为False 默认为开启状态2、默认使用hdfs用户去操作使用hdfs用户（最高权限）hadoop dfs -mkdir -p /user/root（如果路径存在可不执行）hadoop dfs -chown root:hdfs /user/r

2021-03-15 17:04:02 643

原创 redhat 7.x 替换Centos源，使用yum在线更新组件

1、首先卸载redhat本机自带的yum工具rpm -qa | grep yum | xargs rpm -e --nodeps2、下载已经准备好的yum工具centos源https://download.csdn.net/download/weixin_38638777/156780243、解压并且安装rpm -ivh yum-*4、将Centos-7.repo文件复制到/etc/yum.repos.d/5、执行yum clean allyum makecache.

2021-03-09 11:31:32 189

原创 sparkSQL 自定义UDAF函数（强类型的方式）spark3.x

package sparksql.day01import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.{SparkSession, functions}import org.apache.spark.sql.expressions.Aggregatorobject sparkUDAF1 { def main(args: Array[String.

2021-03-06 23:50:31 303

原创 sparkSQL 自定义UDAF函数（弱类型的方式）spark1.x spark2.x

package sparksql.day01import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.a.

2021-03-06 23:12:49 189

原创 2021-02-21 spark coalesce 算子

算子功能：减少分区数量，应用场景：ABC 3个分区分别处理10w条原始数据，但是在处理的筛选的过程中，过滤掉了大部分的数据，此时的ABC3个分区的数据量只有1000条，那么此时还使用原始的3个分区去处理这1000条数据，消耗太多，即可使用coaliesce算子，减少分区的数量代码如下： package sparkcore.day01import org.apache.spark.{SparkConf, SparkContext}object dem...

2021-03-06 22:28:52 131

原创 sparkSQL 自定义UDF函数

package sparksql.day01import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject sparkUdf { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(Level.ERROR) .

2021-03-06 22:27:38 322

原创 Scala 中的至简原则

1、在scala中，return 可以省略不写，自动默认使用最后一行作为返回值；def function (Int a,Int b ) :Int={ return a+b}简化后：def function (Int a,Int b ) :Int={ a+b}2、如果函数体只有一行代码，可以省略花括号简化后：def function (Int a,Int b ) :Int=a+b...

2021-03-01 22:08:35 368

原创使用脚本查询集群节点运行情况出现 bash: jps: command not found

1、首先确保远程集群全部安装好了java 的jdk，在本机运行jps ，正常运行2、直接创建软连接ln -s /opt/module/jdk1.8.0_144/bin/jps /usr/local/bin/jps3、在~/.bashrc中添加jdk的路径，添加完之后记得source ~./bashrc...

2021-02-28 14:55:14 147

原创 IDEA中无法新建scala class 项目

比较诡异的一件事发生了，我本地环境安装好了scala 2.11.7 现在新建好maven项目后，新建无法找到scala class我pom文件里面也引用了scala我的scala-sdk也是安装好的很奇怪的事情，在网上搜了很多解决方法是添加这个scala-sdk，我明明已经有了，为什么还不能创建，索性直接删除这个，重新添加重新创建文件，发现现在已经可以新建scala class文件了可能是idea 没有及时刷新的问题吧，记住，删除，重新添加即可...

2021-02-18 15:20:56 275 1

原创 CentOS7挂载共享文件夹

mkdir /mnt/win/usr/bin/vmhgfs-fuse .host:/ /mnt/win -o subtype=vmhgfs-fuse,allow_other

2021-02-05 11:50:18 323

原创 Java 中字节数组byte 与String 直接的相互转换

1、String 转byteString str= “123456789”；bytu[] by = str.getBytes();2、byte 转成String 2.1 不指定编码格式 byte[] by = {102,111,112};String str = new String(by); 2.2指定编码格式byte[] by = {102,111,112};String str = new String(by,"UTF-8");...

2020-10-24 02:11:14 903

原创 2020-10-21 auditd: Could not open dir /var/log/audit (Permission denied) 报错解决

auditd 启动报错如下Oct 21 09:36:39 localhost kernel: type=1400 audit(1603244199.591:5): avc: denied { read } for pid=3061 comm="auditd" name=" audit" dev="dm-0" ino=100663367 scontext=system_u:system_r:auditd_t:s0 tcontext=system_u:object_r:dosfs_t:s0 tc

2020-10-21 10:16:14 2272 3

原创 ssh 192.168.3.103 jps 报错 bash: jps: command not found

现象描述：[root@localhost ~]# ssh 192.168.3.103 jpsbash: jps: command not found很奇怪？？？？？首先怀疑192.168.3.102机器上jdk的环境没有安装，所以先去192.168.3.102 机器执行命令jps ，查看是够可以执行成功[root@192 ~]# jps1488 Jps[root@192 ~]#结果是可以执行成功，这个就尴尬了，既然已经安装好了jdk的环境，那么为什么在使用ssh远程连接的时候，

2020-09-18 15:14:58 739

原创 shell for循环的N种写法

1、整数for循环for((i=0;i<10;i++))do echo $idonefor i in {1..10}do echo $idone2.字符的遍历for host in hadoop01 hadoop02 hadoop03do echo $hostdone3、遍历字符数组hostname=(hadoop102 hadoop103 hadoop104)for host in ${hostname[@]}do...

2020-09-18 09:16:51 448

原创利用OpenSSL将pem格式证书转化为cer格式证书

openssl x509 -inform pem -in 输入的文件【pem格式】 -outform der -out 输出的文件【cer格式】例如openssl x509 -inform pem -in sm2.444.sig.crt.pem -outform der -out sm2.444.sig.crt.cer

2020-07-27 10:56:52 2074