自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(96)
  • 资源 (17)
  • 收藏
  • 关注

原创 关于Clickhouse拒绝远程连接报错的解决方式

最近在新安装ck,使用dbeaver连接的时候,显示拒绝连接,按照以下操作,解决问题1、查询服务器防火墙是否开启,如果开启,请先关闭,查询防火墙是否开启systemctl status firewalld关闭防火墙systemctl stop firewalld2、添加白名单vi /etc/clickhouse-server/users.xml修改为: <networks incl="networks" replace="replace"> .

2021-08-11 08:56:13 6029 3

原创 sparkSQL----读取csv格式创建DataFrame

package sparksql.day01import org.apache.spark.sql.SparkSessionobject scvSQL { def main(args: Array[String]): Unit = { val session = SparkSession.builder() .master("local[*]") .appName("dataframe") .getOrCreate()//不需要创建RDD .

2021-07-03 11:09:41 786

原创 SparkSQL---使用元组创建DataFrame

package sparksql.day01import org.apache.spark.sql.{DataFrame, SparkSession}object tupleDataFrame { def main(args: Array[String]): Unit = { val session = SparkSession.builder() .master("local[*]") .appName("dataframe") .getOrCre.

2021-07-03 00:48:07 649

原创 SparkSQL---使用普通类创建DataFrame

创建一个Man类,package sparksql.day01import scala.beans.BeanPropertyclass Man { @BeanProperty var name: String= _ @BeanProperty var age: String= _ def this(name:String,age:String){ this() this.name = name this.age = age }}M

2021-07-03 00:43:30 357

原创 SparkSQL---使用样例类创建DataFrame

package sparksql.day01/*使用样例类,创建DataFrame对象,df = rdd + schema 信息*/import org.apache.spark.sql.SparkSession//使用case class 类 创建DataFrameobject SparkDataFram { def main(args: Array[String]): Unit = {//构建sparksession对象 val session = SparkSess.

2021-07-03 00:33:21 481

原创 scala 中样例类的应用场景与定义

样例类1、样例类的特性样例类首先是类,除此之外它是为模式匹配而优化的类,样例类用case关键字进行声明。样例类主要是使用在我们后面的sparkSQL当中,通过样例类来映射我们的表当中的对象。首先,我们来说怎么定义样例类: case class Student(name:Stirng,age:Int,city:Sting) 定义这样的类有以下几个特点:1、样例类默认实现了getter方法,当构造方法的成员变量被var修饰时,会重写setter方法。样例类实现了apply方

2021-06-27 11:36:13 886 1

原创 Scala 中伴生类与伴生对象

定义:实现类似 Java中那种既有实例成员又有静态成员的类的功能。为什么会存在伴生类?原因是在scala语法中,去掉了static关键字,不能像JAVA中一样,将成员变量和成员方法使用static修饰,是其成为静态方法和静态成员变量。但是在scala中,又确实需要这样的方式。所以,在scala中,就出现了伴生类的概念。如何定义一个伴生类呢? 1、定义一个 class并在这里面实现所有的实例成员。 2、添加一个 object ,这个 object要与上面的 class同名,然后在这...

2021-06-27 10:50:45 360

原创 Spark 算子----FlatMap 【切分压平算子】

将传进去的数组或者字符串进行切分操作package sparkcoreimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject flatMapDemo { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir","D:\\spark") val conf =

2021-06-24 15:24:02 352 1

原创 如何查看hadoop的resourceManager使用的job调度器

hadoop的job调度器一共有3种,第一种是FIFO调度器、第二种是容量调度器、第三种是公平调度器。可以在resourceManager的web界面查看http://hadoop1.com:8088/cluster/cluster:这里的hadoop 版本是配置job的调度器的参数是在yarn-site.xml文件种配置<property> <name>yarn.resourcemanager.scheduler.class</name&gt

2021-06-23 12:26:08 302

原创 lzo 压缩文件并且创建索引

lzo 压缩算法压缩比较好,默认的lzo文件是不支持切片操作的,需要手动创建索引文件1、确保服务器内已经安装好lzop命令lzop message.log

2021-06-07 15:34:36 601

原创 [HIVE]中 行转列的相关函数

1、concat 行转列的拼接函数,例如:查询的结果为zhangsa2、concat_ws3、collect_set

2021-06-04 13:55:22 178

原创 【Hive】 order by 、sort by 、distribute by 、cluster by 排序详解

【order by 】:全局排序,并且只有在一个reduce 的情况【sort by 】【distribute by 】【cluster by】

2021-06-03 20:26:59 1418 1

原创 cogroup 算子

package sparkcoreimport org.apache.spark.{SparkConf, SparkContext}/*协分组 通group 相同,group 是作用在单个RDD上,对于cogroup ,将2个rdd 进行协分组的时候,返回的rdd 是一个key 为相同的key ,values 为迭代器,第一个迭代器中的内容为key 在rdd1 中的values 的值第二个迭代器中的内容为key 在rdd2 中的values 的值 */object cogroupDem.

2021-05-23 15:20:39 195

原创 spark groupBy算子解析

对于groupBy算子,传入的参数是可变的,虽然都是在做分组,groupBy 可以在传入的参数中指定使用k-v中的哪一个值进行分组,使得该算子更加的灵活,特殊的,如果使用k 进行分组,相对于groupByKey,有什么区别???1、在效率上,groupByKey 效率更高,在进行shuffle的过程中,传输的数据量小,那么使得该算子的运行效率更高。2、groupBy的返回是一个带有k和k-v的结构,数据重复冗余。综上:在使用分组算子groupBy和groupByKey中选择的时候,根据K分组的时

2021-05-21 01:08:49 877

原创 groupByKey的聚合原理

2021-05-21 00:39:37 154

原创 Spark core 计算连续登录天数、连续使用次数、连续xxx的案例实操

1、给出以下数据,计算用户连续登录的天数,数据格式为:用户,登录日期user001,2020-03-14user002,2020-03-13user001,2020-03-19user001,2020-03-18user002,2020-03-12user001,2020-03-20user002,2020-03-17user001,2020-03-10user002,2020-03-14user001,2020-03-15user002,2020-03-15思路解析:首

2021-05-04 11:22:10 510

原创 kafka 同一个消费者消费多个主题的多个分区

消费者使用poll拉取数据的时候,返回的是一个records,对于该record,是将所有主题的所有分区的数据全部组成一个集合,返回给消费者,但是当我同一个消费者消费2个不同的topic数据的时候,对于2种topic,数据的格式肯定不一样,做的业务处理也肯定是不一样的,那么我们如何在同一个消费者内,在不同的topic之间做2套不同的业务逻辑。详情见代码package com.kafka;import org.apache.kafka.clients.consumer.ConsumerConf.

2021-03-28 15:20:30 3823

原创 kafka 数据积压的2种解决方式

对于kafka的数据积压,需要搞清楚,到底是在哪里数据积压了对于一般的处理,是以下2种处理方式1、增加分区partitions数,但是partition的数量并不是无限增大的,他是有上限的,一般partition的分区数的数不能大于kafka的broker数,因为我做过测试,当分区数大于broker数的时候,会出现无法消费数据的情况 ./kafka-topics.sh –zookeeper hostname:2181 -alter –partitions 待修改的分区数–topic 主题...

2021-03-28 00:27:50 6521

原创 kafka 生产者订阅主题topic的2种方式以及差异

kafka 消费指定分区数据参考前一篇https://blog.csdn.net/weixin_38638777/article/details/115242721

2021-03-28 00:20:18 1146

原创 kafka 消费指定分区数据

创建kafka消费者的代码如下:1、构建配置参数 1.1 配置bootstrap.server 参数:hadoop102:9092--------指定kafka集群的地址,可以写多个,防止这个节点宕机无法运行 1.2 配置kafka接受的数据的k-v值的序列化参数 props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); props.put("value...

2021-03-26 14:31:55 1758

原创 java中将几个字符串转化为list集合

伪代码:Arrays.asList("test01","test02","test03")

2021-03-26 10:07:30 891

原创 大数据-hadoop-Hive 自定义函数

在hive中,自定义的函数可以根据功能的划分为3中:第一种是:1进一出,我们称之为UDF函数,类似的功能有大写转小写;在name字段前加上一个前缀等功能,这种函数的功能是将传入的1个字段进行转换成另外一个字段第二种是:1进多出,我们称之为UDTF函数,类似的函数功能是explode函数,输入一行数据,可以出来多组的数据第三种是:多进一出,我们称之为UDAF函数,类似的函数有sum,avg等聚合函数,输入多行数据,只出来一个结果下面我们来看一下,如何自定义这些函数1、UDF函数1、导

2021-03-22 14:03:02 357

原创 CDH 5.16.2 Kafka启动Kafka MirrorMaker 失败

如图,点击kafka ,配置----KafkaMirrorMaker ,现在Topic Whiltelist白名单重启kafka启动,解决无法启动MirrorMaker 的问题

2021-03-22 00:45:02 807 2

原创 Flume 采集数据到hdfs 小文件优化

众所周知,从flume采集数据到hdfs的时候,需要避免小文件的产生,太多的小文件,在数据处理的过程中,会降低数据处理的性能,那么在日常的flume采集到hdfs的文件,如果避免小文件的产生?在flume的sink操作时,有涉及到3个默认的参数,分别是:a1.sinks.k1.hdfs.rollIntervala1.sinks.k1.hdfs.rollSize a1.sinks.k1.hdfs.rollCount这三个参数分别表示(rollInterval):每次间隔多久往hd.

2021-03-20 13:31:19 688

原创 解决yum 下载的时候 Another app is currently holding the yum lock; waiting for it to exit.

yum 下载的时候,报错如下一直显示被占用,输入命令m -rf /var/run/yum.pid即可搞定

2021-03-16 09:05:59 75

原创 执行hive查询语句报错org.apache.hadoop.security.AccessControlException: Permission denied: user=root...

产生原因:在hdfs的文件系统上,没有root用户,而hive的操作默认使用了root用户,在检查文件的权限的时候,发生报错解决思路:1、关闭hdfs的权限检查在hdfs-site.xml的配置文件中,将dfs.permissions修改为False 默认为开启状态2、默认使用hdfs用户去操作使用hdfs用户(最高权限)hadoop dfs -mkdir -p /user/root(如果路径存在可不执行)hadoop dfs -chown root:hdfs /user/r

2021-03-15 17:04:02 643

原创 redhat 7.x 替换Centos源,使用yum在线更新组件

1、首先卸载redhat本机自带的yum工具rpm -qa | grep yum | xargs rpm -e --nodeps2、下载已经准备好的yum工具centos源https://download.csdn.net/download/weixin_38638777/156780243、解压并且安装rpm -ivh yum-*4、将Centos-7.repo文件复制到/etc/yum.repos.d/5、执行yum clean allyum makecache.

2021-03-09 11:31:32 189

原创 sparkSQL 自定义UDAF函数(强类型的方式)spark3.x

package sparksql.day01import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.{SparkSession, functions}import org.apache.spark.sql.expressions.Aggregatorobject sparkUDAF1 { def main(args: Array[String.

2021-03-06 23:50:31 303

原创 sparkSQL 自定义UDAF函数(弱类型的方式)spark1.x spark2.x

package sparksql.day01import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.a.

2021-03-06 23:12:49 189

原创 2021-02-21 spark coalesce 算子

算子功能: 减少分区数量,应用场景:ABC 3个分区分别处理10w条原始数据,但是在处理的筛选的过程中,过滤掉了大部分的数据,此时的ABC3个分区的数据量只有1000条,那么此时还使用原始的3个分区去处理这1000条数据,消耗太多,即可使用coaliesce算子,减少分区的数量代码如下: package sparkcore.day01import org.apache.spark.{SparkConf, SparkContext}object dem...

2021-03-06 22:28:52 131

原创 sparkSQL 自定义UDF函数

package sparksql.day01import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject sparkUdf { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(Level.ERROR) .

2021-03-06 22:27:38 322

原创 Scala 中的至简原则

1、在scala中,return 可以省略不写,自动默认使用最后一行作为返回值;def function (Int a,Int b ) :Int={ return a+b}简化后:def function (Int a,Int b ) :Int={ a+b}2、如果函数体只有一行代码,可以省略花括号简化后:def function (Int a,Int b ) :Int=a+b...

2021-03-01 22:08:35 368

原创 使用脚本查询集群节点运行情况出现 bash: jps: command not found

1、首先确保远程集群全部安装好了java 的jdk,在本机运行jps ,正常运行2、直接创建软连接ln -s /opt/module/jdk1.8.0_144/bin/jps /usr/local/bin/jps3、在~/.bashrc中添加jdk的路径,添加完之后 记得source ~./bashrc...

2021-02-28 14:55:14 147

原创 IDEA中无法新建scala class 项目

比较诡异的一件事发生了,我本地环境安装好了scala 2.11.7 现在新建好maven项目后,新建无法找到scala class我pom文件里面也引用了scala我的scala-sdk也是安装好的很奇怪的事情,在网上搜了很多解决方法是添加这个scala-sdk,我明明已经有了,为什么还不能创建,索性直接删除这个,重新添加重新创建文件,发现现在已经可以新建scala class文件了可能是idea 没有及时刷新的问题吧,记住,删除,重新添加即可...

2021-02-18 15:20:56 275 1

原创 CentOS7挂载共享文件夹

mkdir /mnt/win/usr/bin/vmhgfs-fuse .host:/ /mnt/win -o subtype=vmhgfs-fuse,allow_other

2021-02-05 11:50:18 323

原创 Java 中 字节数组byte 与String 直接的相互转换

1、String 转byteString str= “123456789”;bytu[] by = str.getBytes();2、byte 转成String 2.1 不指定编码格式 byte[] by = {102,111,112};String str = new String(by); 2.2指定编码格式byte[] by = {102,111,112};String str = new String(by,"UTF-8");...

2020-10-24 02:11:14 903

原创 2020-10-21 auditd: Could not open dir /var/log/audit (Permission denied) 报错解决

auditd 启动报错如下Oct 21 09:36:39 localhost kernel: type=1400 audit(1603244199.591:5): avc: denied { read } for pid=3061 comm="auditd" name=" audit" dev="dm-0" ino=100663367 scontext=system_u:system_r:auditd_t:s0 tcontext=system_u:object_r:dosfs_t:s0 tc

2020-10-21 10:16:14 2272 3

原创 ssh 192.168.3.103 jps 报错 bash: jps: command not found

现象描述:[root@localhost ~]# ssh 192.168.3.103 jpsbash: jps: command not found很奇怪?????首先怀疑192.168.3.102机器上jdk的环境没有安装,所以先去192.168.3.102 机器执行命令jps ,查看是够可以执行成功[root@192 ~]# jps1488 Jps[root@192 ~]#结果是可以执行成功,这个就尴尬了,既然已经安装好了jdk的环境,那么为什么在使用ssh远程连接的时候,

2020-09-18 15:14:58 739

原创 shell for循环的N种写法

1、整数for循环for((i=0;i<10;i++))do echo $idonefor i in {1..10}do echo $idone2.字符的遍历for host in hadoop01 hadoop02 hadoop03do echo $hostdone3、遍历字符数组hostname=(hadoop102 hadoop103 hadoop104)for host in ${hostname[@]}do...

2020-09-18 09:16:51 448

原创 利用OpenSSL将pem格式证书转化为cer格式证书

openssl x509 -inform pem -in 输入的文件【pem格式】 -outform der -out 输出的文件【cer格式】例如openssl x509 -inform pem -in sm2.444.sig.crt.pem -outform der -out sm2.444.sig.crt.cer

2020-07-27 10:56:52 2074

redhat7.X 升级yum安装包.zip

redhat7.X 升级yum安装包

2021-03-09

mysql5.7 rpm安装包

mysql的rpm包,直接rpm -ivh 即可安装完成,一键安装,一键安装,一键安装 很简单,需要的请下载

2020-10-20

Hash_1.0.4.zip

Hash工具(可以做MD5/SHA1/CRC32)超级好用,可以计算大文件

2020-07-09

Vtune lisence

Vtune lisence,性能分析

2019-01-04

mysql-connector-java-5.1.46-bin.jar

mysql-connector-java-5.1.46-bin.jar

2018-09-27

C++ Templates简体中文版

C++ Templates简体中文版 全部中文版 扫描档 需要的自己下

2018-07-29

完美解决source 3.5中文乱码

完美解决source 3.5中文乱码 4.0的请移步 完美解决source 3.5中文乱码

2018-04-02

arm-linux-gcc-4.4.3.tar 交叉编译工具链

arm-linux-gcc-4.4.3.tar arm-linux-gcc-4.4.3.tar arm-linux-gcc-4.4.3.tar

2018-03-26

软件工程 原书第9版 pdf 高清版

《软件工程》包含四个部分: 第1部分是对软件工程的一般性介绍,包括软件工程过程和敏捷开发,以及面向对象的设计和设计模式的使用; 第2部分介绍可依赖性和信息安全性问题; 第3部分介绍高级软件工程; 第4部分介绍软件管理,重点介绍技术管理问题。

2018-03-12

腾讯截图2012

腾讯截图2012 腾讯截图2012 方便快捷 直接运行 无毒绿色

2018-02-26

OpenSSL与网络信息安全-基础、结构和指令.pdf

OpenSSL与网络信息安全-基础、结构和指令.pdf 中文版 详见文档

2018-02-12

openssl中文版

所属文档为openssl开发手册 中文版的,具体内容见文档 不是软件 是文档 文档 看清楚了在下载

2018-02-12

修改windows本机IP脚本

修改windows本机IP脚本,需要用管理员权限打开,否则修改失败

2018-02-11

Visual Assis 番茄助手 2212 vs2010 ---2017

Visual Assis 2212最新版,完美支持vs2017。先安装好之后,不要急着去打开vs,先破解,替换dll文件

2017-10-30

c、c++ TCP-IP详解卷1-3

c、c++ TCP-IP详解卷1-3 集合 ,带有书签版本,每个章节分开

2017-10-30

多线程指南----详解

多线程指南----详解,内容十分详细,新手必读书籍之一,多线程指南----详解,内容十分详细,新手必读书籍之一,

2017-09-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除