qq_2631218300-CSDN博客

原创 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: java.sql.SQLException

执行命令sqoop list-databases --connect jdbc:mysql://hadoop01:3306 --username root --password ok报错信息如下20/12/21 11:11:26 ERROR manager.CatalogQueryManager: Failed to list databasesjava.sql.SQLException: Your password has expired. To log in you must change i

2020-12-21 11:39:28 3143 4

原创 SparkStream实现wordcount详解（java和scala篇）

scala版本package nj.zb.sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}/** * @Title: ${XiongJinbiao} * @Package ${nj.zb}

2020-12-19 15:17:12 427 1

原创 hive静态分区，动态分区，分桶区别

文章目录绪论创建静态分区表1、准备数据2、建表语句3、添加分区，加载数据4、进入网页（50070）查看创建动态分区表1、准备数据2、建表语句1、首先创建普通表2、加载数据3、创建动态分区表4、设置动态分区5、使用insert ... select 往动态分区插入数据6、查看分区3、进入50070查看某一个分区下内容建立分桶表建表语句打开分桶，插入数据进入50070查看绪论1、动态分区与静态分区的区别在于静态分区是手动指定，即通过alter table … 语句添加，而动态分区是基于查询参数的位置去推断出

2020-12-11 14:58:53 1607

原创使用flume将本地数据导入kafka

文章目录创建topicflume操作使用kafka命令验证创建topic[root@hadoop1 kafka]# kafka-topics.sh --zookeeper hadoop1:2181 --create --topic users --partitions 1 --replication-factor 1Created topic "users".flume操作创建所需文件夹[root@hadoop1 jobkb09]# mkdir dataSourceFile[root@had

2020-12-08 19:59:23 284

原创 kafka

文章目录kafka安装1、下载并安装改名2、修改配置文件server.properties3、配置环境变量测试kafka1、启动kafka2、常用命令创建topic查看topic查看topic信息查看分区信息个数查看分区信息内容删除topic（默认不可以删除，要删除需要在service.properties加入delete.topic.enable=true）使用java操作kafka编写java代码模拟productor生产信息编写java代码模拟consumer消费信息kafka安装1、下载并安装改

2020-12-07 18:42:18 57

原创 flume常用操作

文章目录几种flume常用的操作从控制台输入，本地连接读取本地文件本地读取文件（带筛选器Interceptors），实时更新（随本地时间更新时间目录），并上传至hdfs使用java代码自定义筛选器（Interceptors）几种flume常用的操作从控制台输入，本地连接[root@hadoop1 ~] cd /opt/flume/conf/jobkb09[root@hadoop1 jobkb09] vi netcat-flume-logger.confnetcat-flume-logger.c

2020-12-02 20:04:17 256

原创 flume

文章目录1、flume 简介2、flume NG介绍flume特点flume 核心概念flume NG体系结构SourceChannelSink3、Flume的部署类型单一流程多代理流程（多个agent顺序连接）流的合并（多个Agent的数据汇聚到同一个Agent ）多路复用流（多级流）load balance功能4、flume安装flume下载解压配置安装1、flume 简介flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为

2020-12-02 18:38:28 84

原创 Spark GraphX 之ConnectComponent

转载GraphX 之ConnectComponent首先准备数据people.csv内容如下4,Dave,256,Faith,218,Harvey,472,Bob,181,Alice,203,Charlie,307,George,349,Ivy,215,Eve,3010,Lily,3511,Helen,3512,Ann,35links.csv内容如下1,2,friend1,3,sister2,4,brother3,2,boss4,5,client1,9,frien

2020-11-26 17:14:30 320

原创 Spark GraphX的图形数据分析

文章目录一、为什么需要图计算？二、图的基本概念三、图的术语1、顶点和边2、有向图和无向图3、有环图和无环图4、度（出度和入度）四、图的经典表示法五、Spark GraphX简介六、GraphX核心抽象七、GraphX API创建Graph案例1案例23、查看图信息4、图的算子1、属性算子2、结构算子3、Join算子5、GraphX API 应用一、为什么需要图计算？许多大数据以大规模图或网络的形式呈现许多非图结构的大数据，常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性二、图的基

2020-11-25 19:48:11 243

原创 Spark 高级操作之json复杂和嵌套数据结构的操作

下面几个是本文重点要讲的方法get_json_object()from_json()to_json()explode()准备阶段准备一个json标准格式文件op.json，内容如下1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"[email protected]","mid":"489","nw":"3G","l":"es","vc":"4","hw":"640*960","ar":"MX","uid":"4

2020-11-20 22:34:26 353

原创 Spark 之 UDTF

UDTF测试udtf.txt文本内容01//zs//Hadoop scala spark hive hbase02//ls//Hadoop scala kafka hive hbase Oozie03//ww//Hadoop scala spark hive sqoop要求输出 type Hadoop scala kafka hive hbase Oozie实现代码package nj.zb.kb09.sqlimport java.utilimport org.

2020-11-18 09:54:00 253

原创 Spark 之 UDAF

一、UDAF简介先解释一下什么是UDAF（User Defined Aggregate Function），即用户定义的聚合函数，聚合函数和普通函数的区别是什么呢，普通函数是接受一行输入产生一个输出，聚合函数是接受一组（一般是多行）输入然后产生一个输出，即将一组的值想办法聚合一下。关于UDAF的一个误区我们可能下意识的认为UDAF是需要和group by一起使用的，实际上UDAF可以跟group by一起使用，也可以不跟group by一起使用，这个其实比较好理解，联想到mysql中的max、min等

2020-11-17 19:44:46 1161

原创 Spark SQL函数

内置函数（org.apache.spark.sql.funtions.scala）内置函数的使用模拟用户访问日志信息，acceLog.txt内容如下2016-12-27,0012016-12-27,0012016-12-27,0022016-12-28,0032016-12-28,0042016-12-28,0022016-12-28,0022016-12-28,001package nj.zb.kb09.sqlimport org.apache.spark.sql.{Row

2020-11-17 12:16:53 189

原创 Spark SQL操作外部数据源

Parquet文件：是一种流行的列式存储格式，以二进制存储，文件中包含数据与元数据package nj.zb.kb09.sqlimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}object SparkSQL1 { def main(args: Array[String]): Unit

2020-11-17 11:26:35 77

原创 Spark SQL API

Spark SQL架构Spark SQL是Spark的核心组件之一（2014.4 Spark1.0）能够直接访问现存的Hive数据提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理提供了更高层级的接口方便地处理数据支持多种操作方式：SQL、API编程支持多种外部数据源：Parquet、JSON、RDBMS等SparkContextSQLContext：Spark SQL的编程入口HiveContext：SQLContext的子集，包含更多功能SparkSession（Spa

2020-11-16 20:00:06 636

原创 Spark RDD算子只分区操作mapPartitions、mapPartitionsWithIndex（scala和java版本）

mapPartitions可以理解为先进行partition，再对每一个partition进行map1、把每一个元素 i 变为 map(i , i*i)scala版本val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)) def mapPartFunc(iter: Iterator[Int]): Iterator[(Int, Int)] = { val res = List[(Int, Int)]()

2020-11-10 18:56:33 453

原创 Spark RDD算子键值对关联操作subtractByKey、join、leftOuterJoin、rightOuterJoin、fullOuterJoin

subtractByKeydef subtractByKey[W](other: RDD[(K, W)])(implicit arg0: ClassTag[W]): RDD[(K, V)]def subtractByKey[W](other: RDD[(K, W)], numPartitions: Int)(implicit arg0: ClassTag[W]): RDD[(K, V)]def subtractByKey[W](other: RDD[(K, W)], p: Partitioner)(i

2020-11-09 19:52:36 149

原创 Spark RDD算子键值对分组操作groupByKey，cogroup（scala、java版本）

groupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]groupByKey会将RDD[key,value] 按照相同的key进行分组，形成RDD[key,Iterable[value]]的形式，有点类似于sql中的g

2020-11-09 19:11:34 713

原创 Spark常用动作算子 first、take、collect、count、countByValue、reduce、aggregate、fold、takeOrdered（java和scala版本）

scala版本import org.apache.spark.{SparkConf, SparkContext}object ActionRDDScala { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("actionRDD").setMaster("local[2]") val sc = new SparkContext(conf) val rdd = sc.

2020-11-09 16:50:43 582

原创 Spark RDD算子（1）java版本

java版本，scala版本请参考Spark常用RDD算子Spark RDD算子聚合操作1Spark RDD算子聚合操作2sample.txt内容如下aa bb cc aa aa aa dd dd ee ee ee eeff aa bb zksee kksee zz zksimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.

2020-11-05 15:08:41 202

原创 Spark RDD算子（3）聚合操作reduceByKey，sortByKey

reduceByKeydef reduceByKey(func: (V, V) => V): RDD[(K, V)]def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]接受一个函数，按照相同的key进行reduce操作，类似于scala中的reduces

2020-11-04 19:00:13 255

原创 Spark RDD算子（2）聚合操作combineByKey，foldByKey

combinByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C, partitioner: Partitioner, mapSideCombine: Boolean = true, serializer: Serializer = null): RDD[(K, C)]该函数用于将RDD[K,V]转换成RDD[K,C]，这里的V类型和

2020-11-04 18:24:55 187

原创 SparkRDD算子（1）parallelize，makeRDD，textFile，filter，map，flatMap，distinct，union，intersection，subtract...

Spark常用RDD算子(1)（scala版本）parallelize调用SparkContext的parallelize()，将一个集合变成一个RDDdef parallelize[T](seq: Seq[T],numSlices: Int)(implicit evidence$1: scala.reflect.ClassTag[T]): org.apache.spark.rdd.RDD[T]第一个参数是集合，第二参数是分区数，返回的是RDD[T]scala> sc.parallelize

2020-11-04 15:19:58 247

原创 Spark基础及架构

为什么我们要使用Spark1、MapReduce编程模型的局限性繁杂：只有Map和Reduce两个操作，复杂的逻辑需要大量的样板代码处理效率低：Map中间结果写进磁盘，Reduce写HDFS，多个Map通过HDFS交换数据；任务调度与启动开销大不适合迭代处理、交互式处理和流式处理2、Spark是类Hadoop MapReduce的通用并行框架Job中间输出结果可以保存在内存，不再需要读写HDFS；比MapReduce平均快10倍以上Spark优势1、速度快：基于内存数据处理，比MR快100个数

2020-11-03 16:23:05 192

原创隐式参数和隐式函数

隐式参数方法可以具有隐式参数列表，由参数列表开头的implicit关键字标记implicit只能修改最尾部的参数列表，应用于全部参数Scala可自动传递正确类型的隐式参数值通常与柯里化函数结合使用def sum(a:Int)(implicit b:Int):Int={ a+b}implicit var b:Int=10sum(10) //20隐式函数（也叫隐式转换）//类型转换implicit def doubleToInt(a:Double):Unit={ a.toInt

2020-11-02 11:59:54 717

原创 scala面向对象（oop）

伴生类和伴生对象伴生类和伴生对象在同一个文件夹，名字相同，class类称为object的伴生类，object对象称为class的伴生对象//伴生类class Student(name:String,age:Int){ //私有变量，伴生对象可以访问 private var name=n private var age=a}//伴生对象object Student{ //使用伴生对象的apply()方法省掉new关键字。Student.apply()等价于Student()

2020-11-02 11:19:55 64

原创使用scala连接mysql

先建好工程，添加jar包（去官网下载，或者在虚拟机hive/lib目录下下载）mysql-connect-java-5.1.38.jar如果是maven工程，只需要在pom.xml文件里添加 <plugin> <artifactId>mysql-connect-java</artifactId> <version>5.1.38</version> </plugin&g

2020-11-02 10:40:14 408

原创 scala之Array方法

scala之数组val arr:Array[Int]=Array(1,2,3,4) //声明一个数组对象val firstValue=arr(0) //读取第一个元素arr(3)=100 //吧第四个元素替换为100//所有元素乘2val big=arr.map(_*2)val big=arr.map(x=>x*2)++合并两个数组的所有元素val a=Array(1,2)val b=Array(3,4)val c=a++b // (1,2,3,4)++:和++类似，多了

2020-10-28 16:13:26 1693

原创 Scala模式匹配详解

模式匹配是Scala中非常有特色，非常强大的一种功能。模式匹配，其实*类似于Java中的swich case语法，即对一个值进行条件判断，然后针对不同的条件，进行不同的处理。但是Scala的模式匹配的功能比Java的swich case语法的功能要强大地多，Java的swich case语法只能对值进行匹配。但是Scala的模式匹配除了可以对值进行匹配之外，还可以对类型进行匹配、对Array和List的元素情况进行匹配、对case class进行匹配、甚至对有值或没值（Option）进行匹配。而且对于S

2020-10-22 15:29:31 1649

scala安装及配置idea插件

空空如也