Bitmao888-CSDN博客

原创 idea运行spark程序报错scalac: Error: illegal cyclic inheritance involving trait Iterable

spark的scala写的类，报错

2022-09-08 10:47:45 1024

用户留存主题在这里插入代码片hive (gmall)>drop table if exists `dws_user_retention_day`;create table `dws_user_retention_day` ( `mid_id` string COMMENT '设备唯一标识', `user_id` string COMMENT '用户标识', `version_code` string COMMENT '程序版本号', `vers

2020-12-03 23:50:36 337

原创 MYSQL50练习题

表（MYSQL）Student(sid,Sname,Sage,Ssex) 学生表 CREATE TABLE student ( sid varchar(10) NOT NULL, sName varchar(20) DEFAULT NULL, sAge datetime DEFAULT '1980-10-12 23:12:36', sSex varchar(10) DEFAULT NULL, PRIMARY KEY (sid)) ENGINE=InnoDB DEFAULT CHAR

2020-09-05 18:17:12 292

原创 Error:java: 读取。。。。\junit-4.12.jar时出错； invalid LOC header (bad signature)

Error:java: 读取E:\613\Maven_Repository\junit\junit\4.12\junit-4.12.jar时出错; invalid LOC header (bad signature)找到这个jar包，删除让它重新下载即可

2020-08-12 10:15:22 1231 1

原创 Spark17（任务调度机制、Shuffle解析）

文章目录任务调度机制Spark任务提交流程Spark任务调度概述Spark Stage级调度Spark Task级调度Spark Shuffle解析ShuffleMapStage与ResultStageShuffle中的任务个数reduce端数据的读取HashShuffle解析任务调度机制在工厂环境下，Spark集群的部署方式一般为YARN-Cluster模式，之后的内核分析内容中我们默认集群的部署方式为YARN-Cluster模式。Spark任务提交流程下面的时序图清晰地说明了一个Spark应用

2020-06-24 23:37:33 401

原创 spark16（运行模式、通讯架构）

文章目录Spark通用运行流程概述YARN模式运行机制YARN Client模式YARN Cluster模式Spark通用运行流程概述图1-1为Spark通用运行流程，不论Spark以何种模式进行部署，任务提交后，都会先启动Driver进程，随后Driver进程向集群管理器注册应用程序，之后集群管理器根据此任务的配置文件分配Executor并启动，当Driver所需的资源全部满足后，Driver开始执行main函数，Spark查询为懒执行，当执行到action算子时开始反向推算，根据宽依赖进行stag

2020-06-22 22:45:39 241

原创 SparkStreaming15(DStreams的转换、容错机制)

文章目录DStreams的转换1、无状态转换操作2、有状态转化操作3、Window OperationssparkStreaming的容错检查点机制驱动器程序容错工作节点容错接收器容错处理保证DStreams的转换DStream上的原语与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种Window相关的原语。DStream 的转化操

2020-06-20 00:02:36 375

原创 SparkStreaming14（Kafka数据源与spark对接）

文章目录Apache Kafka数据源0.8版本对接方式三台机器安装kafka集群第一种方式对接kafka之CreateDstream方式第二种方式对接kafka之CreateDirectStream方式Apche kafka数据源0.10版本对接Apache Kafka数据源0.8版本对接方式kafka作为一个实时的分布式消息队列，实时的生产和消费消息，这里我们可以利用SparkStreaming实时地读取kafka中的数据，然后进行相关计算。在Spark1.3版本后，KafkaUtils里面提供了

2020-06-19 23:46:36 454

原创 sparkSQL13（DStream操作实战、数据源）

文章目录DStream操作实战1、架构图2、实现流程3、执行查看效果sparkStreaming数据源1、文件数据源2、自定义数据源3、RDD队列DStream操作实战1 SparkStreaming接受socket数据，实现单词计数WordCount1、架构图2、实现流程第一步：创建maven工程并导入jar包<properties> <scala.version>2.11.8</scala.version> &lt

2020-06-17 16:14:11 241

原创 SparkStreaming12（介绍和原理）

文章目录Spark Streaming介绍Spark Streaming原理与架构DStream相关操作Spark Streaming介绍什么是Spark StreamingSpark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象

2020-06-17 16:01:56 174

原创 sparkSQL11(Spark SQL编程)

文章目录1、编写Spark SQL程序实现RDD转换成DataFrame前面我们学习了如何在Spark Shell中使用SQL完成查询，现在我们通过IDEA编写Spark SQL查询程序。Spark官网提供了两种方法来实现从RDD转换得到DataFrame，第一种方法是利用反射机制，推导包含某种类型的RDD，通过反射将其转换为指定类型的DataFrame，适用于提前知道RDD的schema。第二种方法通过编程接口与RDD进行交互获取schema，并动态创建DataFrame，在运行时决定列及其类型。

2020-06-16 00:35:16 187

原创 sparkSQL09(DataFrame，DataSet)

文章目录1、Spark SQL概述2、RDD以及DataFrame以及DataSetRDD基本介绍Dataframe基本概述Dataset基本概述三者的共性三者的区别3、DataFrame创建1、读取文本文件创建DataFrame2、读取json文件创建DataFrame3、读取parquet列式存储格式文件创建DataFrame4、DataFrame常用操作DSL风格语法SQL风格语法5、DataSet常用操作1、创建DataSet2、DataFrame与DataSet互相转换1、Spark SQ

2020-06-12 19:06:59 250

原创 spark08(数据读取与保存主要方式)

文章目录文本文件输入输出JSON文件输入输出CSV文件输入输出SequenceFile文件输入输出对象文件输入输出Hadoop输入输出格式数据库的输入输出mysql读取HBase读取文本文件输入输出当我们将一个文本文件读取为 RDD 时，输入的每一行都会成为RDD的一个元素。也可以将多个完整的文本文件一次性读取为一个pair RDD，其中键是文件名，值是文件内容。val input = sc.textFile("./README.md")如果传递目录，则将目录下的所有文件读取作为RDD。文件路

2020-06-12 17:45:04 175

原创 spark07(checkpoint、任务调度)

文章目录RDD容错机制之checkpointcheckpoint是什么checkpoint原理机制Spark任务调度Spark运行架构任务调度流程图DAGSchedulerTaskSchedulerRDD容错机制之checkpointcheckpoint是什么（1）、Spark 在生产环境下经常会面临transformation的RDD非常多（例如一个Job中包含1万个RDD）或者具体transformation的RDD本身计算特别复杂或者耗时（例如计算时长超过1个小时），这个时候就要考虑对计算结果数

2020-06-12 16:14:02 157

原创 spark06(RDD的依赖关系、缓存、DAG的生成以及shuffle的过程)

文章目录RDD的依赖RDD的缓存DAG的生成以及shuffle的过程什么是DAGshuffle的过程SortShuffleManager基本介绍RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结：窄依赖我们形象的比喻为独生子女宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的

2020-06-10 23:57:17 243

原创 spark05(实现ip地址查询)

文章目录需求分析城市ip段信息代码开发思路第一步：创建mysql数据库表第二步：代码开发实现需求分析在互联网中，我们经常会见到城市热点图这样的报表数据，例如在百度统计中，会统计今年的热门旅游城市、热门报考学校等，会将这样的信息显示在热点图中。我们根据每个用户的IP地址，与我们的IP地址段进行比较，确认每个IP落在哪一个IP端内，获取经纬度，然后绘制热力图。因此，我们需要通过日志信息（运行商或者网站自己生成）和城市ip段信息来判断用户的ip段，统计热点经纬度。城市ip段信息代码开发思路1、

2020-06-10 22:22:53 179

原创 spark04(点击流日志分析案例)

文章目录创建maven工程导入jar包访问的pv访问的uv访问的topN创建maven工程导入jar包<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> </properties> <dependencies> <dependen

2020-06-10 22:17:06 187

原创 spark03( Resilient Distributed Dataset）

文章目录1、 RDD基本概念什么是RDD为什么会产生RDDRDD的属性RDD特点RDD的创建以及操作方式1、RDD的创建三种方式2、RDD的编程常用API1、 RDD基本概念什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数

2020-06-09 11:50:18 488

原创 spark02(spark-shell使用，scala开发spark)

文章目录Spark角色介绍spark任务提交以及spark-shell使用运行spark-shell --master local[N] 读取hdfs上面的文件使用scala开发spark程序代码本地运行Spark角色介绍Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算，比Hadoop中MapReduce计算框架具有更高的实时性，同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目，并成功应用于商业集群中，学习Spark就需要了解其架构

2020-06-07 15:38:36 1082

原创 spark01（集群环境安装搭建）

文章目录spark概述spark的架构模块spark的主要架构模块介绍spark的运行角色介绍spark的集群环境安装搭建1、spark local模式运行环境搭建2、spark的standAlone模式3、spark的HA模式4、spark的on yarn模式spark概述park是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一

2020-06-03 20:38:52 296

原创 scala07 (编程实战)

文章目录利用Akka的actor编程模型，实现2个进程间的通信架构图重要类介绍第一步：创建maven工程，导入jar包第二步：master进程代码开发第三步：worker进程代码开发使用Akka实现一个简易版的spark通信框架需求实现逻辑架构图①　Master类②　Worker类③　WorkerInfo类④　样例类利用Akka的actor编程模型，实现2个进程间的通信架构图重要类介绍ActorSystem：在Akka中，ActorSystem是一个重量级的结构，他需要分配多个线程，所以在实际应用

2020-06-02 16:31:51 95

原创 scala06（高阶函数、隐式转换）

文章目录高阶函数匿名函数参数类型推断闭包与柯里化隐式转换和隐式参数隐式转换隐式参数隐式转换方法作用域与导入高阶函数作为参数的函数函数可以作为一个参数传入到一个方法当中去def main(args: Array[String]): Unit = { val myFunc1 =(x:Int) =>{ x * x } val myArray = Array(1,3,5,7,9).map(myFunc1) println(myArray.mkString(","))}匿名函数没

2020-05-31 20:44:23 118

原创 scala05 (类型参数,Actor并发编程)

文章目录scala当中的类型参数scala当中的类的泛型函数的泛型scala当中的上下界之泛型类型的限定泛型的下界限定scala当中的视图界定scala当中的协变，逆变和非变scala当中的Actor并发编程什么是Scala Actorjava并发编程与Scala Actor编程的区别Actor的执行顺序Actor实战实战WordCountscala当中的类型参数类型参数主要就是研究scala当中的类或者scala当中的方法的泛型scala当中的类的泛型object Demo8 { def m

2020-05-29 23:32:26 175

原创 scala04 (特质trait,模式匹配)

文章目录scala当中的特质trait1、将trait作为接口使用2、在trait中定义具体的方法3、在trait中定义具体field4、在trait中定义抽象field5、在实例对象指定混入某个trait6、trait 调用链7、混合使用 trait 的具体方法和抽象方法8、trait的构造机制9、trait 继承 class模式匹配和样例类1、字符匹配2、匹配字符串3、守卫4、匹配类型5、匹配数组、元组、集合6、样例类7、偏函数scala当中的特质trait1、将trait作为接口使用 S

2020-05-27 23:54:04 158

原创 scala03（类，对象，继承）

文章目录scala当中的类1、类的定义与创建2、类的实例化以及使用3、属性的getter和setter方法4、类的构造器scala当中的对象1、scala当中的Object2、伴生类与伴生对象3、scala当中的apply方法4、scala当中的main方法5、枚举scala当中的继承1、Scala中继承(extends)的概念2、Scala中override 和 super 关键字3、Scala中isInstanceOf 和 asInstanceOf4、Scala中getClass 和 classOf5、

2020-05-27 23:46:36 134

原创 scala02 (数据结构)

文章目录scala当中的数据结构scala当中的不可变scala当中的可变集合1、数组的定义与使用2、元组的创建与遍历3、Map集合4、list集合5、set集合常用操作6、集合元素与函数的映射7、队列与折叠化简和扫描8、拉链操作scala当中的数据结构scala当中的不可变scala当中的可变集合1、数组的定义与使用val array = new Array[Int](10)println(array(1))println(array)array(1) = 10array(2) =

2020-05-25 23:42:03 142

原创 scala01（控制流程，方法，函数）

文章目录scala介绍1、scala的基本介绍2、scala开发环境的安装3、scala的REPLscala的基本语法1、申明变量以及块表达式2、scala当中常用的数据类型流程控制语句1、if判断2、whie循环3、for循环scala当中调用函数与方法scala当中函数与方法的定义1、scala当中的方法的定义2、定义函数3、方法与函数的区别，以及方法转换为函数scala介绍1、scala的基本介绍当前版本2.12.8.使用最多的版本2.11.82.10.x系统的版本scala在数据处理上面，

2020-05-24 23:47:23 201

原创 HBase的预分区、rowKey设计技巧、协处理器

文章目录HBase的预分区1、为何要预分区？2、如何预分区？3、如何设定预分区？1、手动指定预分区2、使用16进制算法生成预分区3、分区规则创建于文件中4、使用JavaAPI创建预分区HBase的rowKey设计技巧1 rowkey长度原则2 rowkey散列原则3 rowkey唯一原则什么是热点HBase的协处理器1、起源2、协处理器有两种： observer 和 endpoint3、协处理器加载方式4、协处理器卸载5、协处理器Observer应用实战第一步：HBase当中创建第一张表proc1第

2020-05-22 23:53:46 455

原创 Sqoop整合HBase

文章目录需求一：将mysql表当中的数据导入到HBase当中来第一步：修改sqoop配置文件第二步：在mysql当中创建数据库以及数据库表并插入数据第三步：将mysql表当中的数据导入HBase表当中去第四步：HBase当中查看表数据需求二：将HBase当中的数据导出到mysql当中来第一步：创建hive外部表第二步：创建hive内部表并将外部表数据插入到内部表当中来第三步：外部表数据插入内部表第四步：清空mysql表数据第五步：执行sqoop导出hive内部表数据到sqoop是一个数据导入导出的工具，可

2020-05-22 23:31:46 204

原创 HBase与hive整合

文章目录HBase与hive的对比HiveHBase总结：Hive与HBasehive与HBase的整合需求一：将hive分析结果的数据，保存到HBase当中去第一步：拷贝hbase的五个依赖jar包到hive的lib目录下第二步：修改hive的配置文件第三步：修改hive-env.sh配置文件添加以下配置第四步：hive当中建表并加载以下数据第五步：创建hive管理表与HBase进行映射第六步：hbase当中查看表hbase_score需求二：创建hive外部表，映射HBase当中已有的表模型，直接通过第

2020-05-22 11:59:23 941

原创 HBase与MapReduce的集成

文章目录需求一:读取myuser这张表当中的数据写入到HBase的另外一张表当中去第一步：创建myuser2这张表第二步：创建maven工程，导入jar包第三步：开发MR的程序第四步：打包运行需求二：读取HDFS文件，写入到HBase表当中去第一步：准备数据文件第二步：开发MR程序需求三：通过bulkload的方式批量加载数据到HBase第一步：定义我们的mapper类第二步：开发我们的main程序入口类第三步：将代码打成jar包然后进行运行第四步：开发代码，加载数据HBase当中的数据最终都是存储在HD

2020-05-22 11:48:29 252

原创 HBase底层原理

文章目录系统架构ClientZookeeperMaster职责Region Server职责HBase的表数据模型Row Key列族Column Family列 Column时间戳Cell物理存储1、整体结构2、STORE FILE & HFILE结构3、Memstore与storefile4、HLog(WAL log)读写过程1、读请求过程：2、写请求过程：细节描述：Region管理(1) region分配(2) region server上线(3) region server下线Master工作

2020-05-21 17:29:55 124

原创 HBase的java代码开发

文章目录第一步：创建maven工程，导入jar包第二步：开发javaAPI操作HBase表数据1、创建表2、向表中添加数据3、查询数据初始化一批数据到HBase当中用于查询按照rowkey进行查询获取所有列的所有制按照rowkey查询指定列族下面的指定列的值通过startRowKey和endRowKey进行扫描通过scan进行全表扫描第一步：创建maven工程，导入jar包 <repositories> <repository> <

2020-05-21 16:24:41 244

原创 HBase shell操作

文章目录HBase常用shell操作1、进入HBase客户端命令操作界面2、查看帮助命令3、查看当前数据库中有哪些表4、创建一张表5、添加数据操作6、查询数据操作更新数据操作1、更新数据值删除数据以及删除表操作1、指定rowkey以及列名进行删除2、指定rowkey，列名以及字段值进行删除3、删除一个列族4、清空表数据5、删除表HBase的高级shell管理命令1、status2、whoami3、list4、count5、describe6、exist7、is_enabled、is_disabled8、al

2020-05-20 13:30:48 343

原创 HBase介绍与集群环境搭建

文章目录HBase基本介绍1、简介2、HBase与Hadoop的关系3、RDBMS与HBase的对比4、HBase特征简要5、HBase的基础架构HBase的集群环境搭建第一步：下载对应的HBase的安装包第二步：压缩包上传并解压第三步：修改配置文件第四步：安装包分发到其他机器第五步：三台机器创建软连接第六步：三台机器添加HBASE_HOME的环境变量第七步：HBase集群启动HBase基本介绍1、简介hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、

2020-05-20 13:13:00 331

原创 kafka实时看板案例(flume+redis+kafka)

文章目录1、项目需求梳理2、项目架构模型3、指标需求4、kafka 当中的topic创建，以及模拟消息生产程序1、创建我们的topic2、创建maven项目并导入必须依赖的jar包5、代码实现第一步：创建我们的订单实体类第二步：定义log4j.properties配置文件第三步：开发日志生产代码第四步：将程序打包并上传服务器运行第五步：运行jar包第六步：开发flume配置文件，实现收集数据到kafka第七步：kafka启动console控制台，消费数据以验证数据进入kafka第八步：定义redis工具类

2020-05-18 15:18:51 721

原创 kafka的配置文件说明与flume整合kafka

文章目录配置文件说明Server.properties配置文件说明producer生产者配置文件说明consumer消费者配置详细说明flume整合kafka创建文件夹配置flume_kafka.conf启动flume启动kafka消费把文件放进/export/servers/flumedata，在kafka即可看到数据配置文件说明Server.properties配置文件说明#broker的全局唯一编号，不能重复broker.id=0#用来监听链接的端口，producer或consumer将在

2020-05-15 11:20:39 564

原创 kafka的各种机制（存储，查询，不丢失，CAP）

文章目录kafka的log存储以及查询机制kafka在我们指定的log.dir目录下，会创建一些文件夹；名字是【主题名字-分区名】所组成的文件夹。在【主题名字-分区名】的目录下，会有两个文件存在，如下所示：#索引文件00000000000000000000.index#日志内容00000000000000000000.log在目录下的文件，会根据log日志的大小进行切分，.log文件的大小为1G的时候，就会进行切分文件；在kafka的设计中，将offset值作为了文件名的一部分比如：

2020-05-15 11:11:51 413

空空如也

空空如也