yaboofzu-CSDN博客

原创 mybatisplus集成springboot 以及代码生成器

package com.hikvision.cvalarm.deploy.modules.generate;import com.baomidou.mybatisplus.generator.AutoGenerator;import com.baomidou.mybatisplus.generator.InjectionConfig;import com.baomidou.mybatisp...

2019-11-21 13:47:33 333

原创服务器通过apache代理上网

服务器通过apache代理上网1. 代理服务器安装apche2. 配置apche ${apache home}/conf/httpd.conf1.修改安装路径2.修改其他配置3. 增加代理配置4. apche相关命令3.被代理服务器（liunx）配置1. 代理服务器安装apche2. 配置apche ${apache home}/conf/httpd.conf1.修改安装路径Define ...

2018-12-19 15:42:52 1567 1

原创 spark-8

基于MLlib的机器学习把数据以RDD的形式表示，然后在分布式数据集上调用各种算法，MLlib引入一些数据类型（点向量），MLlib就是RDD上一系列可供调用的函数的集合，比如，如果要用MLlib来完成文本分类的任务 1.首先用RDD来表示你的消息 2.运行MLlib中一个特征提取算法来把文本数据转换为数值特征，该操作返回一个向量RDD。 3.对向量RDD调用分类算法，这不会返...

2018-08-24 18:36:14 312

原创 spark-7

SparkStreaming使用离散化流作为抽象表示，叫做DStream。Dstream是随时间推移而得到的数据序列。在内部，每个时间区间收到的数据都作为RDD的存在而DStream是由这些RDD所组成的序列。DStream可以从各种输入源创建，比如Flume、KafaKa或者HDFS。创建出来的DStream支持两种操作（转换和输出）SparkStreaming应用需要进行额外配置保证2...

2018-08-24 18:35:43 252

原创 spark-6

使用SparkConf配置SparkSparkConf conf=new SparkConf() conf.set(“spark.app.name”,”My Spark App”) conf.set(“spark.master”,”local[4]”); conf.set(“spark.ui.port”,”36000”); SparkConf 类包含用户要重载的配置选项的键值对。Spa...

2018-08-24 18:35:12 205

原创 spark-5

简介： Spark的优点：通过增加机器的数量并使用集群模式运行，来扩展程序的计算能力，小数据集上利用本地模式快速开发验证完后，可无需修改代码就可以在大规模集群上运行。 Spark的运行环境（Yarn 、Meos 、自带的Spark独立集群管理器）Spark 运行时架构： Spark在分布式环境中的架构：Spark集群采用主从结构，在一个Spark集群...

2018-08-24 18:34:49 230

原创 spark-0

Spark中的RDD就是一个不可变的分布式对象集合，每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。 RDD可以包含Rython Java Scala中任意类型的对象，甚至可以包含用户自定义的对象用户可以使用两种方法创建RDD：读取一个外部数据集，或在驱动程序里分发驱动器程序中的对象集合（list set）RDD支持两种操作：转化操作和行动操作。转化操作：...

2018-08-24 18:34:11 113

原创 spark-4

Spark 编程进阶简介共享变量：累加器与广播变量分别为结果聚合与广播这种常见的通信模式突破了这一限制。累加器:用来对信息进行聚合广播变量：高效分发较大的对象。6.2 累加器通常在向Spark传递函数时，使用map()或者filter()传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱...

2018-08-24 18:33:43 195

原创 spark-3

数据读取与保存Spark 支持很多种输入输出源，一部分原因是Spark本身是基于Hadoop生态圈而构建，特别是Spark可以通过Hadoop MapReduce 所使用的InputFormate和 OutputFormate接口访问数据。而大部分常见的文件格式和存储系统都支持这种接口数据源：文件格式与文件系统对于存储在本地文件系统或分布式文件系统（NFS\HDFS）中的数据，sp...

2018-08-24 18:33:22 124

原创 spark-2

数据分区 Spark是如何对数据集的节点进行分区控制的，在分布式程序中通信的代价是很大的，因此控制数据分区以获得最少的网络传输可以极大地提升整体性能，和单节点的程序需要为记录集合选择合适的数据结构一样，Spark程序可以通过控制 RDD分区方式来减少通信开销。分区的缺点：给定RDD只需要被扫描一次，我们完全没有必要对其预先分区处理，只有当数据集多次在诸如连接这种基于键的操作中使用分...

2018-08-24 18:32:52 103

原创 SPARK-学习1

键值对操作键值对RDD通常用来进行聚合计算，我们一般要通过一些初始ETL（抽取、转换、装载）操作来将数据转换为键值对形式。比如统计每个产品的评论，将数据中键相同的分为一组，将两个不同的RDD进行分组合并等。用户控制键值对RDD在各个节点上分布情况的高级特性：分区。有时使用可控的分区方式将常被访问的数据放到同一个节点上可以大大较少应用的通信开销。这回带来明显的性能提升。Spark...

2018-08-24 18:32:22 111

yaboofzu的博客