自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 mybatisplus集成springboot 以及代码生成器

package com.hikvision.cvalarm.deploy.modules.generate;import com.baomidou.mybatisplus.generator.AutoGenerator;import com.baomidou.mybatisplus.generator.InjectionConfig;import com.baomidou.mybatisp...

2019-11-21 13:47:33 333

原创 服务器通过apache代理上网

服务器通过apache代理上网1. 代理服务器安装apche2. 配置apche ${apache home}/conf/httpd.conf1.修改安装路径2.修改其他配置3. 增加代理配置4. apche相关命令3.被代理服务器(liunx)配置1. 代理服务器安装apche2. 配置apche ${apache home}/conf/httpd.conf1.修改安装路径Define ...

2018-12-19 15:42:52 1567 1

原创 spark-8

基于MLlib的机器学习 把数据以RDD的形式表示,然后在分布式数据集上调用各种算法,MLlib引入一些数据类型(点 向量),MLlib就是RDD上一系列 可供调用的函数的集合, 比如,如果要用MLlib来完成文本分类的任务 1.首先用RDD来表示你的消息 2.运行MLlib中一个特征提取算法来把文本数据转换为数值特征,该操作返回一个向量RDD。 3.对向量RDD调用分类算法,这不会返...

2018-08-24 18:36:14 312

原创 spark-7

SparkStreaming使用离散化流作为抽象表示,叫做DStream。Dstream是随时间推移而得到的数据序列。在内部,每个时间区间收到的数据都作为RDD的存在 而DStream是由这些RDD所组成的序列。DStream可以从各种输入源创建,比如Flume、KafaKa或者HDFS。创建出来的DStream支持两种操作(转换和输出)SparkStreaming应用需要进行额外配置保证2...

2018-08-24 18:35:43 252

原创 spark-6

使用SparkConf配置SparkSparkConf conf=new SparkConf() conf.set(“spark.app.name”,”My Spark App”) conf.set(“spark.master”,”local[4]”); conf.set(“spark.ui.port”,”36000”); SparkConf 类包含用户要重载的配置选项的键值对。Spa...

2018-08-24 18:35:12 205

原创 spark-5

简介: Spark的优点:通过增加机器的数量并使用集群模式运行,来扩展程序的计算能力, 小数据集上利用本地模式快速开发验证完后,可无需修改代码就可以在大规模集群上运行。 Spark的运行环境(Yarn 、Meos 、自带的Spark独立集群管理器)Spark 运行时架构: Spark在分布式环境中的架构:Spark集群采用主从结构,在一个Spark集群...

2018-08-24 18:34:49 230

原创 spark-0

Spark中的RDD就是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。 RDD可以包含Rython Java Scala中任意类型的对象,甚至可以包含用户自定义的对象 用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动程序里分发驱动器程序中的对象集合(list set)RDD支持两种操作:转化操作和行动操作。 转化操作:...

2018-08-24 18:34:11 113

原创 spark-4

Spark 编程进阶 简介 共享变量:累加器 与 广播变量 分别为结果聚合与广播这种常见的通信模式突破了这一限制。 累加器:用来对信息进行聚合 广播变量:高效分发较大的对象。6.2 累加器 通常在向Spark传递函数时,使用map()或者filter()传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些 变量的一份新的副本,更新这些副本的值也不会影响驱...

2018-08-24 18:33:43 195

原创 spark-3

数据读取与保存Spark 支持很多种输入输出源,一部分原因是Spark本身是基于Hadoop生态圈而构建,特别是Spark可以通过Hadoop MapReduce 所使用的InputFormate和 OutputFormate接口访问数据。而大部分常见的文件格式和存储系统都支持这种接口数据源:文件格式与文件系统 对于存储在本地文件系统或分布式文件系统(NFS\HDFS)中的数据,sp...

2018-08-24 18:33:22 124

原创 spark-2

数据分区 Spark是如何对数据集的节点进行分区控制的,在分布式程序中通信的代价是很大的,因此控制数据分区以获得最少的 网络传输可以极大地提升整体性能,和单节点的程序需要为记录集合选择合适的数据结构一样,Spark程序可以通过控制 RDD分区方式来减少通信开销。 分区的缺点:给定RDD只需要被扫描一次,我们完全没有必要对其预先分区处理,只有当数据集多次在诸如连接这种基于键的操作中使用 分...

2018-08-24 18:32:52 103

原创 SPARK-学习1

键值对操作键值对RDD通常用来进行聚合计算,我们一般要通过一些初始ETL(抽取、转换、装载)操作来将数据转换为键值对形式。 比如统计每个产品的评论,将数据中键相同的分为一组,将两个不同的RDD进行分组合并等。用户控制键值对RDD在各个节点上分布情况的高级特性:分区。有时使用可控的分区方式将常被访问的数据放到同一个节点上 可以大大较少应用的通信开销。这回带来明显的性能提升。Spark...

2018-08-24 18:32:22 111

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除