自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Spark学习之路(十二)——Kafka

一、Kafka简介1、Zookeeper安装(apache-zookeeper-3.5.5-bin.tar.gz)解压:tar -xzf /home/spark/桌面/apache-zookeeper-3.5.5-bin.tar.gz移动:sudo mv apache-zookeeper-3.5.5-bin /home/spark/app/zookeeper配置环境变量:①vi ~...

2019-10-23 08:12:17 320

原创 Spark学习之路(十一)——Flume

1、Flume安装(apache-flume-1.7.0-bin.tar.gz)解压:tar -xzf /home/spark/桌面/apache-flume-1.7.0-bin.tar.gz移动:sudo mv apache-flume-1.7.0-bin /home/spark/app/flume配置环境变量:①vi ~/.bash_profileexport FLUM...

2019-10-22 22:14:16 246

原创 Spark学习之路(十)——Spark Streaming

1、Spark Streaming工作方式Spark Streaming引入了离散流(DStream)的概念。DStream本质上是存储在一系列RDD中的批数据,每个批代表一个时间窗口内的数据,时间窗口长度通常为秒级。2、创建StreamingContextfrom pyspark.streaming import StreamingContextssc = StreamingConte...

2019-10-13 14:34:08 339

原创 Spark学习之路(九)——Spark SQL

1、Spark SQL架构使用Spark核心API的应用以SparkContext对象作为程序入口,而Spark SQL应用则以SparkSession对象作为程序入口。SparkSession实质上是SQLContext和HiveContext的组合。在交互式shell中,入口SparkSession初始化的实例名为spark,实例中包含对元数据库的引用。Spark SQL很好地支持SQL查...

2019-10-13 14:23:27 680

原创 Spark学习之路(八)——Spark集群配置

一、Spark环境变量1、Spark环境配置(通过spark-env.sh设置)①与集群管理器无关的变量环境变量说明SPARK_HOMESpark安装路径的根目录JAVA_HOMEJava安装的位置PYSPARK_PYTHON供PySpark的驱动器和工作节点上的执行器使用的Python二进制可执行文件。PYSPARK_DRIVER_PYTHON...

2019-09-30 11:01:41 494

原创 Spark学习之路(七)——Spark高级编程(共享变量、分区、存储)

一、Spark的共享变量1、Spark API提供了在集群中提供了两种创建和使用共享变量的机制:广播变量、累加器。广播变量2、广播变量的作用:在Spark运行时,通常情况下,数据会将副本分发到每个执行器(Executor)的任务(Task)中,当数据量很大时,这种数据处理方式会造成工作节点上内存和网络传输的浪费。而广播变量是由驱动器(Driver)程序设置的只读变量,只会将数据的副本分发给每...

2019-09-29 12:01:18 438

原创 Spark学习之路(六)——Spark编程基础(RDD)

1、RDD创建方式:①从文件系统中加载数据,②通过并行集合(数组)。从文件系统中加载数据:Spark的SparkContext通过TextFile()读取数据生成内存中的RDD(字符串类型)。.textFile()方法支持的数据类型:①本地文件系统(例:sc.textFile(“file:///usr/local/spark/readme.txt”),注意:file后是3个“/”);②分布式...

2019-09-22 20:19:54 1357

原创 Spark学习之路(五)——Spark on YARN

1、Spark on YARN:Spark在YARN上运行时,有两种部署模式:集群模式(Cluster)和客户端模式(Client)。2、不同运行模式中的任务调度器具体为:Spark on Standalone模式:TaskSchedulerYARN-Client模式:YarnClientClusterSchedulerYARN-Cluster模式:YarnClusterSchedule...

2019-09-22 19:43:30 306

原创 Spark学习之路(四)——Spark on Standalone

1、任务提交流程:①spark-submit提交任务给Master;②Master收到任务请求后,通过LaunchDriver向Worker请求启动Driver;③Worker收到请求后,启动Driver;④Driver启动后,向Master注册应用(Application)信息;⑤Master收到注册Application信息后,根据资源情况向Worker发送LaunchExecuto...

2019-09-22 19:19:49 218

原创 Spark学习之路(三)——Spark部署模式

1、本地模式(开发):运行在单机上(路径:spark/bin)交互式运行(Python):./pyspark --master local[]交互式运行(Scala):./spark-shell --master local[]提交Spark作业:./spark-submit --master local[*] --name [applicationname] .py文件 ...

2019-09-22 18:41:46 231

原创 Spark学习之路(二)——Spark运行架构

**1、Spark的基本概念:**RDD:弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。(弹性:分区数量可变化,数据集可大可小;分布式:分布式地保存在多台机器内存中)DAG:有向无环图,反应RDD之间的依赖关系。Executor:执行器,是运行在工作节点(Worker Node)上的一个进程,负责运行任务,并为应用程序存储数据。应用:用户...

2019-09-22 17:52:11 584

原创 Spark学习之路(一)——Spark初识

1、Spark是一个实现快速通用的集群计算平台,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。2、Spark是一个计算框架,替代Hadoop中MapReduce的原因是:MapReduce计算框架的中间结果会输出到磁盘上,进行存储和容错。Spark最大的特点是将计算数据、中间结果都存储在内存中,大大减少了读写磁盘的IO开销。因而Spark更适合于迭代运算比较多的...

2019-09-22 17:02:31 416

原创 基于Bayes分类器的mnist分类(属性独立且服从高斯分布)

mnist的Bayes分类是基于python 3.7.0、numpy 1.16.2版本实现的。总结:贝叶斯分类器的主要思想:P(y|X)=P(y)*P(X|y)/P(Y)因为对所有类别来说,P(X)相同,因此求解P(y|X)的主要在于求解 先验概率 P(y)和 类条件概率 P(X|y),原问题简化为:当类别y取不同值时,求P(y)*P(X|y)的最大值,此时类别y即为 X 的类别。原问题等价...

2019-05-18 08:51:13 1889 2

原创 信用卡欺诈检测

信用卡欺诈检测逻辑回归算法是基于python 3.7.0、numpy 1.16.2、pandas 0.24.1、scikit-learn 0.20.3版本实现的。step 1.导入第三方库:step 2.读取样本.csv中的数据,了解数据的整体分步行5:按照"Class"列统计每种标记的数量,返回一个Series行6:输出Class列的条形图step 3.对数据进行预处理#不均衡样...

2019-04-25 18:53:44 2323

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除