每一天U为明天-CSDN博客

原创 Spark学习之路（十二）——Kafka

一、Kafka简介1、Zookeeper安装（apache-zookeeper-3.5.5-bin.tar.gz）解压：tar -xzf /home/spark/桌面/apache-zookeeper-3.5.5-bin.tar.gz移动：sudo mv apache-zookeeper-3.5.5-bin /home/spark/app/zookeeper配置环境变量：①vi ~...

2019-10-23 08:12:17 320

原创 Spark学习之路（十一）——Flume

1、Flume安装（apache-flume-1.7.0-bin.tar.gz）解压：tar -xzf /home/spark/桌面/apache-flume-1.7.0-bin.tar.gz移动：sudo mv apache-flume-1.7.0-bin /home/spark/app/flume配置环境变量：①vi ~/.bash_profileexport FLUM...

2019-10-22 22:14:16 246

原创 Spark学习之路（十）——Spark Streaming

1、Spark Streaming工作方式Spark Streaming引入了离散流（DStream）的概念。DStream本质上是存储在一系列RDD中的批数据，每个批代表一个时间窗口内的数据，时间窗口长度通常为秒级。2、创建StreamingContextfrom pyspark.streaming import StreamingContextssc = StreamingConte...

2019-10-13 14:34:08 339

1、Spark SQL架构使用Spark核心API的应用以SparkContext对象作为程序入口，而Spark SQL应用则以SparkSession对象作为程序入口。SparkSession实质上是SQLContext和HiveContext的组合。在交互式shell中，入口SparkSession初始化的实例名为spark，实例中包含对元数据库的引用。Spark SQL很好地支持SQL查...

2019-10-13 14:23:27 680

原创 Spark学习之路（八）——Spark集群配置

一、Spark环境变量1、Spark环境配置（通过spark-env.sh设置）①与集群管理器无关的变量环境变量说明SPARK_HOMESpark安装路径的根目录JAVA_HOMEJava安装的位置PYSPARK_PYTHON供PySpark的驱动器和工作节点上的执行器使用的Python二进制可执行文件。PYSPARK_DRIVER_PYTHON...

2019-09-30 11:01:41 494

原创 Spark学习之路（七）——Spark高级编程（共享变量、分区、存储）

一、Spark的共享变量1、Spark API提供了在集群中提供了两种创建和使用共享变量的机制：广播变量、累加器。广播变量2、广播变量的作用：在Spark运行时，通常情况下，数据会将副本分发到每个执行器（Executor）的任务（Task）中，当数据量很大时，这种数据处理方式会造成工作节点上内存和网络传输的浪费。而广播变量是由驱动器（Driver）程序设置的只读变量，只会将数据的副本分发给每...

2019-09-29 12:01:18 438

原创 Spark学习之路（六）——Spark编程基础（RDD）

1、RDD创建方式：①从文件系统中加载数据，②通过并行集合（数组）。从文件系统中加载数据：Spark的SparkContext通过TextFile()读取数据生成内存中的RDD（字符串类型）。.textFile()方法支持的数据类型：①本地文件系统(例：sc.textFile(“file:///usr/local/spark/readme.txt”)，注意：file后是3个“/”)；②分布式...

2019-09-22 20:19:54 1357

原创 Spark学习之路（五）——Spark on YARN

1、Spark on YARN：Spark在YARN上运行时，有两种部署模式：集群模式（Cluster）和客户端模式（Client）。2、不同运行模式中的任务调度器具体为：Spark on Standalone模式：TaskSchedulerYARN-Client模式：YarnClientClusterSchedulerYARN-Cluster模式：YarnClusterSchedule...

2019-09-22 19:43:30 306

原创 Spark学习之路（四）——Spark on Standalone

1、任务提交流程：①spark-submit提交任务给Master；②Master收到任务请求后，通过LaunchDriver向Worker请求启动Driver；③Worker收到请求后，启动Driver；④Driver启动后，向Master注册应用（Application）信息；⑤Master收到注册Application信息后，根据资源情况向Worker发送LaunchExecuto...

2019-09-22 19:19:49 218

原创 Spark学习之路（三）——Spark部署模式

1、本地模式（开发）：运行在单机上（路径：spark/bin）交互式运行（Python）：./pyspark --master local[]交互式运行（Scala）：./spark-shell --master local[]提交Spark作业：./spark-submit --master local[*] --name [applicationname] .py文件 ...

2019-09-22 18:41:46 231

原创 Spark学习之路（二）——Spark运行架构

**1、Spark的基本概念：**RDD：弹性分布式数据集，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。（弹性：分区数量可变化，数据集可大可小；分布式：分布式地保存在多台机器内存中）DAG：有向无环图，反应RDD之间的依赖关系。Executor：执行器，是运行在工作节点（Worker Node）上的一个进程，负责运行任务，并为应用程序存储数据。应用：用户...

2019-09-22 17:52:11 584

原创 Spark学习之路（一）——Spark初识

1、Spark是一个实现快速通用的集群计算平台，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。2、Spark是一个计算框架，替代Hadoop中MapReduce的原因是：MapReduce计算框架的中间结果会输出到磁盘上，进行存储和容错。Spark最大的特点是将计算数据、中间结果都存储在内存中，大大减少了读写磁盘的IO开销。因而Spark更适合于迭代运算比较多的...

2019-09-22 17:02:31 416

原创基于Bayes分类器的mnist分类（属性独立且服从高斯分布）

2019-05-18 08:51:13 1889 2

原创信用卡欺诈检测

信用卡欺诈检测逻辑回归算法是基于python 3.7.0、numpy 1.16.2、pandas 0.24.1、scikit-learn 0.20.3版本实现的。step 1.导入第三方库：step 2.读取样本.csv中的数据，了解数据的整体分步行5：按照"Class"列统计每种标记的数量,返回一个Series行6：输出Class列的条形图step 3.对数据进行预处理#不均衡样...

2019-04-25 18:53:44 2323

Rong_Robot的博客