射手家的狮子-CSDN博客

原创 Go及vim环境搭建

安装golangtar -zxvf go1.13.4.linux-amd64.tar.gz -C /usr/local/更好的使用Go，需要设置环境变量vim /etc/profile在前面添加export GOROOT=/usr/local/goexport GOPATH=/usr/lib/golangexport PATH=$PATH:$GOPATH（原路径后用冒号连接新路径...

2019-11-28 14:43:49 229

原创图像数据增强

图像数据增强图像数据增强是图片识别，物体检查等任务的常用方法。常用的python工具有opencv以及pillow。下面主要介绍pillow在图像数据增强方面的应用。图像数据增强的常用方法有图片缩放图片旋转图片翻转亮度增强对比度增强色彩饱和度增强锐度增强图片提取-图片合成-目标遮挡引入噪声PIL导入模块，读取图片# 引入包from PIL import Im...

2019-10-28 11:42:19 490

原创更新系统驱动及docker内驱动、cuda、cudnn

https://tensorflow.google.cn/install/source#gpu_support_2更新docker内cuda、cudnn正确方式：一、拉取官方镜像docker拉取官方镜像(默认没有显卡驱动)：nvidia-docker pull nvidia/cuda:9.0-cudnn7-devel-ubuntu16.04可选择镜像：https://hub.dock...

2019-10-14 15:14:20 3493

原创第六章文件与目录管理

目录相关操作符号作用 . 当前目录 .. 上一层目录 - 前一个工作目录 ~ 当前用户所在的家目录 ~account account用户的家目录操作命令命令作用 cd 变换目录 pwd 显示当前目录 mkdir 建立新目录 rmdir ...

2018-05-29 16:49:16 170

原创第五章 Linux的文件权限与目录配置

命令作用 ls 显示文件名与属性 chgrp 改变文件所属群组 chown 改变文件拥有者 chmod 改变文件权限权限1、文件拥有者 2、群组 3、其他由9位字母表示r:4 w:2 x:1-rwx(4+2+1 = 7) rwx(7) rwx(7)前3位表示文件拥有者权限中间3位表示群组权限 ...

2018-05-04 10:37:57 122

原创第四章首次登入与在线求助

命令作用 date 显示日期与实践 cal 显示日历 bc 计算器命令 + –help 求助说明 man 操作说明 info 操作说明 nano 编辑文件 who 查看哪些用户在线 netstat 查看网络联机状态 ps -aux 查看主机状态 shu...

2018-05-04 10:37:10 144

原创第十章 Spark Streaming

需要应用需要即时处理收到的数据，例如训练机器学习模型的应用，自动检测异常的应用。Spark Streaming为这些应用而设计。允许用户使用一套和批处理非常接近的API来编写流式计算应用。Spark Streaming使用离散化流（discretized stream作为抽象表示）作为抽象表示，叫做DStream。##### DStream（不间断工作）接收方式：随时间推移而接收到数据...

2018-04-24 16:52:03 286

原创第九章 Spark SQL

Spark SQL提供三大功能:1、可以从各种结构化数据源（例如JSON、Hive、Parquet等）中读取数据2、Spark SQL不仅支持在Spark程序内使用SQL语句进行数据查询，也支持外部工具链接SQL进行查询。3、支持SQL与常规python/java/scala代码高度整合，包括连接RDD与SQL表、公开的自定义SQL函数接口。SchemaRDD用来存放ROw...

2018-03-22 15:35:45 603

原创第八章 Spark调优与调试

1、使用SparkConf配置Spark在Scala中使用SparkConf创建一个应用// 创建一个conf对象val conf = new SparkConf()conf.set("spark.app.name", "My Spark App")conf.set("spark.master", "local[4]")conf.set("spark.ui.port", "360.

2018-03-19 14:49:02 306

原创 Apriori算法--关联规则的频繁项集算法-笔记

Apriori算法是一种挖掘关联规则的频繁项集算法，核心思想是通过候选项生成和情节的向下封闭检测两个阶段来挖掘频繁项集。很多挖掘算法是在Apriori算法的基础上进行改进的，比如基于散列（Hash）的方法，基于数据分割（Partition）的方法，以及不产生候选项集的FP-GROWTH方法。Apriori算法核心是基于两阶段频集思想的地推方法。该关联规则在分类上属于单维、单层、布尔关联规则

2018-02-07 20:39:32 4956

原创第七章在集群上运行Spark

Spark运行时框架在分布式环境下，Spark集群采用的是主/从结构。一个节点负责中央协调，该节点被称为驱动器(Driver)节点.与之对应的工作节点被称为执行器（executor）节点。驱动器节点可以和大量的执行器节点进行通信，他们也都作为独立的Java进程运行。驱动器和所有的执行器被称为一个Spark应用Spark通过一个叫做做集群管理器的外部服务在急群众的机器上启动。Spa

2018-02-01 16:56:19 458

原创第五章数据读取与保存（二）

累加器//scala中累加空行val sc = new SparkContext(...)val file = sc.textFile("file.txt")val blankLines = sc.accumulator(0) // 创建Accumulator[Int]并初始化为0val callSigns = file.flatMap(line => {if (line ==

2018-01-19 17:46:21 224

原创第五章数据读取与保存（二）

Hadoop输入输出格式1、读取其他Hadoop输入格式要使用新版的Hadoop API读入一个文件，需要告诉Spark一些东西，使用newAPIHadoopFile接受一个路径以及三个类。第一个类是输入格式。相似的函数hadoopFile()使用旧的API实验的Hadoop输入格式。第二个类是键的类最后一个类是值的类。如果需要设定额外的Hadoop配置属性，也可以传入一个co

2018-01-09 16:57:30 274

原创第五章数据保存与读取（一）

spark常见数据源文件格式与文件系统1、spark支持本地文件系统以及分布式分拣系统（NFS、HDFS、Amazon S3等）2、spark支持多种不同文件格式，如文本文件、JSON、SequenceFile以及protocol buffer。格式名称结构化备注文本文件否普通的文本文件，每行一条记录 JSON 半结构化

2018-01-08 15:13:36 660 1

数据分区（进阶）在分布式程序中，通信的代价非常大，spark可以通过控制RDD分区方式来减少通信开销。如果数据只会被扫描一次，则没必要分区，若多次使用，分区才会有帮助。spark中所有的键值对RDD都可以进行分区。spark可以确保同一组的键出现在一个节点上。或者可以使用范围分区法，将键在同一个范围区间内的记录都放在同一节点上。scala自定义分区方式//通过哈希分区，可以减少有效减少数据混洗，直接

2017-12-22 19:22:52 323

原创第四章键值对操作（一）

Spark 为包含键值对类型的RDD提供了一些专有的擦我做。这些RDD被称为pair RDD。在 Spark 中有很多种创建 pair RDD 的方式。第 5 章会讲到，很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的 pair RDD。此外，当需要把一个普通的 RDD 转为 pair RDD 时，可以调用 map() 函数来实现，传递的函数需要返回键值对。在 Scala 中使用第一个

2017-12-19 21:28:34 904

原创第三章 RDD编程

RDD 编程弹性分布式数据集（Resilient Distributed Dataset，简称 RDD），每个RDD被分为多个分区，这些分区运行在多个不同节点上。RDD创建RDD创建有两种方式：1、读取外部数据来创建RDD，如lines = sc.textFile("README.md")2、通过parallelize()对一个集合进行并行化。RDD操作RDD操作包括：转化操作（transfor

2017-12-14 12:16:35 400

射手家的狮子的专栏

原创 Go及vim环境搭建

原创图像数据增强

原创更新系统驱动及docker内驱动、cuda、cudnn

原创第六章文件与目录管理

原创第五章 Linux的文件权限与目录配置

原创第四章首次登入与在线求助

原创第十章 Spark Streaming

原创第九章 Spark SQL

原创第八章 Spark调优与调试

原创 Apriori算法--关联规则的频繁项集算法-笔记

原创第七章在集群上运行Spark

原创第五章数据读取与保存（二）

原创第五章数据读取与保存（二）

原创第五章数据保存与读取（一）

原创第四章键值对操作（二）

原创第四章键值对操作（一）

原创第三章 RDD编程

C语言100例及教程

残缺棋盘源码

空空如也