GaryBigPig-CSDN博客

原创 Spark学习笔记： Spark Streaming

背景很多重要的应用要处理大量在线流式数据，并返回近似实时的结果，比如社交网络趋势追踪，网站指标统计，广告系统。所以需要具备分布式流式处理框架的基本特征，包括良好的扩展性(百级别节点)和低延迟(秒级别)。批处理MapReduce和Spark Core都是批处理：需要收集数据，然后分批处理，这样一般会有一定的延时。流式处理数据收集后，直接处理。流式计算框架Spark Streaming...

2019-01-24 23:23:02 422

背景从Spark 1.0开始，Spark SQL成为Spark生态系统一员，是专门处理结构化数据(比如DB, Json)的Spark组件。它提供了2种操作数据的方式：1）SQL Queries；2）DataFrames/Datasets API。Spark SQL = Schema + RDD，RDD可以表达所有的数据格式（包括结构化和非结构化），Spark SQL只表达结构化的数据。Spa...

2019-01-23 07:49:42 1068

原创 Spark学习笔记：程序设计

基本流程创建SparkContext对象封装了spark执行环境的上下文信息，必须有且只有一个；创建RDD可从Scala集合或Hadoop数据集上创建，利用Context对象的API创建RDD，可以将HBase表、MySQL表、本地文件等数据映射成RDD；在RDD之上进行Transformation和ActionSpark提供了多种Transformation和Action函数返回...

2019-01-21 22:59:40 1029

原创 Spark学习笔记：基本概念

Spark背景MapReduce的局限性仅支持Map和Reduce两种操作，需要所有问题都转换成map和reduce，有些问题不好转换，代码比较冗余，编程不够灵活；处理效率低:Map中间结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据，所以Io开销大效率比较低；任务调度和启动开销大；无法充分利用内存；Map端和Reduce端均需要排序；不适合迭代计算（如机器学习、图计...

2019-01-21 22:43:07 386

原创 Hadoop学习笔记：数据分析引擎Hive

概述Hive是一个构建在Hadoop之上的数据仓库，和传统的数据仓库一样主要用来访问和管理数据，提供了类SQL查询语言；和传统数据仓库不一样的是可以处理超大规模的数据，可扩展性和容错性非常强。Hive是由FaceBook开源的分布式数据分析引擎，它把SQL语句转化成MapReduce作业提交到Hadoop上运行并返回结果。Hive可以做日志分析（包括统计网站一个时间段内的pv、uv），海量结...

2019-01-16 01:00:55 7870

原创 Hadoop学习笔记：分布式计算引擎MapReduce

MapReduce简介MapReduce源自于Google发表于2004年12月的MapReduce论文，Hadoop MapReduce是Google MapReduce克隆版。MapReduce源于函数式编程，包括Map和Reduce两个算子，它是一个通用的计算引擎，所以易于编程，可以实现任意的算法，表达能力很强，只是效率有区别。MapReduce是一个分布式应用框架，解决数据导入读取，...

2019-01-11 20:13:34 1864

原创 Hadoop学习笔记：分布式数据库 HBase

HBase概述HBase是一个构建在HDFS上的分布式列存储系统，是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储。HBase是Google Bigtable的开源实现，从逻辑上讲，HBase将数据按照表、行和列进行存储，它是一个分布式的、稀疏的、持久化存储的多维度排序表。Hbase会把数据写到HDFS文件系统中。HBase具有以下特点：1）良好的扩展性；2）读和写...

2019-01-11 00:18:18 2182

原创 Hadoop学习笔记：分布式文件系统HDFS

背景HDFS（Hadoop Distributed File System）源自于Google发表于2003年10月的GFS论文，HDFS是GFS克隆版。它是一个易于扩展的分布式文件系统，可以运行在大量普通廉价机器上，它提供容错机制，为大量用户提供性能不错的文件存取服务。它具有以下优点：高容错性：数据自动保存多个副本，副本丢失后，自动恢复适合批处理：移动计算而非数据，数据位置暴露给计算...

2019-01-08 15:06:24 457

原创 Hadoop学习笔记：一致性服务系统Zookeeper

背景

2019-01-06 16:52:40 609 7

原创 Hadoop学习笔记：分布式消息队列 Kafka

背景这种结构耦合性太高，后端一旦发生变化，前端就要改动。使用中间件进行解耦，提高扩展性，各种服务都把生成的数据或变化写到中间件，后端服务器根据需要获取数据或变化，同时当生产者生产的数据大于消费者消费的数据时提供了缓存机制。消息队列能够使关键组件顶住突发的访问压⼒力，而不会因为突发的超负荷的请求⽽而完全崩溃。Kafka是LinkedIn开源的分布式发布-订阅消息系统，它是一种数据管道和消息队列...

2019-01-06 00:06:49 2117 1

原创 Hadoop学习笔记：分布式数据收集系统Flume和Sqoop

背景Hadoop提供了一个中央化的存储系统，有利于进行集中式的数据分析与数据共享。Hadoop对存储格式没有要求，包括用户访问日志、产品信息和网页数据等。但是，数据分散在各个离散的设备上或保存在传统的存储设备和系统中，我们需要将数据存入Hadoop。常见数据来源包括网页信息、用户操作日志等非结构化数据和传统关系型数据库（像MySQL、Oracled等）中的结构化数据，例如商品信息、用户信息等。如...

2019-01-05 17:29:09 787

原创大数据学习笔记：大数据技术框架和Hadoop生态系统

大数据技术框架Hadoop生态系统Hadoop是目前得到企业界验证的大数据框架，包括以下特点：源代码开源社区活跃、参与者众多涉及分布式存储和计算的方方面面Flume（非结构化数据收集）Cloudera开源的日志收集系统，用于非结构化数据收集。具有以下特点：分布式高可靠性高容错性易于定制和扩展Sqoop（结构化数据收集）Sqoop是SQL to Hadoop的...

2019-01-04 14:48:39 1517

原创 Spark学习笔记：运行模式

Spark运行模式Wordcount实例import org.apache.spark._ import SparkContext._object WordCount { def main(args: Array[String]) { if (args.length != 3 ){ println("usage is org.test.WordCount &lt;master&...

2019-01-02 21:43:29 213

原创线性回归和逻辑回归介绍

概述线性回归和逻辑回归是机器学习中最基本的两个模型，线性回归一般用来解决预测问题，逻辑回归一般解决分类问题，线性回归模型和逻辑回归模型之间既有区别又有关联。线性回归模型假定训练数据集为T={(x1,y1),(x2,y2),...,(xn,yn)}T = \{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}T={(x1,y1),(x2,y2),...,(xn,...

2018-12-11 22:59:59 1001

原创 Tensorflow官网CIFAR-10数据分类教程代码详解

标题概述对CIFAR-10 数据集的分类是机器学习中一个公开的基准测试问题，本教程代码通过解决CIFAR-10数据分类任务，介绍了Tensorflow的一些高阶用法，演示了构建大型复杂模型的一些重要技巧，着重于建立一个规范的网络组织结构，训练并进行评估，为建立更大规模更加复杂的模型提供一个范例，可以作为学习Tensorflow的一个经典示例。本文章对每行代码做了详细注释，以便对其他学习的朋友有...

2018-11-07 17:06:21 3534 1

原创 Tensorflow-tf.nn.zero_fraction()详解

Tensorflow-tf.nn.zero_fraction()详解简介Tensorflow-tf.nn.zero_fraction()的作用是将输入的Tensor中0元素在所有元素中所占的比例计算并返回，因为relu激活函数有时会大面积的将输入参数设为0，所以此函数可以有效衡量relu激活函数的有效性。...

2018-10-30 12:10:18 4218 1

原创 Tensorflow-tf.FixedLengthRecordReader详解

Tensorflow-tf.FixedLengthRecordReader详解描述tf.FixedLengthRecordReader是从一个文件中输出固定长度Recorder的类，是从ReaderBase继承而来，ReaderBase是一个管理各种类型Reader（Reader数据读取的类）的基类，它可以将字符串（一般是一系列文件名）转化为Records（每个Recorder是一个Key,V...

2018-10-16 23:54:59 2738

原创 Tensorflow--tf.FIFOQueue详解

Tensorflow–tf.FIFOQueuetf.FIFOQueue根据先进先出（FIFO）的原则创建一个队列。队列是Tensorflow的一种数据结构，每个队列的元素都是包含一个或多个张量的元组，每个元组都有静态的类型和尺寸。入列和出列可以支持一次一个元素，或一次一批元素。它继承于Tensorflow的队列执行的基类tf.QueueBase...

2018-10-12 11:41:25 7262

原创 Tensorflow--tf.test.TestCase.get_temp_dir()

tf.test.TestCase.get_temp_dir()描述get_temp_dir()是tf.test的基类TestCase的一个方法，用来在测试的时候，返回一个唯一的临时文件路径。在同一个测试中，此方法返回的路径是唯一的，在不同的测试中，此方法返回的路径不一致。示例import tensorflow as tfclass GetTempDir(tf.test.TestCase...

2018-10-06 10:44:31 912

原创 Python中的bytearray（）和bytes（）函数

Python中的bytearray（）和bytes（）函数概述bytearray() 函数返回新字节数组，数组里的元素可变，且每个元素的值在0至255之间。bytes()函数是Python 3中增加的内置函数，语法、参数与bytearray() 一样，只是返回的新字节数组不可变。它是 bytearray() 的不可变版本。语法class bytearray([source[, encodi...

2018-10-05 23:04:06 6553

原创 Tensorflow中的单元测试类tf.test

Tensorflow中的单元测试概述Tensorflow提供了一个方便的类用来测试，它继承于类unittest.TestCase，里面包含了Tensorflow测试相关的算法。示例import tensorflow as tfclass SquareTest(tf.test.TestCase): def testSquare(self): with self.t...

2018-10-05 21:57:25 6884

BigPig的博客