自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Spark学习笔记: Spark Streaming

背景很多重要的应用要处理大量在线流式数据,并返回近似实时的结果,比如社交网络趋势追踪,网站指标统计,广告系统。所以需要具备分布式流式处理框架的基本特征,包括良好的扩展性(百级别节点)和低延迟(秒级别)。批处理MapReduce和Spark Core都是批处理:需要收集数据,然后分批处理,这样一般会有一定的延时。流式处理数据收集后,直接处理。流式计算框架Spark Streaming...

2019-01-24 23:23:02 422

原创 Spark学习笔记:Spark SQL

背景从Spark 1.0开始,Spark SQL成为Spark生态系统一员,是专门处理结构化数据(比如DB, Json)的Spark组件。它提供了2种操作数据的方式:1)SQL Queries;2)DataFrames/Datasets API。Spark SQL = Schema + RDD,RDD可以表达所有的数据格式(包括结构化和非结构化),Spark SQL只表达结构化的数据。Spa...

2019-01-23 07:49:42 1068

原创 Spark学习笔记:程序设计

基本流程创建SparkContext对象封装了spark执行环境的上下文信息,必须有且只有一个;创建RDD可从Scala集合或Hadoop数据集上创建,利用Context对象的API创建RDD,可以将HBase表、MySQL表、本地文件等数据映射成RDD;在RDD之上进行Transformation和ActionSpark提供了多种Transformation和Action函数返回...

2019-01-21 22:59:40 1029

原创 Spark学习笔记:基本概念

Spark背景MapReduce的局限性仅支持Map和Reduce两种操作,需要所有问题都转换成map和reduce,有些问题不好转换,代码比较冗余,编程不够灵活;处理效率低:Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据,所以Io开销大效率比较低;任务调度和启动开销大;无法充分利用内存;Map端和Reduce端均需要排序;不适合迭代计算(如机器学习、图计...

2019-01-21 22:43:07 386

原创 Hadoop学习笔记:数据分析引擎Hive

概述Hive是一个构建在Hadoop之上的数据仓库,和传统的数据仓库一样主要用来访问和管理数据,提供了类SQL查询语言;和传统数据仓库不一样的是可以处理超大规模的数据,可扩展性和容错性非常强。Hive是由FaceBook开源的分布式数据分析引擎,它把SQL语句转化成MapReduce作业提交到Hadoop上运行并返回结果。Hive可以做日志分析(包括统计网站一个时间段内的pv、uv),海量结...

2019-01-16 01:00:55 7870

原创 Hadoop学习笔记:分布式计算引擎MapReduce

MapReduce简介MapReduce源自于Google发表于2004年12月的MapReduce论文,Hadoop MapReduce是Google MapReduce克隆版。MapReduce源于函数式编程,包括Map和Reduce两个算子,它是一个通用的计算引擎,所以易于编程,可以实现任意的算法,表达能力很强,只是效率有区别。MapReduce是一个分布式应用框架,解决数据导入读取,...

2019-01-11 20:13:34 1864

原创 Hadoop学习笔记: 分布式数据库 HBase

HBase概述HBase是一个构建在HDFS上的分布式列存储系统,是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储。HBase是Google Bigtable的开源实现,从逻辑上讲,HBase将数据按照表、行和列进行存储,它是一个分布式的、稀疏的、持久化存储的多维度排序表。Hbase会把数据写到HDFS文件系统中。HBase具有以下特点:1)良好的扩展性;2)读和写...

2019-01-11 00:18:18 2182

原创 Hadoop学习笔记:分布式文件系统HDFS

背景HDFS(Hadoop Distributed File System)源自于Google发表于2003年10月的GFS论文,HDFS是GFS克隆版。它是一个易于扩展的分布式文件系统,可以运行在大量普通廉价机器上,它提供容错机制,为大量用户提供性能不错的文件存取服务。它具有以下优点:高容错性:数据自动保存多个副本, 副本丢失后,自动恢复适合批处理:移动计算而非数据,数据位置暴露给计算...

2019-01-08 15:06:24 457

原创 Hadoop学习笔记:一致性服务系统Zookeeper

背景

2019-01-06 16:52:40 609 7

原创 Hadoop学习笔记: 分布式消息队列 Kafka

背景这种结构耦合性太高,后端一旦发生变化,前端就要改动。使用中间件进行解耦,提高扩展性,各种服务都把生成的数据或变化写到中间件,后端服务器根据需要获取数据或变化,同时当生产者生产的数据大于消费者消费的数据时提供了缓存机制。消息队列能够使关键组件顶住突发的访问压⼒力,而不会因为突发的超负荷的请求⽽而完全崩溃。Kafka是LinkedIn开源的分布式发布-订阅消息系统,它是一种数据管道和消息队列...

2019-01-06 00:06:49 2117 1

原创 Hadoop学习笔记:分布式数据收集系统Flume和Sqoop

背景Hadoop提供了一个中央化的存储系统,有利于进行集中式的数据分析与数据共享。Hadoop对存储格式没有要求,包括用户访问日志、产品信息和网页数据等。但是,数据分散在各个离散的设备上或保存在传统的存储设备和系统中,我们需要将数据存入Hadoop。常见数据来源包括网页信息、用户操作日志等非结构化数据和传统关系型数据库(像MySQL、Oracled等)中的结构化数据,例如商品信息、用户信息等。如...

2019-01-05 17:29:09 787

原创 大数据学习笔记:大数据技术框架和Hadoop生态系统

大数据技术框架Hadoop生态系统Hadoop是目前得到企业界验证的大数据框架,包括以下特点:源代码开源社区活跃、参与者众多涉及分布式存储和计算的方方面面Flume(非结构化数据收集)Cloudera开源的日志收集系统,用于非结构化数据收集。具有以下特点:分布式高可靠性高容错性易于定制和扩展Sqoop(结构化数据收集)Sqoop是SQL to Hadoop的...

2019-01-04 14:48:39 1517

原创 Spark学习笔记:运行模式

Spark运行模式Wordcount实例import org.apache.spark._ import SparkContext._object WordCount { def main(args: Array[String]) { if (args.length != 3 ){ println("usage is org.test.WordCount <master&...

2019-01-02 21:43:29 213

原创 线性回归和逻辑回归介绍

概述线性回归和逻辑回归是机器学习中最基本的两个模型,线性回归一般用来解决预测问题,逻辑回归一般解决分类问题,线性回归模型和逻辑回归模型之间既有区别又有关联。线性回归模型假定训练数据集为T={(x1,y1),(x2,y2),...,(xn,yn)}T = \{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}T={(x1​,y1​),(x2​,y2​),...,(xn​,...

2018-12-11 22:59:59 1001

原创 Tensorflow官网CIFAR-10数据分类教程代码详解

标题概述对CIFAR-10 数据集的分类是机器学习中一个公开的基准测试问题,本教程代码通过解决CIFAR-10数据分类任务,介绍了Tensorflow的一些高阶用法,演示了构建大型复杂模型的一些重要技巧,着重于建立一个规范的网络组织结构,训练并进行评估,为建立更大规模更加复杂的模型提供一个范例,可以作为学习Tensorflow的一个经典示例。本文章对每行代码做了详细注释,以便对其他学习的朋友有...

2018-11-07 17:06:21 3534 1

原创 Tensorflow-tf.nn.zero_fraction()详解

Tensorflow-tf.nn.zero_fraction()详解简介Tensorflow-tf.nn.zero_fraction()的作用是将输入的Tensor中0元素在所有元素中所占的比例计算并返回,因为relu激活函数有时会大面积的将输入参数设为0,所以此函数可以有效衡量relu激活函数的有效性。...

2018-10-30 12:10:18 4218 1

原创 Tensorflow-tf.FixedLengthRecordReader详解

Tensorflow-tf.FixedLengthRecordReader详解描述tf.FixedLengthRecordReader是从一个文件中输出固定长度Recorder的类,是从ReaderBase继承而来,ReaderBase是一个管理各种类型Reader(Reader数据读取的类)的基类,它可以将字符串(一般是一系列文件名)转化为Records(每个Recorder是一个Key,V...

2018-10-16 23:54:59 2738

原创 Tensorflow--tf.FIFOQueue详解

Tensorflow–tf.FIFOQueuetf.FIFOQueue根据先进先出(FIFO)的原则创建一个队列。队列是Tensorflow的一种数据结构,每个队列的元素都是包含一个或多个张量的元组,每个元组都有静态的类型和尺寸。入列和出列可以支持一次一个元素,或一次一批元素。它继承于Tensorflow的队列执行的基类tf.QueueBase...

2018-10-12 11:41:25 7262

原创 Tensorflow--tf.test.TestCase.get_temp_dir()

tf.test.TestCase.get_temp_dir()描述get_temp_dir()是tf.test的基类TestCase的一个方法,用来在测试的时候,返回一个唯一的临时文件路径。在同一个测试中,此方法返回的路径是唯一的,在不同的测试中,此方法返回的路径不一致。示例import tensorflow as tfclass GetTempDir(tf.test.TestCase...

2018-10-06 10:44:31 912

原创 Python中的bytearray()和bytes()函数

Python中的bytearray()和bytes()函数概述bytearray() 函数返回新字节数组,数组里的元素可变,且每个元素的值在0至255之间。bytes()函数是Python 3中增加的内置函数,语法、参数与bytearray() 一样,只是返回的新字节数组不可变。它是 bytearray() 的不可变版本。语法class bytearray([source[, encodi...

2018-10-05 23:04:06 6553

原创 Tensorflow中的单元测试类tf.test

Tensorflow中的单元测试概述Tensorflow提供了一个方便的类用来测试,它继承于类unittest.TestCase,里面包含了Tensorflow测试相关的算法。示例import tensorflow as tfclass SquareTest(tf.test.TestCase): def testSquare(self): with self.t...

2018-10-05 21:57:25 6884

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除