自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yanzhelee

大数据小菜

  • 博客(72)
  • 收藏
  • 关注

转载 交叉熵

文章转自:https://blog.csdn.net/tsyccnh/article/details/79163834关于交叉熵在loss函数中使用的理解交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便。最近开始研究起对抗生成网络(GANs),用到了交叉熵,发现自己...

2018-08-29 17:01:44 13373 1

转载 linux后台执行命令:&和nohup

当我们在终端或控制台工作时,可能不希望由于运行一个作业而占住了屏幕,因为可能还有更重要的事情要做,比如阅读电子邮件。对于密集访问磁盘的进程,我们更希望它能够在每天的非负荷高峰时间段运行(例如凌晨)。为了使这些进程能够在后台运行,也就是说不在终端屏幕上运行,有几种选择方法可供使用。&当在前台运行某个作业时,终端被该作业占据;可以在命令后面加上& 实现后台运行。例如:sh te...

2018-08-07 11:00:37 429

原创 windows 下 python3操作hive

安装依赖pip install saslpip install thriftpip install thrift-saslpip install PyHivewindows安装sasl报错,解决方案下载对应版本预编译的包 https://www.lfd.uci.edu/~gohlke/pythonlibs/#saslC:\Python27\Scripts\pip.ex...

2018-07-23 15:54:08 3027 1

转载 Linux使用Shell脚本实现ftp自动上传

#!/bin/bashFTILE_NAME=$1ftp -n <<- EOFopen 59.151.127.55user username passwordbinput $FTILE_NAMEbyeEOFrm $FTILE_NAME参考文章https://jingyan.baidu.com/article/22fe7ced209c073003617f47...

2018-07-20 13:33:00 2024

转载 Python正则表达式 知识思维导图

2018-04-27 00:09:08 671

转载 spark生态及运行原理

spark 生态及运行原理spark 特点运行速度快 => Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。适用场景广泛 => 大数据分析统计,实时数据处理,图计算及机器学习易用性 => 编写见到那,支持80多种以上的高级算子,支持多种语言,数据源丰富,可部署在多种集群中容错性高 => Spark引进了弹性分布式数据集RDD,它是分布在一组节点中的只读对象

2018-02-24 14:51:32 648

转载 深度学习——感知器

参考博文:https://www.zybuluo.com/hanbingtao/note/433855深度学习是啥在人工智能领域,有一个方法叫机器学习。在机器学习这个方法里,有一类算法叫神经网络。神经网络如下图所示:上图中每个圆圈都是一个神经元,每条线表示神经元之间的连接。我们可以看到,上面的神经元被分成了多层,层与层之间的神经元有连接,而层内之间的神经元没有连接。

2017-12-22 14:37:23 739 3

原创 java操作xml——JDom使用详解

java操作xml——JDom使用详解JDom是一个开源项目,它基于树形结构,利用纯JAVA的技术对XML文档实现解析、生成、序列化以及多种操作。JDom简介JDom直接为JAVA变成服务。它利用更为有力的java语言的诸多特性(方法重载、集合概念以及映射),把SAX和DOM的功能有效地结合起来。在使用设计上尽可能地隐藏原来使用xml过程中的复杂性。利用JDom处理xml文档是一件轻松简单的事。JD

2017-11-20 16:20:10 3471

原创 解决java向mysql数据表中插入html代码问题

解决java向mysql数据表中插入html代码问题最近在写一个爬虫程序,其中要把网页中的html代码插入到mysql数据库中,结果程序一直提示报错,错误信息提示我的sql语句有错,但是我检查了半天都没发现程序有问题。之后我将要插入的html字符串内容换成一个简单的字符串(比如”hello world”)再次进行测试,结果程序运行成功。所以推断造成程序报错的根本原因是html代码中含有特殊字符,如果

2017-11-20 15:43:44 3846

转载 Spark性能优化之shuffle调优

Spark性能优化之shuffle调优以下内容源自美团网Spark工程师总结的关于Spark性能优化的方案中的部分内容。调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资

2017-10-26 18:45:45 472

转载 Spark性能调优之数据倾斜调优

Spark性能调优之数据倾斜调优以下内容源自美团网Spark工程师总结的关于Spark性能优化的方案中的部分内容。调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象多数task执行得都非常快,但个别task执行极慢。比如,总共

2017-10-26 18:40:52 411

转载 Spark性能优化之资源调优

Spark性能优化之资源调优以下内容源自美团网Spark工程师总结的关于Spark性能优化的方案中的部分内容。调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有

2017-10-26 18:39:09 434

转载 Spark性能优化之开发调优

Spark性能优化之开发调优以下内容源自美团网Spark工程师总结的关于Spark性能优化的方案中的部分内容。调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一下性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以下原则,并将这些原则根据具体

2017-10-26 18:37:38 413

转载 Spark Scheduler内部原理剖析

Spark Scheduler内部原理剖析分布式运行框架Spark可以部署在多种资源管理平台,例如Yarn、Mesos等,Spark本身也实现了一个简易的资源管理机制,称之为Standalone模式。由于工作中接触较多的是Spark on Yarn,以下所述表示Spark on Yarn。Spark部署在Yarn上有两种运行模式,分别是client和cluster模式,它们的区别仅仅在于Spark

2017-10-26 18:33:47 790

转载 Scala类型参数(二)

Scala类型参数(二)1 Ordering与Ordered特质在介绍上下文界定之前,我们对scala中的Ordering和Ordered之间的关联与区别惊醒讲解,先看Ordering、Ordered的类继承层次体系:通过上面两张图可以看到Ordering混入了java中的Comparator接口,而Ordered混入了java中的Comparable接口,我们知道java中的Comparator是

2017-10-06 11:33:27 435

原创 一张图入门python

一张图入门python

2017-10-05 20:12:41 520

转载 Scala隐式转换和隐式参数

Scala隐式转换和隐式参数在scala语言中,隐式转换是一项强大的语言功能,他不仅能够简化程序设计,也能够使程序具有很强的灵活性。要想更进一步地掌握scala语言,了解其隐式转换的作用和原理是很有必要的,否则很难得以应手的处理日常开发中的问题。在scala语言中,隐式转换是无处不在的,只不过scala语言为我们隐藏了相应的细节,例如scala中的继承层次结构中:它们存在固有的隐式转换,不需要人工进

2017-10-05 13:47:10 703

转载 Scala类型参数(一)

Scala类型参数(一)类型参数是对泛型的范围进一步的界定,那么介绍类型参数之前先聊聊泛型。Scala类型参数。类型参数是对泛型的范围进一步的界定,那么介绍类型参数之前先聊聊泛型。泛型用于指定方法或类可以接受任意类型参数,参数在实际使用时才 被确定,泛型可以有效的增强程序的使用行,使用泛型可以使得类或者方法具有更强的通用性。泛型的典型应用场景是集合及集合中的方法参数,可以说同java一样,scala

2017-10-04 16:31:01 983

转载 Scala模式匹配

Scala模式匹配1 前言Scala中的模式匹配可以看成是更好的java switch语句。比如如下java代码:public void testSwitch(){ for(int i = 0; i < 100; i++){ switch(i){ case 10 : System.out.println("10"); break;

2017-10-03 18:06:59 566

转载 linux之零拷贝(ZeroCopy)

linux之零拷贝(ZeroCopy)传统的数据传输方式:像这种在文件读取数据然后将数据通过网络传输给其他的程序的方式(大部分应用服务器都是这种方式,包括web服务器处理静态内容时,ftp服务器,邮件服务器等等)其核心操作就是如下两个调用:File.read(fileDesc,buf,len);File.send(socket,buf,len);其上操作看上去只有两个简单的调用,但是其内部过程却要

2017-10-02 17:16:28 1496

原创 Kafka内核总结

Kafka内核总结1 Message一个kafka的Message由一个固定长度的header和一个变长的消息体body组成。header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1时,会在magic和CRC32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等信息);如果magic的值为

2017-10-02 17:10:07 848

原创 Kafka的基本shell命令

Kafka内核总结1 Message一个kafka的Message由一个固定长度的header和一个变长的消息体body组成。header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1时,会在magic和CRC32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等信息);如果magic的值为

2017-10-02 17:06:49 1012

原创 Hive自定义函数

Hive自定义函数1 UDF用户自定义函数(user defined function)针对单条记录。1.1 创建函数流程添加pom依赖自定义一个java类继承UDF类重写evaluate方法打成jar包在hive中执行add jar方法在hive执行创建模板函数1.2 实例一第一步、添加依赖<?xml version="1.0" encoding="UTF-8"?> <de

2017-09-28 14:16:48 1462

原创 利用com.maxmind.db根据ip地址获取地理位置信息

利用com.maxmind.db根据ip地址获取地理位置信息1 添加Maven依赖<dependency> <groupId>com.maxmind.db</groupId> <artifactId>maxmind-db</artifactId> <version>1.0.0</version></dependency>2 用法2.1 简单示例File database =

2017-09-27 23:20:46 2725 1

原创 通过反射完成不同对象之间的属性拷贝

通过反射完成不同对象之间的属性拷贝import java.beans.BeanInfo;import java.beans.Introspector;import java.beans.PropertyDescriptor;import java.lang.reflect.Method;import java.util.List;/** * 数据工具类 */public class D

2017-09-25 00:19:58 734

转载 Spark Streaming缓存、Checkpoint机制

Spark Streaming缓存、Checkpoint机制1 Spark Stream 缓存Dstream是由一系列的RDD构成的,它同一般的RDD一样,也可以将流式数据持久化,采用同样的persisit方法,调用该方法后DStream将持久化所有的RDD数据。这对于一些需要重复计算多次或者数据需要反复被 使用的DStream特别有效。像reduceByWindow、reduceByKeyAndW

2017-09-23 23:21:40 7708

转载 Spark Streaming——DStream Transformation操作

Spark Streaming——DStream Transformation操作Spark的各个子框架都是基于spark core的,Spark Streaming在内部的处理机制是,接收实时流的数据,并根据一定的时间间隔拆分成一批数据,然后通过Spark Engine处理这些批数据,最终得到处理后的一批结果数据。对应的批数据,在spark内核对应一个RDD实例,因此,对应流数据的DStream可

2017-09-19 23:41:29 1725

翻译 Spark RDD 持久化

Spark RDD 持久化注:该文档针对Spark2.1.0版本Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快(通常快10倍以上)。对应迭代算法和快

2017-09-15 18:02:37 576

翻译 Spark的广播变量和累加变量

通常情况下,当向Spark操作(比如map或者reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。尽管如此,Spark提供了两种有限类型的共享变量,广播变量和累加器。

2017-09-15 15:18:09 1210 1

转载 Scala Option(选项)

Scala Option(选项)Scala Option(选项)类型表示一个值得可选的(有值或者无值)。Option[T] 是一个类型为T的可选值得容器:如果值存在,Option[T]就是一个Some[T],如果不存在,Option[T]就是对象None。接下来看一段代码:val myMap:Map[Int,String] = Map(1 -> "tom")val v1:Option[String

2017-09-09 15:31:15 788

原创 Scala 高阶函数

Scala 高阶函数Scala混合了面向对象和函数式的特性。在函数式编程语言中,函数是“头等公民”,可以像任何其他数据类型一样被传递和操作。每当你想要给算法传入明细动作时这个特性就会变得非常有用。作为值的函数在Scala中,函数是“头等公民”,就和数字一样。你可以在变量中存放函数:import scala.math._val num = 3.14val fun = ceil _这段代码将num设为

2017-09-08 20:35:36 648

原创 apply方法和unapply方法

apply方法和unapply方法appply方法通常,在一个类的伴生对象中定义apply方法,在生成这个类的对象时,就省去了new关键字。请看下面代码:class Foo(foo:String){}object Foo{ def apply(foo:String) : Foo = { new Foo(foo) }}定义一个Foo类,并且在这个类中,有一个伴生对象Foo,里面定义了

2017-09-07 22:15:42 3004

原创 Hadoop InputFormat介绍

Hadoop InputFormat介绍1 概述我们在编写MapReduce程序的时候,在设置输入格式的时候,会调用如下代码:job.setInputFormatClass(KeyVakueTextInputFormat.class)通过上面的代码来保证输入的文件是按照我们想要的格式被读取,所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门用于读取普通文件的FileInput

2017-09-02 14:00:34 3799

原创 FileStatus类介绍

FileStatus类介绍FileStatus对象封装了文件系统中文件和目录的元数据,包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。FileStatus对象一般由FileSystem的getFileStatus()方法获得,调用该方法的时候要把文件的Path传递进去。FileStatus字段解析private Path path; // Path路

2017-09-02 10:05:37 10125

转载 Kafka背景及架构介绍

Kafka背景及架构介绍Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。

2017-09-01 00:47:00 727

原创 HBase扫描操作Scan

HBase扫描操作Scan1 介绍扫描操作的使用和get()方法类似。同样,和其他函数类似,这里也提供了Scan类。但是由于扫描工作方式类似于迭代器,所以用户无需调用san()方法创建实例,只需要调用HTable的getScanner()方法,此方法才是返回真正的扫描器(scanner)实例的同时,用户也可以使用它迭代获取数据,Table中的可用的方法如下:ResultScanner getScan

2017-08-30 17:22:24 8000

原创 HBase CURD之Delete

HBase CURD之DeleteHTable提供了删除方法,同时与之前的方法一样有一个相应的类为Delete。1 单行删除delete()方法有许多变体其中一个只需一个Delete实例

2017-08-30 11:55:13 881

原创 HBase CURD之Get

HBase CURD之Get下面我们将介绍从客户端API中获取已存数据的方法。HTable类中提供了get()方法,同时还有与之对应的Get类。get方法分为两类:一类是一次获取一行数据;另一类是一次获取多行数据。

2017-08-29 01:18:37 863

原创 HBase CURD之Put

HBase数据插入使用Put对象,Put对象在进行数据插入时,首先会向HBase集群发送一个RPC请求,得到相应之后将Put类中的数据通过序列化的方式传给HBase集群,集群节点接收到数据之后进行添加功能。单行插入单行插入即每次只插入一行数据.

2017-08-28 22:17:14 3972

转载 HBASE 概述

HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。HBase通过线性方式从下之上增加节点进行扩展。HBase不是关系型数据库,也不支持SQL,但是它有自己的特长,这是RDBMS不能处理的,HBase巧妙地将大而稀疏的表放在商用的服务器集群上。HBase是Google Bigtable的开源实现.

2017-08-26 14:33:44 956

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除