自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BlockheadLS的博客

多看书,多请教,勤思考,勤记录。

  • 博客(30)
  • 资源 (2)
  • 收藏
  • 关注

转载 大数据资料数据集

国内数据:链接:http://pan.baidu.com/s/1i5nyjBn 密码:26bm 好玩的数据集:链接:http://pan.baidu.com/s/1bSDIEi 密码:25zr 微软数据:链接:http://pan.baidu.com/s/1bpmo6uV 密码:286q 微博数据集:链接:http://pan.baidu.com/s/1jHCOwCI 密码:x58f 遥感影

2017-01-13 15:18:49 3403 10

翻译 理解LSTM网络

说明这篇同样是一篇译文,通篇很少公式,但对于基本原理讲得很明白,决定翻译并分享它。英语水平有限,有的地方翻译不到位也敬请告知。原文地址如下,Understanding LSTM Networks。————————————————————————–循环神经网络人类并不是在每时每刻都在重新启动他们的思考过程。就像你读一篇散文,你对某个单词的理解是基于前面每一个词的。你不会把之前的都扔掉,然后重新开始思考

2017-01-12 12:35:35 942

翻译 一个一步步进行反向传播的例子

说明学习深度学习的过程中,遇到了一个用例子讲解反向传播算法的博文,简单粗暴容易理解,很适合我这种小白,所以打算翻译一下分享,英文水平有限,翻译不对的地方请告知。原文地址在这。下面是译文。背景反向传播在神经网络的训练中是一种经常被用到的算法。关于反向传播算法网上有很多讲解,但是很少有用真实的数字为大家举例子来解释的。在本篇博文中,我将努力用一个具体的例子来解释反向传播是怎样工作的,为了确定自己理解的是

2017-01-09 22:14:31 4199 1

转载 spark on yarn作业运行的jar包缓存优化

原文地址参考自下文这几天一直在追查spark on yarn的作业运行中的jar包分发,以及执行后的jar包删除的问题。从一开始的毫无头绪,到后来逐渐清晰,到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说,虽然问题不大,对某些大牛们来说也真是小case,但是追查问题,定位问题到最终解决问题的过程,对我来说真是很不错的体验和学习过程。下面详细描述一下遇到的问题,以及解决的过程,给后面的

2016-12-12 16:13:45 1577

原创 Spark的任务调度学习

背景Spark的调度依次是Application调度、Job调度、Stage调度和Task调度,其中在Spark On Yarn下,Application调度是ResourceManager的工作,Application级别资源的调度是Yarn来分配的,这在《Spark下Yarn-Cluster和Yarn-Client的区别中》做了介绍。本文所记录的Spark的任务调度是在Application已经

2016-12-07 01:27:05 1013

原创 Spark下Yarn-Cluster和Yarn-Client的区别

0 首先注意的概念ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。 NodeManager:是每一台slave机器的代理,执行应用程序,并监控应用程序的资源使用情况。 Application Master:每一个应用程序都会有一个Application Master,它的主要职责是向RM申请资源、在每

2016-11-25 01:51:16 7672 3

转载 Shell脚本学习之expect命令

http://blog.csdn.net/leexide/article/details/17485451

2016-11-10 09:52:30 547

原创 在shell脚本中使用expect实现scp传输问题

1.安装expectexpect用于shell脚本中自动交互,其是基于tcl编程语言的工具。所以安装expect首先安装tcl。本文中使用的是expect5.45和tcl8.6.6。安装tcl[root@tseg0 /]$ mkdir /tools[root@tseg0 /]$ tar -zxvf tcl8.6.6-src.tar.gz[root@tseg0 /]$ cd tcl8.6.6/un

2016-11-09 21:41:23 11384 1

原创 shell脚本创建用户并设置密码

0 背景在非root用户tseg下创建新的用户ls并设置密码123。1 命令行下添加用户及密码如果使用命令行时我们需要这样做:#创建用户lssudo useradd ls#为ls用户设置密码sudo passwd ls可以看到,要想完成此动作需要root权限。2 shell脚本下添加用户和设置密码因为添加用户和设置密码需要root权限,所以在非root用户下需要使用sudo,但是sudo的每次

2016-11-04 15:13:14 26226

原创 BIRCH算法

概念BIRCH算法的全称是Balanced Iterative Reducing and Clustering Using Hierarchies,即利用层次方法的迭代归约和聚类。它的主要思想是建立一棵B树,原始数据存放在叶子节点中,并根据聚类个数和其它参数的设置放在不同的叶子节点中。聚类特征CF聚类特征CF是BIRCH算法最核心的概念,它是多个数据点的结合表示,是一个三元组 (N,LS,SS)(N

2016-10-25 18:15:20 1594 1

翻译 Spark编程指南--官方翻译

说明这是对Spark2.0.1的Spark Programming Guide的翻译,翻译它是想让自己静心看下去,英语水平也不高,所以有的地方难免出错,另外,翻译中的某些地方加入了自己的理解,可能就多添了一句,以便于理解。综述在一个高层次来说,每一个Spark应用程序都会包含driver程序(运行用户main函数的程序)和在集群上执行各种各样的并行操作。Spark提供的主要抽象是RDD(弹性的分布式

2016-10-24 15:10:04 1535 2

原创 Hadoop多用户配置

0.Hadoop多用户配置的背景。 Hadoop多用户配置的目的就是多个hadoop用户可以共同使用HDFS,但是只能操作属于自己的空间,不能跨用户空间操作(当然/tmp是属于大家的,任何用户都会对这个文件夹有写操作)。 Hadoop多用户配置,相当于给每个用户一个hadoop客户端,每个用户都可以使用hadoop的命令操作属于自己的HDFS空间。

2016-10-14 15:05:15 5791

原创 Learning Spark 笔记(七) -- 受益于分区的操作

10 . 单元操作是怎样受益的?以reduceByKey为例子,reduceByKey是在本地归约后再发送到一个主机上再进行归约。如果父RDD是有分区信息的,那么就可能只会在本地归约了,而不会再跨网络发送到其它主机上。二元操作是怎样受益于分区的?比如join(),至少会有一个RDD不会被shuffle。如果两个RDD有同样的partitioner,且被缓存在相同的机器上,则不会shuffle产生,比

2016-08-30 17:24:12 543

原创 Learning Spark 笔记(六) -- 指定分区信息改善join()等的操作

9 . 默认情况下,join()操作会对两个RDD的主键做哈希以分区,通过网络将主键相同的元素发送到同一台机器上,然后根据相同的主键再进行连接。例子如下:val sc = new SparkContext()val userData = sc.sequenceFile[UserID,LinkInfo]("hdfs://...").persistdef processNewLogs(logFile

2016-08-30 08:40:35 2645

原创 Learning Spark 笔记(五) -- coalesce、repartition

8 . 在Spark中,有两种方法可以重设RDD的分区,coalesce和repartition。先看一下coalesce和repartition的定义:def coalesce(numPartitions: Int, shuffle: Boolean = false){...}def repartition(numPartitions: Int)(implicit ord: Ordering[T

2016-08-30 00:08:45 817

原创 Learning Spark 笔记(四) -- reduceByKey、combineByKey

6 . reduceByKey运行多个reduce操作,每个key对应一个reduce操作,只不过reduce返回的是结果,reduceByKey返回的是一个新的RDD。 7 . Spark有很多根据键来合并数据的操作,其中大部分都是用combineByKey来实现的。下面是一个利用combineByKey来计算每个key的value平均值的例子。val input = sc.textFile("

2016-08-29 17:37:07 1211

原创 Learning Spark 笔记(三) -- take和persist

4 . take(n)试图最小化访问分区,此操作并不一定以期待的顺序返回数据。 5 . 当持久化一个RDD的时候,计算这个RDD的节点会保存它们的分区。如果缓存了数据的节点出错了,Spark会在需要的时候重新计算丢失的分区。只有遇到action的时候才会真正的执行持久化操作。默认的持久化操作是将数据存放在JVM中作为非序列化对象。如下面wordcount的例子:val lines = sc.

2016-08-29 00:58:18 1312

原创 Learning Spark 笔记(二) -- aggregate初值初探

fold和aggregate都需要初值,且每个初值应用到每个分区。例子如下: val input = sc.parallelize(List(1,2,3,4,5,6),3) val result = input.aggregate((0, 0))( (acc, value) => (acc._1 + valu

2016-08-28 17:43:30 629

原创 Learning Spark 笔记(一) -- Lazy优势和transformation传参

lazy valuation的优势。它是为大数据而生的,目标是减少迭代次数,节约时间和空间。比如下面的这一段代码 val text = sc.textFile(“…”) val python_lines = text.filter(x=>x.contains(“python”)) python_lines.first 程序只有遇到rdd.first类似的action才会去真正的执行textF

2016-08-28 11:17:53 1947

原创 贝叶斯估计与结构风险最小化

2016-06-16 23:46:33 1326

原创 极大似然估计与经验风险最小化

2016-06-16 23:45:15 1077

原创 学习理论的一些总结

2016-06-16 23:42:21 602

原创 LibSVM(java版)的使用

0  准备工作     1)下载一个LibSVM;     2)了解一下SVM的原理还是非常必要的,不然都不知道参数是啥意思。。我看过一篇SVM入门的博客,里面有八讲,分享之。1  LibSVM的使用介绍

2015-11-27 22:27:35 11551 13

原创 用TFIDF给特征词赋权值

0  背景           在上一篇的用CHI检验的文章中我们已经获得了特征词,这些特征词在某一篇文章中出现的频率是不一样的,也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度,就必须赋权重。在本篇文章中,我们使用的方法是TFIDF。1   VSM向量空间模型             哎?不是讲TFIDF吗,怎么会有VSM向量空间模型呢。是这样,在经过CH

2015-11-24 22:26:03 4190 1

原创 用CHI检验提取文本特征词

0 背景       还是老师的文本分类的大作业。。。在对文本数据集分词并且除去停用词以后,我们就必须进行文本特征词的提取。所谓特征词就是可以代表此篇文章或者此类文章的一些词语。特征词提取的算法有很多,在此篇博客中讲的是CHI检验。CHI检验让我觉得概率论还是没有白学的。。。1  CHI检验基础    卡方检定一个应用的场景是独立性检验。“独立性检定”验证从两个变数抽出的配对观察值组是

2015-11-22 14:02:41 6658 1

原创 中文分词系统NLPIR(2015版)的Java接口使用学习

前言:        这几天数据挖掘的大作业又用到分词了,首先想到的肯定是中科院的分词系统NLPIR,但是之前用的事2013版的,2015版的有了新的变化。增加了函数和效率自是不必说,由于我是用的java,所以必须使用NLPIR的java接口,NLPIR提供了一个jna的jar包,其实确切来说是打包成了一个bundle,可见NLPIR非常有雄心,以后也必定有更多的功能bundle。此外,新版的

2015-11-09 13:51:12 1688 1

原创 Spark的flatMap和Map的区别

背景:在学习spark的时候,有一个开篇的例子中有两句代码如下所示:val input = sc.textFile(inputFile) val words = input.flatMap(line=>line.split(" "))     上面两句的意思是,输入一个文件,然后以单空格作为将每一行的输入划分为单词s。     另外,在Spark提供的API中也

2015-11-08 18:15:39 2041

转载 OSGI的类加载机制

声明:以下为转载内容 原博客地址为http://blog.csdn.net/vking_wang/article/details/12875619思路OSGi每个模块都有自己独立的classpath。如何实现这一点呢?是因为OSGi采取了不同的类加载机制:OSGi为每个bundle提供一个类加载器,该加载器能够看到bundle Jar文件内部的类和资源;为了让bun

2015-11-08 16:03:53 785

原创 Ubuntu 14 下Spark 1.4.1 安装到eclipse 3.8

一、安装Scala插件打开eclipse,依次选择Help->Install New Software,点击Add按钮,如图所示,其中添加的路径为:http://download.scala-ide.org/sdk/e38/scala29/stable/site,然后点击ok,稍等一下便可以安装完成了。需要联网。

2015-11-07 21:45:28 604

原创 决策树ID3的学习与实现

0. 绪论 昨天完成了决策树ID3算法的编码,心情真的很激动呀,虽然是针对具体数据而生的,但是还是很自豪的说。在这个过程中对ID3算法也加深了印象。决策树学习主要是特征选择(实则是特征属性的排优)和基于ID3算法决策树的生成,对于决策树的剪枝本文并不讨论。1. 示例数据2. 预备知识信息熵:就决策的过程来说,熵是描述一个决策过程的混乱程度,如果选择过程是特定的则熵为0,如果

2015-10-20 18:48:18 872

用shell脚本实现hadoop多用户配置

这个shell脚本是在业余时间写的,从一开始不懂shell,到写出这个程序还是经过了一段时间的,收取小小1分希望得到大家的鼓励 :) 。程序的解释和hadoop多用户配置的步骤也都可以在博客中找到:)

2016-11-21

基于ID3算法的决策树的实现

ID3算法的大致实现,同学们可以作为参考

2015-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除