5 橘子oly

尚未进行身份认证

hhhh~越努力越幸运~~~~

等级
TA的排名 3w+

Hadoop之Text与String的异同

String常量,创建之后不可修改字符串连接是通过StringBuilder(或StringBuffer)类实现的【区别:StringBuilder是非线程安全的,这也使其性能比StringBuffer要高(少synchroned方法)】String:UTF-16格式Unicode为解决传统字符编码方案的局限而产生Unicode方案包括:给所有字符指定一个唯一对应的数字将字符

2017-03-04 20:47:14

Hadoop实战之课后题--分析web服务器的日志文件

任务统计每个IP地址的访问次数查找访问数最多的前K个IP地址分析:任务1很简单,简单的求和问题,用来重新熟悉hadoopMR程序的写法。优化:使用combiner()减少网络中的流量传输;这个例子中combiner和reducer的逻辑相同,两种使用同一个reduce即可。代码贴在附录里了,注释详细,可查看~任务2是一个TopK的问题,要点有以下几个:使用TreeMap来得到

2017-03-03 16:34:09

Linux下打包运行MR程序

转载自 使用命令行编译打包运行MR程序网上的MapReduceWordCount教程对于如何编译WordCount.java几乎是一笔带过…而有写到的,大多又是0.20等旧版本版本的做法,即 javac-classpath/usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jarWordCount.java

2017-03-03 10:38:23

JAVA学习路线图

转载自byrbss JAVA学习路线图以下是原文:Java是一个通用的编程语言,其实可以干很多事,怎么学Java就看怎么用了。但有一些一般的步骤:1.熟悉一种文本编辑器,比如Vim,Emacs,Notepad++,TextMate等。知道哪些是开源的,哪些是闭源的,哪些要收费。养成不用盗版软件的习惯。2.安装JDK(建议用你的Linux发行版

2017-03-03 09:12:31

Hadoop_eclipse开发配置

参考这两篇文章http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlhttp://www.cnblogs.com/simplestupid/p/4681144.html

2017-03-02 16:43:16

Hadoop实战(五) 高阶MapReduce

本章重点概括TODO链接MapReduce作业顺序链接这种任务可以手动的逐个执行,但生成自动化执行序列的方式更为便捷。mapreduce-1|mapreduce-2|mapreduce-3|…具复杂依赖的作业链接(非线性链接)通过Job和JobControl类来管理依赖JobControl类负责管理并监控作业的执行JobControl对象使用addJob()方法向其中

2017-02-28 11:08:49

Hadoop2.2.0源码系列--Job类

获取Job对象Job的构造函数最直接的获取Job对象的方式@DeprecatedpublicJob()throwsIOException{this(newConfiguration());}@DeprecatedpublicJob(Configurationconf)throwsIOException{this(newJobConf(c

2017-02-28 10:18:50

Hadoop实战(四) 编写MR程序

Hadoop实战(四)编写MR程序样例数据集1.下载数据集Address:http://www.nber.org/patents/wgethttp://www.nber.org/patents/acite75_99.zipwgetwgethttp://www.nber.org/patents/apat63_99.zip解压:unzipacite75_99.zip上传

2017-02-28 09:17:42

leetcode73_ Set Matrix Zeroes

问题描述Givenamxnmatrix,ifanelementis0,setitsentirerowandcolumnto0.Doitinplace.代码编写*很明显是遍历的思想,但是做不到一遍做完所有,至少要两遍。*于是想到先遍历行,再遍历列。为节省时间,在遍历列的时候,需要置零的列就不再考虑已经被置零的行。*我的思路问题就在于只考虑了优化时间复

2017-02-27 20:37:22

Skinny-dip clustering in the sea of noise

粗读理解论文主要工作贡献理解一些相关工作:*unimodality:wiki_unimodality单峰性数学上是指处理一个唯一的模式(只有一个单一的最大值)。*mode:mode_wikiThemodeisthevaluethatappearsmostofteninasetofdata.*modalinterval:introduct

2017-01-12 11:41:55

leetcode62&63&64_Unique Paths

一、问题描述Arobotislocatedatthetop-leftcornerofamxngrid(marked‘Start’inthediagrambelow).Therobotcanonlymoveeitherdownorrightatanypointintime.Therobotistryingtoreachthe

2016-12-20 21:35:48

leetcode60_Permutation Sequence

一、问题描述Theset [1,2,3,…,n] containsatotalof n!uniquepermutations.Bylistingandlabelingallofthepermutationsinorder,Wegetthefollowingsequence(ie,for n =3):"123""132"

2016-12-16 15:44:02

《高维数据的聚类分析研究及其应用》读书笔记

一、高维聚类の研究方向    由于高维数据的稀疏性等特征,使得在高维聚类的研究中有如下几个研究重点:1)维度约简,主要分为特征变换和特征选择两大类。前者是对特征空间的变换映射,常见的有PCA、SVD等。后者则是选择特征的子集,常见的搜索方式有自顶向下、随机搜索等;2)高维聚类算法,主要分为高维全空间聚类和子空间聚类算法。前者的研究主要聚焦在对传统聚类算法的优化改进上,后者则可以

2016-12-13 09:36:24

kdtree&knn

前言:本文关于kdtree的知识基本来源于kdtree_wiki一、what'skdtree    kdtree是k-dimensionaltree的缩写,它是一种用于组织k维空间中数据点的基于空间划分的数据结构。kdtree常用于搜索多维搜索词,包括区间搜索和最近邻搜索。kdtree是一种二叉树结构,它是BSP(Binaryspacepartationing)树的一

2016-12-12 10:51:54

leetcode56&57_Merge Intervals&Insert Interval

一、问题描述Givenacollectionofintervals,mergealloverlappingintervals.Forexample,Given [1,3],[2,6],[8,10],[15,18],return [1,6],[8,10],[15,18]二、代码编写  这个算法思想很简单,只要将list按照interval的s

2016-12-11 20:22:53

Hadoop实战(二) hadoop基本组成

一、Hadoop组件    通常我们所理解的狭义Hadoop构成分为HDFS分布式存储系统和MapReduce编程模型两部分,下面分别从这两个部分介绍。(一)HDFSHDFS是一个分布式文件系统,下面主要介绍如何操作该文件系统。1.基本命令行操作hadoopfs-help基本的操作都遵循这个模式,比如常用的 hadoopfs-lshadoopfs-m

2016-12-08 16:26:34

hadoop实战(一) hadoop基本概念

一、理解Hadoop    Hadoop_wiki上定义,ApacheHadoop isan open-source softwareframework usedfor distributedstorage andprocessingofverylarge datasets.就是说Hadoop是分布式的数据处理框架。二、理解MapRed

2016-12-07 17:38:46

leetcode51&52 N-Queens

一.问题描述The n-queenspuzzleistheproblemofplacing n queensonan n×n chessboardsuchthatnotwoqueensattackeachother.Givenaninteger n,returnalldistinctsolutionstothe n-que

2016-12-04 15:10:16

EM算法

一.EM算法基本介绍  和一般的算法目标一样,我们用最大似然估计,对参数进行估计l(θ)=∑P(yi|θ)由于某些原因,你发现这个不好求(NPhard问题),于是引入了一个隐变量(latentvariable),并把上式改写成了l(θ)=∑P(yi|θ)=∑∑P(yj,zj|θ)[注:里面一个求和是对所有可能的z求和,外面的求和是对y]然后通过神奇

2016-12-03 21:15:34

昨天看到一个面试题,让介绍什么是秩,其实这个可能对学好了线性代数的人来说是很basic的问题吧,可是无奈数学里我最最讨厌的就是线性代数了,当初大一的时候压根没学明白。  言归正传,单独给秩开一篇博客,是因为早上看到知乎的大神对秩的解释简直不要太好,贴上来,保存一下。下面的回答是按2我个人的喜好程度排的,hhh回答1:秩就是基的个数,基就是特征,基就用最小的粒度能够描述所有

2016-12-01 16:29:40

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!