6 橘子oly

尚未进行身份认证

我要认证

hhhh~越努力越幸运~~~~

等级
TA的排名 3w+

Hadoop之Text与String的异同

String常量,创建之后不可修改字符串连接是通过StringBuilder(或StringBuffer)类实现的 【区别:StringBuilder是非线程安全的,这也使其性能比StringBuffer要高(少synchroned方法)】String: UTF-16格式Unicode为解决传统字符编码方案的局限而产生Unicode方案包括: 给所有字符指定一个唯一对应的数字将字符

2017-03-04 20:47:14

Hadoop实战之课后题--分析web服务器的日志文件

任务统计每个IP地址的访问次数查找访问数最多的前K个IP地址分析:任务1很简单,简单的求和问题,用来重新熟悉hadoop MR程序的写法。 优化:使用combiner()减少网络中的流量传输;这个例子中combiner和reducer的逻辑相同,两种使用同一个reduce即可。代码贴在附录里了,注释详细,可查看~任务2是一个TopK的问题,要点有以下几个: 使用TreeMap来得到

2017-03-03 16:34:09

Linux下打包运行MR程序

转载自 使用命令行编译打包运行MR程序网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java

2017-03-03 10:38:23

JAVA学习路线图

转载自byrbss  JAVA学习路线图以下是原文:Java是一个通用的编程语言,其实可以干很多事,怎么学Java就看怎么用了。但有一些一般的步骤:1. 熟悉一种文本编辑器,比如Vim, Emacs, Notepad++, TextMate等。知道哪些是开源的,哪些是闭源的,哪些要收费。养成不用盗版软件的习惯。2. 安装JDK(建议用你的Linux发行版

2017-03-03 09:12:31

Hadoop_eclipse开发配置

参考这两篇文章http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlhttp://www.cnblogs.com/simplestupid/p/4681144.html

2017-03-02 16:43:16

Hadoop实战(五) 高阶MapReduce

本章重点概括 TODO链接MapReduce作业顺序链接这种任务可以手动的逐个执行,但生成自动化执行序列的方式更为便捷。 mapreduce-1 | mapreduce-2 | mapreduce-3 | … 具复杂依赖的作业链接(非线性链接)通过Job和JobControl类来管理依赖JobControl类负责管理并监控作业的执行JobControl对象使用addJob()方法向其中

2017-02-28 11:08:49

Hadoop2.2.0源码系列--Job类

获取Job对象Job的构造函数最直接的获取Job对象的方式@Deprecated public Job() throws IOException { this(new Configuration()); } @Deprecated public Job(Configuration conf) throws IOException { this(new JobConf(c

2017-02-28 10:18:50

Hadoop实战(四) 编写MR程序

Hadoop实战(四) 编写MR程序样例数据集1. 下载数据集Address: http://www.nber.org/patents/ wget http://www.nber.org/patents/acite75_99.zip wget wget http://www.nber.org/patents/apat63_99.zip解压: unzip acite75_99.zip上传

2017-02-28 09:17:42

leetcode73_ Set Matrix Zeroes

问题描述Given a m x n matrix, if an element is 0, set its entire row and column to 0. Do it in place.代码编写*很明显是遍历的思想,但是做不到一遍做完所有,至少要两遍。 *于是想到先遍历行,再遍历列。为节省时间,在遍历列的时候,需要置零的列就不再考虑已经被置零的行。 *我的思路问题就在于只考虑了优化时间复

2017-02-27 20:37:22

Skinny-dip clustering in the sea of noise

粗读理解论文主要工作 贡献 理解一些相关工作: * unimodality:wiki_unimodality 单峰性数学上是指处理一个唯一的模式(只有一个单一的最大值)。 * mode:mode_wiki The mode is the value that appears most often in a set of data. * modal interval:introduct

2017-01-12 11:41:55

leetcode62&63&64_Unique Paths

一、问题描述A robot is located at the top-left corner of a m x n grid (marked ‘Start’ in the diagram below).The robot can only move either down or right at any point in time. The robot is trying to reach the

2016-12-20 21:35:48

leetcode60_Permutation Sequence

一、问题描述The set [1,2,3,…,n] contains a total of n! unique permutations.By listing and labeling all of the permutations in order,We get the following sequence (ie, for n = 3):"123""132"

2016-12-16 15:44:02

《高维数据的聚类分析研究及其应用》读书笔记

一、高维聚类の研究方向        由于高维数据的稀疏性等特征,使得在高维聚类的研究中有如下几个研究重点:1)维度约简,主要分为特征变换和特征选择两大类。前者是对特征空间的变换映射,常见的有PCA、SVD等。后者则是选择特征的子集,常见的搜索方式有自顶向下、随机搜索等;2)高维聚类算法,主要分为高维全空间聚类和子空间聚类算法。前者的研究主要聚焦在对传统聚类算法的优化改进上,后者则可以

2016-12-13 09:36:24

kdtree&knn

前言:本文关于kdtree的知识基本来源于kdtree_wiki一、what's kdtree        kdtree是 k-dimensional tree的缩写,它是一种用于组织k维空间中数据点的基于空间划分的数据结构。kdtree常用于搜索多维搜索词,包括区间搜索和最近邻搜索。kdtree是一种二叉树结构,它是BSP(Binary space partationing)树的一

2016-12-12 10:51:54

leetcode56&57_Merge Intervals&Insert Interval

一、问题描述Given a collection of intervals, merge all overlapping intervals.For example,Given [1,3],[2,6],[8,10],[15,18],return [1,6],[8,10],[15,18]二、代码编写    这个算法思想很简单,只要将list按照interval的s

2016-12-11 20:22:53

Hadoop实战(二) hadoop基本组成

一、Hadoop组件        通常我们所理解的狭义Hadoop构成分为HDFS分布式存储系统和MapReduce编程模型两部分,下面分别从这两个部分介绍。(一)HDFSHDFS是一个分布式文件系统,下面主要介绍如何操作该文件系统。1.基本命令行操作hadoop fs -help基本的操作都遵循这个模式,比如常用的  hadoop fs -lshadoop fs -m

2016-12-08 16:26:34

hadoop实战(一) hadoop基本概念

一、理解Hadoop        Hadoop_wiki上定义,Apache Hadoop is an open-source software framework used for distributed storage and processing of very large data sets. 就是说Hadoop是分布式的数据处理框架。二、理解MapRed

2016-12-07 17:38:46

leetcode51&52 N-Queens

一.问题描述The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that no two queens attack each other.Given an integer n, return all distinct solutions to the n-que

2016-12-04 15:10:16

EM算法

一.EM算法基本介绍    和一般的算法目标一样,我们用最大似然估计,对参数进行估计l(θ) = ∑P(yi|θ)由于某些原因,你发现这个不好求(NP hard问题),于是引入了一个隐变量(latent variable),并把上式改写成了l(θ) = ∑P(yi|θ) = ∑∑P(yj,zj|θ) [注:里面一个求和是对所有可能的z求和,外面的求和是对y]然后通过神奇

2016-12-03 21:15:34

昨天看到一个面试题,让介绍什么是秩,其实这个可能对学好了线性代数的人来说是很basic的问题吧,可是无奈数学里我最最讨厌的就是线性代数了,当初大一的时候压根没学明白。   言归正传,单独给秩开一篇博客,是因为早上看到知乎的大神对秩的解释简直不要太好,贴上来,保存一下。下面的回答是按2我个人的喜好程度排的,hhh回答1:秩就是基的个数,基就是特征,基就用最小的粒度能够描述所有

2016-12-01 16:29:40

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!