自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 百度阿里腾讯面试记录

十一之前都拿到百度的offer了,一直忙于各种琐碎的小事,现在才有时间来记录下找工作的经历,本人在西安,BAT都来的特别早。下面就记下流水账。一、阿里阿里的笔试题相对来说比较简单,笔试完了以后第三天就发通知我去面试。阿里我报的算法工程师,因为我对hadoop和HBase还比较了解,项目中用到过,而且对于hadoop的源码也看过一部分,语言我选的Java。谁知道,去面试的时候出了状况了。面试

2013-10-12 20:09:25 1042 2

原创 mahout 源码解析之聚类--K-Means,FuzzyKMeans

K-Means算法的实现在包org.apache.mahout.clustering.kmeans中,其实现了单机版本和Map-Reduce两种版本的算法。我们先来看类KMeansDriver,在这个类里面我们先从run函数开始看起,首先其利用RandomSeedGenerator随机选取输入样本中的K个作为最先的随机种子。 if (hasOption(DefaultOptionCrea

2013-07-30 15:18:35 1729

原创 mahout 源码解析之聚类--MinHash

MinHash作为一种聚类技术,具体的原理请参见淘宝的博客。在Mahout的实现中其位于包org.apache.mahout.clustering.minhash中,HashFunction为一个接口,HashFactory作为一个工厂类,实现了四种哈希函数。具体的实现位于类MinHashDriver中。这个类没有提供单机版本的实现,所做的是基于Map-Reduce的实现。在输入的参数上k

2013-07-30 14:52:30 1527

原创 mahout 源码解析之聚类--聚类迭代模型

在前面讲聚类策略时,包org.apache.mahout.clustering.iterator里面还有几个类没有进行讲解,这次做下收尾工作。ClusterIterator利用ClusterClassifier和指定的迭代次数将样本进行聚类。其中有三个具体的函数。iterate主要对内存中的数据进行聚类,输入就为一个Vector类型的迭代器。 public ClusterClass

2013-07-28 15:42:31 891

原创 mahout 源码解析之聚类--聚类分类模型

聚类分类模型代码主要在包org.apache.mahout.clustering.classify里面,其主要利用一系列的聚类簇和聚类策略对样本进行分类。我们先来看看类ClusterClassifier。一、ClusterClassifierClusterClassifier有四个属性,分别是聚类策略序列化存放文件路径、一系列的聚类簇、聚类簇类别和聚类策略。 private s

2013-07-28 15:08:59 1564

原创 mahout 源码解析之聚类--聚类策略

考虑到先前我们讲到的canopy算法的源码里面有关于CanopyClusteringPolicy的问题,以及后面将要讲到的K-means,fuzzy K-means都会出现聚类策略的问题,在这里我们就先将这些都拿来讲一讲。聚类策略的代码全部都在包org.apache.mahout.clustering.iterator里面,下面我们来一一解读。一、ClusteringPolicyClu

2013-07-27 16:54:31 1121

原创 mahout 源码解析之聚类--聚类模型

mahout聚类模型主要存在于包org.apache.mahout.clustering中,主要包含Model、ClusterObservations和GaussianAccumulator几部分。一、ModelModel主要定义了以下几个函数: double pdf(O x);//计算x属于此模型的概率 void observe(O x);//将加入此模型 void observ

2013-07-27 15:58:31 868 1

原创 mahout 源码解析之聚类--Canopy算法

Canopy算法的实现在包org.apache.mahout.clustering.canopy中。一、算法基本思想算法基本思想如下:(1)、将数据集向量化得到一个list后放入内存,选择两个距离阈值:T1和T2,其中T1 > T2,T1和T2的值可以用交叉校验来确定;(2)、从list中任取一点P,用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canop

2013-07-26 15:46:52 3303 2

转载 网络编程之同步,阻塞,异步,非阻塞

同步:函数没有执行完不返回,线程被挂起阻塞:没有收完数据函数不返回,线程也被挂起异步:函数立即返回,通过事件或是信号通知调用者非阻塞:函数立即返回,通过select通知调用者这样看来异步和非阻塞有什么区别呢?异步=非阻塞?同步是在操作系统层面上,阻塞是在套接字上?Reactor是同步 Proactor是异步?回答:同步、异步、

2012-03-07 14:41:48 357

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除