10 qll125596718

尚未进行身份认证

新浪微博:http://weibo.com/liamquan

等级
TA的排名 9k+

一位资深HR的职场感言

以前看过的一篇好文 今天偶然又看到了收录在此在担任公司高管的几年间,我面试过数以百计的各个层面的员工,其中最让我感到遗憾的一个现象就是很多人有着非常好的素质,甚至有的还是名校的毕业生,因为不懂得去规划自己的职业,在工作多年后,依然拿着微薄的薪水,为了一份好一点的工作而奔波。很多这样的人,他们只要稍微修正一下自己的职业方向,就能够在职业发展上走得更从容。  有一次一个大连理工大学的研究

2013-01-11 10:44:16

倒排索引基础

1.单词-文档矩阵    通常检索的场景是:给定几个关键词,找出包含关键词的文档。   怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词-文档矩阵模型,通过这个模型我们可以很方便知道某篇文档包含哪些单词,某个单词被哪些文档所包含。    搜索引擎的索引其实就是实现单词-文档矩阵的具体数据结构,具体可以包括:倒排索引、签名文件、后缀树等。常见的当然

2012-12-29 10:38:38

统计学习笔记(4)——朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。举个例子,如果一种水果具有红,圆,直径大概4英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实

2012-12-27 12:59:07

布尔检索及其查询优化

针对布尔查询的检索,布尔查询是指利用AND,OR或者NOT操作符将词项连接起来的查询。    举个简单的例子:莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?布尔表达式为:BrutusANDCaesarANDNOTCalpurnia。最笨的方法是线性扫描的方式:从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus和Caesar,同时又不包

2012-12-26 02:29:40

统计学习笔记(3)——k近邻法与kd树

在使用k近邻法进行分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量,所以距离的计算通常采用的是欧式距离。关键的是k值的选取,如果k值太小就意味着整体模型变得复杂,容易发生过拟合,即如果邻近的实例点恰巧是噪声,预测就会出错,极端的情况是k=1,称为最近邻算法,对于待预测点x,与x最近的点决定了x的类别。k值得增大意味着整体的

2012-12-24 12:34:05

统计学习笔记(2)——感知机模型

感知机学习旨在求出将训练数据集进行线性划分的分类超平面,为此,导入了基于误分类的损失函数,然后利用梯度下降法对损失函数进行极小化,从而求出感知机模型。感知机模型是神经网络和支持向量机的基础。下面分别从感知机学习的模型、策略和算法三个方面来介绍。1.感知机模型   感知机模型如下:f(x)=sign(w*x+b)   其中,x为输入向量,sign为符号函数,括号里

2012-12-23 12:28:29

统计学习笔记(1)——统计学习方法概论

1.统计学习    统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。    统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计

2012-12-20 12:11:47

文本特征提取

文本挖掘模型结构示意图1.分词分词实例:    提高人民生活水平:提高、高人、人民、民生、生活、活水、水平分词基本方法:    最大匹配法、最大概率法分词、最短路径分词方法1.1最大匹配法    中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的

2012-12-17 12:45:11

蒙提霍尔问题

蒙提霍尔问题(MontyHallProblem),也称三门问题,是一个源自博弈论的数学游戏问题,大致出自美国的电视游戏节目“Let'sMakeaDeal”。问题的名字来自该节目的主持人蒙提·霍尔(MontyHall)。 问题如下:    参赛者会看见三扇关闭了的门,其中一扇的后面有一辆车。参赛者选中了其中一扇门,节目主持人会开启剩下两扇门的其中一扇,露出其中一只山羊

2012-12-03 20:57:04

c++开源机器学习库及机器学习知识框架(更新中)

1)mlpackisaC++machinelearninglibrary.2)PLearnisaC++libraryaimedatresearchanddevelopmentinthefieldofstatisticalmachinelearningalgorithms.Itsoriginalityistoallowtoeasily

2012-12-03 13:05:17

一元线性回归模型与最小二乘法及其C++实现

监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线

2012-12-02 14:13:25

基本Kmeans算法介绍及其实现

1.基本Kmeans算法[1]选择K个点作为初始质心repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心until簇不发生变化或达到最大迭代次数时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数,n为维数空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维数2.注意问题(1)K如何确定

2012-11-30 06:26:11

对引用型参数是否加const限定一定要慎重

原始代码如下:编译报如下错误:“错误:不能将类型为‘Student&’的非const引用初始化为类型为‘std::string’的临时变量”分析:fn(string("Jenny"))调用后,由fn(Student&s)和Student(conststring&s)可知,系统会为fn构造一个临时的Student对象,注意这个临时的Student对象是const类型的,再传

2012-11-11 10:17:06

vi高亮相关问题

1、配置文件的位置在目录/etc/下面,有个名为vimrc的文件,这是系统中公共的vim配置文件,对所有用户都有效。而在每个用户的主目录下,都可以自己建立私有的配置文件,命名为:“.vimrc”。例如,/root目录下,通常已经存在一个.vimrc文件。如果不知道配置文件及脚本的位置,可以在vim中使用命令:scriptnames,将显示如下路径/etc/vimrc

2012-11-10 09:10:53

信息检索和网络数据挖掘领域论文技术基础

信息检索和网络数据领域(WWW,SIGIR,CIKM,WSDM,ACL,EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。我所

2012-10-29 10:04:39

线程同步的总结

我们可以在计算机上运行各种计算机软件程序。每一个运行的程序可能包括多个独立运行的线程(Thread)。 线程(Thread)是一份独立运行的程序,有自己专用的运行栈。线程有可能和其他线程共享一些资源,比如,内存,文件,数据库等。 当多个线程同时读写同一份共享资源的时候,可能会引起冲突。这时候,我们需要引入线程“同步”机制,即各位线程之间要有个先来后到,不能一窝蜂挤上去抢作一团。 同步这

2012-09-16 16:01:19

对线性回归,logistic回归和一般回归的认识

1.摘要    本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。    讲义最初介绍了一个基本问题,然后引出了线性回归的解决方法,然后针对误差问题做了概率解释。之后介绍了logi

2012-08-31 14:27:06

Apache Mahout中的机器学习算法集

ApacheMahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在Mahout的最近版本中还加入了对ApacheHadoop的支持,使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表:

2012-07-21 01:40:28

机器学习在互联网应用面临的 10 大挑战

1:“数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。比如,我们想训练一个模型表征某人“购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个“meaningfulmodel”来预测应该给这个人推荐什么商品等…2:“不平稳随机过程产生的数据”:机器学习模型往往假设数据的产生是“平稳随机过程”。但是有些互联网数据(比如spam邮件,

2012-07-20 02:08:06

redhat下安装chrome

最近在学习linux,安装的是redhat,自带的firefox,由于不习惯firefox,想安装一个chrome,在网上找的安装方法,记录一下方便以后查找1.创建一个文件/etc/yum.repos.d/google.repo2.如果是32位的[google-chrome]name=google-chrome-32-bitbaseurl=http://dl.google.

2012-04-28 10:27:45

查看更多

勋章 我的勋章
    暂无奖章