自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(401)
  • 收藏
  • 关注

原创 感知机和梯度下降学习规则比较

  感知机适合线性可分的数据梯度下降适合线性不可分的数据 为什么我们不使用梯度下降算法在 y^ 上?因为非连续函数不可导

2016-10-20 22:01:15 477

原创 机器学习中 中值的含义

 中值[median] (又称中位数)是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。中值也称中位数,即数据按升序或者降序排列,假如有n个数据,当n为偶数时,中位数为第n/2位数和第(n+2)/2位数...

2016-10-20 21:59:28 946

原创 相关系数与决定系数的关系

 决定系数是相关系数的平方。 相关系数是用来描述两个变量之间的线性关系的,但决定系数的适用范围更广,可以用于描述非线性或者有两个及两个以上自变量的相关关系。决定系数的意义是变量A可以解释变量B方差的多少。 因此,相关系数的意义(为正的情况)就是变量A可以解释变量B标准差的多少。 更直接的解释是,由于变量A的变动,变量B增加了C,而这C中有r的比例是因为变量A的变动造成的。 ...

2016-10-20 21:58:42 16727 1

原创 机器学习之第4部分:比较深度学习方式方法

 第4部分:比较深度学习方式方法 你可能会问:为什么词袋模型更好?最大的原因是,在我们的教程中,平均向量,利用重心失去词语的顺序,使其非常相似的概念袋的话。性能是相似的(标准误差范围内)使所有三种方法几乎等价 一些尝试:首先,训练Word2Vec更多的文本应该极大地提高性能。谷歌的搜索结果都是基于词向量是学习的一个多billion-word语料库;...

2016-10-20 21:58:27 209

原创 机器学习之第3部分 词向量的更多的乐趣

 第3部分:词向量的更多的乐趣 Code本教程代码第3部分住在这里。https://github.com/wendykan/DeepLearningMovies/blob/master/Word2Vec_BagOfCentroids.py 数字表示的单词现在,我们已经训练模型的语义理解的话,我们应该如何使用它呢?如果你看下,Word2Vec模型训练在第...

2016-10-20 21:58:02 300

原创 机器学习之第二部分:词向量

 第二部分:词向量Code第2部分的教程代码住在这里。https://github.com/wendykan/DeepLearningMovies/blob/master/Word2Vec_AverageVectors.py 引入分布式词向量这部分的教程将重点关注使用分布式Word2Vec创建的词向量算法。(深度学习的概述,以及一些额外的指针教程,看到“深度学习...

2016-10-19 23:03:17 454

原创 机器学习之第一部分:词袋模型

 第一部分:词袋模型 什么是NLP? NLP(自然语言处理)是一组接近文本的技术问题。这个页面将帮助您开始使用加载和清扫IMDB影评,然后应用一个简单的袋子的话模型得到惊人的准确的预测评估是否赞成或反对。 在你开始之前本教程使用的Python语言。如果你还没有使用Python之前,我们建议在前往泰坦尼克号竞争Python教程把你的脚弄湿(查看随机森林介绍当你)。如...

2016-10-19 23:02:36 724

原创 回归分析定义衡量标准

 如果不能对模型的训练和测试的表现进行量化地评估,我们就很难衡量模型的好坏。通常我们会定义一些衡量标准,这些标准可以通过对某些误差或者拟合程度的计算来得到。通过运算决定系数R2 来量化模型的表现。模型的决定系数是回归分析中十分常用的统计信息,经常被当作衡量模型预测能力好坏的标准。R2的数值范围从0至1,表示目标变量的预测值和实际值之间的相关程度平方的百分比。一个模型的R2 值为0说明它...

2016-10-19 11:15:49 879

原创 监督学习算法小结(1):决策树

 Decision Tree1. 什么是决策树决策树是一个极其直观的算法(这也使得它的可解释性非常好),比如下面这个决策树 2. 基本决策树算法从上面可以看出来这个形式非常的简单,那么如何生成一颗决策树?相信开始了nano degree并完成了P0的同学们都已经自己实现过一个决策树了,也就是大家做的Titanic的project,在第三个问题中,大家自己通过不断的选...

2016-10-19 11:13:59 215

原创 三大主要分类器总结详解

 决策树模型决策树的优点:一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。三、 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。四、 决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容...

2016-10-19 11:13:08 4359

原创 机器学习中误差原因

 误差原因在模型预测中,模型可能出现的误差来自两个主要来源,即:因模型无法表示基本数据的复杂度而造成的偏差(bias),或者因模型对训练它所用的有限数据过度敏感而造成的方差(variance)。我们会对两者进行更详细的探讨。   偏差造成的误差 - 精度和欠拟合如前所述,如果模型具有足够的数据,但因不够复杂而无法捕捉基本关系,则会出现偏差。这样一来,模型一直会系统地...

2016-10-18 21:31:33 1351

原创 机器学习中学习曲线与模型复杂化

学习曲线让我们根据模型通过可视化图形从数据中学习的能力来探讨偏差与方差之间的关系。机器学习中的学习曲线是一种可视化图形,能根据一系列训练实例中的训练和测试数据比较模型的指标性能。在查看数据与误差之间的关系时,我们通常会看到,随着训练点数量的增加,误差会趋于下降。由于我们尝试构建从经验中学习的模型,因此这很有意义。我们将训练集和测试集分隔开,以便更好地了解能否将模型泛化到未见过的数...

2016-10-18 21:30:14 461

原创 机器学习的算法衡量指标

 选择合适的指标在构建机器学习模型时,我们首先要选择性能指标,然后测试模型的表现如何。相关的指标有多个,具体取决于我们要尝试解决的问题。在可以选择性能指标之前,首先务必要认识到,机器学习研究的是如何学习根据数据进行预测。对于本课程和后续的“监督式机器学习”课程,我们将重点关注那些创建分类或创建预测回归类型的已标记数据。此外,在测试模型时,也务必要将数据集分解为训练数据和测试数据...

2016-10-18 21:29:41 277

原创 python下安装numpy

 用python自带的安装工具,pip install numpy scipy 等。如果没有pip的话,可以试试easy-install numpy scipy。打开cmd,在里面输入这些命令。 不想自己一个一个装的话,最简单的方法是安装python(x,y)套装,也可以考虑enthought套装 例子:pip install numpy...

2016-10-18 21:26:41 367

原创 python的文件操作

python读取文件###读取一行filehand = open('C:\工作\字段整理.txt')line = filehand.readline()while line: print(line) print("=============") line = filehand.readline()##读取全部files = open('C:\...

2016-10-18 21:24:47 129

原创 IK如何实现同义词搜索

 转载请声明出处,谢谢。翻译也很辛苦   solr学习交流扣扣群340954928 IK如何实现同义词搜索  如何通过IK实现 <!--[if !supportLists]-->1、  <!--[endif]-->在schema.xml中配置          <fieldType name="text_ik...

2016-06-07 10:11:48 1110

原创 solr5.x快速入门

 转载请声明出处,谢谢。翻译也很辛苦   solr学习交流扣扣群340954928   快速开始 Solr为程序员开发复杂,高性能与先进的搜索应用程序功能,如分类(安排搜索结果列数值项关键术语)。Solr建立在另一个开源搜索技术:Lucene,一个Java库,提供索引和搜索技术,拼写检查,达到强调和先进的分析/标记功能。Lucene和Solr管理的Apache...

2016-06-06 19:39:39 663 1

蓝眼泪婚恋网

有在北京工作的单身朋友吗?给大家推荐一个免费的征婚交友微信公众平台。完全免费的实名制交友平台。 咱们搞IT的不好接触女生,大部分单身,给大家推荐下,希望能让大家找到另一半。微信号:beijingxiangqin微信名称:蓝眼泪二维码: ...

2015-10-22 14:27:00 299

原创 solr in action翻译- 第五章配置Solr 5.1

 转载请声明出处,谢谢 第五章索引本章涵盖了•设计模式索引文件•在schema.xml定义字段和字段类型•使用结构化数据的字段类型•处理更新请求,提交和原子更新•管理xml索引设置 在第三章,我们学习了如何Solr发现文档使用一个反向索引,在其最简单的形式是一个字典的条款和文件的列表,每个词。Solr使用这个索引匹配的术语在用户查询与文档中发生。在这一...

2014-09-01 10:09:37 146

原创 solr in action翻译- 第四章配置Solr 4.4

 转载请声明出处,谢谢。翻译也很辛苦  4.3。管理搜索<query>元素包含设置允许您使用缓存技术来优化查询性能,懒加载,和新搜索器变暖。不用说,设计优化查询性能从一开始你的搜索应用程序的成功是至关重要的。在本节中,您将了解管理搜索者,这是最重要的一个技术优化查询性能。4.3.1。新搜索器概述在Solr,查询处理的组件称为搜索者。只有一个“活跃”搜索者在S...

2014-07-25 09:01:54 124

原创 solr in action翻译- 第四章配置Solr 4.3

 转载请声明出处,谢谢。翻译也很辛苦  4.2.3 .。浏览Solritas请求处理程序:一个例子从客户端代码隐藏复杂性是web服务和面向对象设计的核心。Solr采用这个证明设计模式允许您定义一个自定义搜索请求处理程序为您的应用程序,它允许您从Solr隐藏复杂性客户机。而不是要求每个查询发送正确的参数来启用拼写校正,例如,您可以使用一个自定义默认启用拼写纠正的请求处理程序。 ...

2014-07-25 08:55:43 134

原创 solr in action翻译- 第四章配置Solr 4.2

 转载请声明出处,谢谢。翻译也很辛苦  4.2。查询请求处理Solr的主要目的是搜索,因此,处理搜索请求是Solr中最重要的过程之一。在本节中,您将了解如何Solr处理搜索请求和如何定制请求处理,以更好地适应您的特定搜索需求。4.2.1。Request-handling概述通过HTTP请求Solr发生。如果你想查询Solr,然后你发送一个HTTP GET请求。另外,如果你...

2014-07-25 08:49:59 95

原创 solr in action翻译- 第四章配置Solr 4.1

 转载请声明出处,谢谢。翻译也很辛苦   本章涵盖了•处理查询请求•与搜索组件扩展查询处理•管理和变暖搜索者•管理缓存行为 到目前为止,你已经提出了什么信仰,没有学习Solr是如何工作的。我们会改变,在这一章和下一个通过学习如何配置和配置设置如何影响Solr Solr的行为。您将看到,Solr的配置可以在第一次看到令人生畏的,因为示例的配置文件在Solr服...

2014-07-24 09:19:47 144

原创 solr in action翻译-第三章Solr的关键概念 3.4

 转载请声明出处,谢谢。翻译也很辛苦   3.3.3。合理的平衡虽然两者之间显然是紧张,精度和召回并不是相互排斥的。在前面的示例中查询只返回文档1、2和3,精度和回忆都是1.0,因为所有的结果是正确的,所有的正确的结果被发现。 最大化整整满精度和召回是几乎每个的终极目标search-relevancy-tuning努力。的例子(或一套手工调整结果),这看起来简单,但实...

2014-07-15 10:52:46 110

原创 solr in action翻译-第三章Solr的关键概念 3.3

 转载请声明出处,谢谢。翻译也很辛苦   3.1.8快速回顾此时,您应该有个基本的掌握如何Solr倒存储信息索引和查询索引来查找匹配的文档。这包括查找条件,使用布尔逻辑创建任意复杂的查询,和得到结果返回的结果集合操作的每个词查找。我们还讨论了如何Solr存储位置和能够使用那些找到确切的短语,甚至模糊短语匹配通过使用距离和位置计算的查询。对模糊搜索在单一的术语中,我们检查了使...

2014-07-15 10:48:40 156

原创 solr in action翻译-第三章Solr的关键概念 3.2

 转载请声明出处,谢谢。翻译也很辛苦   3.1.4。term、短语和布尔逻辑现在我们所看到的内容是什么样子在Lucene的反向索引,让我们跳进如何查询的机制能够利用这个索引来查找匹配文档。在本节中,我们将复习的基础知识查找术语和短语的反向搜索索引,利用布尔逻辑来增强这些和模糊查询查找功能。回顾book-searching的例子,让我们看一个简单的查询新房子,如图3.2中描...

2014-07-15 10:43:49 164

原创 solr in action翻译-第三章Solr的关键概念 3.1

 转载请声明出处,谢谢。翻译也很辛苦   本章涵盖了• Solr有别于传统的数据库技术是什么•Solr内部索引的基本结构•Solr如何执行复杂查询使用术语、短语,和模糊匹配•Solr如何计算分数匹配查询最相关的文档•如何平衡返回相关结果和返回所有可能的结果•如何模型内容到规范化的文档•Solr跨服务器如何处理数十亿的文档和查询 现在我们已经So...

2014-07-15 10:38:40 118

原创 solr in action翻译-第二章了解Solr2.3

 转载请声明出处,谢谢。翻译也很辛苦   solr学习交流扣扣群340954928 2.2.3。检索得分正如我们在第1章,涉及的关键区别Solr的查询处理和其他的数据库或NoSQL数据存储中检索:的过程整理文档与查询的相关性,在最相关的文档首先列出。 让我们看看排名检索工作的一些示例文档索引2.1.4节。首先,在问文本框中输入iPod和名称,功能,分别进行评分...

2014-07-11 12:48:13 116

原创 solr in action翻译-第二章了解Solr2.2

 转载请声明出处,谢谢。翻译也很辛苦   solr学习交流扣扣群340954928  2.1.4。索引文件的例子当你第一次开始Solr, 文档中没有索引的。这是一个空的服务器等待充满搜索数据。我们在第5章详细介绍索引。现在, 为了得到Solr索引我们将掩盖细节以便我们示例数据可以尝试一些查询。打开一个新的命令行界面,输入以下:cd $SOLR_INSTALL/...

2014-07-11 12:45:42 92

原创 solr in action翻译-第二章了解Solr2.1

转载请声明出处,谢谢。翻译也很辛苦   solr学习交流扣扣群340954928  本章涵盖了•下载并安装Apache Solr 4.7•启动Solr服务器示例•排序、分页和格式化结果•探索Solritas示例搜索UI 很自然的有一种不安,当你开始使用一个不熟悉的技术,但是你可以不用担心,因为它易于安装和设计使用的。敏捷的精神,你可以从最基本的...

2014-07-11 12:40:12 115

原创 solr in action翻译-第一章1.3

转载请声明出处,谢谢。翻译也很辛苦   solr学习交流扣扣群340954928  1.2.4。在一个服务器的多个索引现代应用程序体系结构的一个特点是在面对需要灵活性快速变化的需求。的方法之一Solr帮助在这种情况下是你不需要做所有的事情在Solr索引,因为Solr支持运行多个核心在一个引擎。在图1.3中,我们已经描述了多个核心作为单独的层在相同的Java web应用...

2014-07-10 18:30:35 130

原创 solr in action翻译-第一章1.2

转载请声明出处,谢谢。翻译也很辛苦   solr学习交流扣扣群340954928  1.2。Solr是什么?在本节中,我们介绍了Solr搜索应用程序设计的关键组件从地上起来。这将帮助您了解Solr提供特定的功能和他们的动机存在。但是在进入之前的细节Solr是什么,让我们确保你知道Solr不是。•Solr不是一个网络搜索引擎像谷歌或必应。•Solr无关与搜索引...

2014-07-10 18:24:46 150

原创 solr in action翻译-第一章1.1

转载请标明出处。谢谢永久链接: http://501565246-qq-com.iteye.com/blog/2090518  第一章Solr简介本章内容:         数据由搜索引擎处理的特点      通用搜索引擎的用例      Solr的关键组件      选择Solr的理由      功能概述 与快速增长的技术,如社交媒体、云计...

2014-07-10 18:20:17 139

原创 solr实现结果分组、字段折叠

solr实现结果分组、字段折叠引言 字段合并和结果分组是同样的Solr特征的不同的方式思考。字段合并是将一组结果相同的field合并,,例如:大多数搜索引擎如谷歌合并后只有一个或两项显示,随着一个链接点击看看从网站更多的结果。合并也可以用来抑制重复的文件。 结果分组是使用一个共同field值分组document,返回顶部的document组,顶部的document是基...

2014-06-03 09:02:24 687

原创 DataImportHandler Solr数据导入DIH使用

DataImportHandlerSolr数据导入DIH使用概述 目标1、  读驻留在关系数据库中的数据2、  根据多个表的列和数据建立solr文档3、  根据这些文档更新solr4、  提供根据配置做处理5、  删除,修改,增加做增量导入6、  定期的增量导入和全量导入7、  通过配置文件读取xml,(http/ftp)建立索引8、  提供...

2014-06-03 08:56:34 139

原创 solr中的Analyzers, Tokenizers,和Token Filters详解

solr中的Analyzers, Tokenizers,和Token Filters详解 当一个文档索引了以后,其个别field的分析analyzing 和标过滤器tokenizing filters,可以变换和规范中的数据域。例如:去除空格,去除html标签,去除注释,删除一个特定的字符和取代它与另一个字符,在索引的时候以及在查询时,您可能需要做一些上述或类似的操作。例如:你可能会...

2014-06-03 08:53:30 463

原创 使用xml更新solr索引

使用xml更新solr索引Solr接受xml格式数据更新、提交、修改索引。 更新的Schema不要混淆SCHEMA.XMLadd/replace documents Simple Example:<!--[if !supportLists]-->·         <!--[endif]--><add><!...

2014-06-03 08:48:29 300

原创 使用json更新solr索引

使用json更新solr索引Solr接受通过json的格式提交索引。 要求Solr3.1是最早支持json格式提交索引的。Json请求要求必须配置solrconfig.xml,在example例子中solrconfig.xml已经存在配置了。   <requestHandler name="/update/json" class="solr.JsonUp...

2014-06-03 08:44:33 425

原创 使用cvs更新solr索引

 使用cvs更新solr索引 Solr接受cvs的格式,进行索引。并且支持multi-valued,你也可能在语法感兴趣的基于XML更新指令。  要求 Solr1.2是最早支持cvs格式更新索引的版本。 CVS的request handler需要在solrconfig.xml中配置,默认已经在solrconfig.xml的配置文件中存在了。  ...

2014-05-31 09:56:54 183

原创 solrj的使用

 solrj的使用 solrj是一个java客户端访问solr,它定义了一个java接口来添加、修改、查询solr的索引。本页描述的solrj使用Solr释放包括1.4 x版本,   solrj/solr兼容性   solrj一般保持向后兼容性,你可以使用一个新的solrj调用旧的solr,或一个老solrj调用新的solr。这里有一些小的例外情况:...

2014-05-31 09:51:08 195

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除