10 破晓初

尚未进行身份认证

喜欢文本,喜欢搜索,喜欢你。

等级
TA的排名 7w+

Lucene Search流程之二

介绍Lucene的Search流程,从查询发起到文档的收集的所有步骤全在文中。从索引应用的角度进一步巩固Lucene索引构建流程,做到知其然也知其所以然。流程之外,还介绍了Lucene如果实现布尔检索模型,以及应用。

2019-02-28 20:28:06

Lucene Search流程之一

你知道搜索过程如何读取TermsDict,如何实现近似查询的吗?TermQuery与SpanQuery查询有什么不一样吗?先回顾倒排索引两大结构,讲述Lucene搜索流程中如何通过TermsDict获取到Postings所在的位置信息,以及每种方式是如何工作的且服务哪些查询类型。此外简述了读取不同的Postings信息,对应的查询类型。

2019-01-16 18:50:55

Lucene8.0新特征 DocValues改进

Lucene8.0新特征预告,继续优化DocValues,提升DocValues随机访问的性能。进一步讨论IndexedDISI的实现细节,以及如何服务DocValues。

2018-12-25 13:28:33

Lucene DocValues索引文件详解

解密DocValues索引的存储结构,为何正向索引能给搜索结果再处理带来更多可能性和不一样的体验。由哪里结构完成存储需求,相对FieldCache又有哪些优点?

2018-11-29 14:37:55

Lucene倒排索引简述 细说倒排索引构建

设计合适的数据结构对影响提升至关,在特定的场景使用的合适的结构是成功的基石,Lucene采用哪些数据结构解决构建索引的性能呢?本文将带你领略Lucene数据结构之美。

2018-11-13 23:39:42

Lucene倒排索引简述 番外篇

Lucene构建索引是一个非常复杂的过程,需要经过多道工序才能完成。那你知道Lucene在索引构建过程有哪些工序吗?又是整体流程是怎么样的呢?

2018-10-30 19:18:27

Solr/SolrCloud Faceting细节三则

FacetComponent提供了Faceting功能,你了解Faceting吗?你知道facet.overrequest.count和facet.overrequest.ratio这两个参数吗?你知道Faceting总是带自QueryComponent的结果集吗

2018-10-30 16:28:53

Lucene倒排索引简述 之倒排表

文章目录前言Postings编码VIntBlockPackedBlockPostings文件结构说明Frequencies And Skip Data(.doc文件)TermFreqs -- FrequenciesMulti-level SkipList -- SkipDataPostitions(.pos文件)Payloads and Offsets(.pay文件)总结前言上一篇《Lucen...

2018-10-09 20:31:55

Lucene倒排索引简述 之索引表

Lucene倒排索引的核心内容,索引表,你对这部分真的熟悉了吗?那你知道FST用什么地方吗?FST又存储了什么内容呢?有什么功能呢?关于Burst-Trie,你知道Lucene是如何采用它的思想来加速Lucene搜索性能的吗?

2018-09-27 09:57:42

Lucene's MergePolicy

Lucene’s MergePolicyLucene很多特征,在我看来跟LSM-Tree的数据库非常相似,甚至很多问题的解决方式都如出一辙。这里我想跟大家来聊聊Lucene的Segment合并问题,这个问题同样发生LSM-Tree数据库(HBase)。我们知道我们每次冲刷索引时,Lucene都会生成一个Segment。类似就是每个MemStore的冲刷势必会产生一个HFile的道理是一样一...

2018-03-23 16:58:33

Hive本地调试

一准备二事情远没这么简单呢1 winutilsexe找不到2 系统找不到指定的文件3 系统找不到指定的路径三这样就可以了吗1 UnsatisfiedLinkError2 如果还不行四结尾虽然已经很习惯看静态代码了,但是这种方式始终很不方便,需要来来回回翻找代码不说,还得自己分析每个变量的值、和路径。因此决定花点时间让代码在IDE上跑起来,然而这个过程在...

2018-02-11 20:24:38

Solr 迟到的Payloads

是什么让索引时Boost汗颜退场,又是什么是让Payloads在Solr6.6开始名声大噪,走进Solr6.6 新特性之一,Payloads Query了解她的前世今生,她的沉沉浮浮。PayloadsQuery为我们带来哪些不一样查询和文档组织方式呢,也许你看完了之后就不需要频频groupby了;也许你读完之后就不需要Nested Document了;也许你会用到的,却是没有想到过的佳境。

2017-10-23 22:28:09

Solr Date类型的哪些你不得不了解的细节

我们先来看看Solr日期类型的一些内幕,然后讨论一下Solr日期类型存在的一些问题,最后我们看看怎么解决现存的问题。概述DateField在Solr4.x之前,我们只有DateField,这类型现在用的应该比较少了,它对应Java中的java.util.Date类型。实现上,如你所知它就是一个long的时间戳。所以它相当于我们用LongField。在高版本的Solr已经看不到这个

2017-07-09 14:29:58

Solr搜索统计 JSON Faceting API

如果你一直用在Solr,并打算使用Solr来做一些统计分析的话,接下来的内容你会非常感兴趣。solr 5.3的时候完全重写了Solr查询语法,其中最为重要的就是重写Solr Facet查询语法。她就是我们今天的主角,JSON Facet API是一种全新的搜索查询语法,针对Facet+Stats这种统计查询。她更加贴近SQL,更加贴近某搜索引擎。

2017-06-26 03:40:46

Solr查询语言 JSON Request API

JSON Request API是一套优雅高效查询语法,尤其在搜索统计方面带全新的体验,既简洁又漂亮。绝对是一次非常美好的体验。

2017-06-13 14:51:32

大明想跟你聊聊Solr6.x

来来来,坐下来,我们一起来聊聊Solr6.6。其实我关注Solr也有很长时间了,已经有小几年了吧。接下来, 我们来具体的聊一聊Solr几个变化或者变化趋势。

2017-06-08 23:50:00

Lucene DocValues详解

DocValues,人称正向索引,也是大家所认识的面向列存储。即通过文档编号与字段值在索引建立直接映射的关系,并存储。对DocValues我想你并不陌生,但我相信你对它并不算熟悉。接下来,我们将具体来看看它的存储结构、字段类型、以及使用场景等。

2017-03-07 00:10:39

Lucene TFIDFSimilarity评分公式详解

TFIDFSimilarity曾经是Lucene/Solr默认评分公式,想知道Lucene的评分过程就得先了解Lucene的评分公式,接下来将深刻剖析公式每个部分推导过程以及它的含义。

2017-02-26 17:34:41

JUC之JDK自带锁StampedLock

StampedLock是JDK 1.8的一把新锁,同样出自Doug Lee之手。这货高级了,出身显赫、自带光环,有着光辉的使命。她是一把不一样的锁,前面我们所整理过的两把锁(ReentantLock&ReentrantReadWriteLock)都是基于AQS框架实现,同时又都具有可重入性(当然可重入性不是由AQS框架带来的)。然而她却与众不同,她是读写锁,她是把乐观锁,她是基本于时间戳实现。

2017-02-22 02:18:29

JUC之JDK自带锁ReentrantReadWriteLock

Java纪年1.5年,ReentrantReadWriteLock诞生于J·U·C。此后,国人一般称它为读写锁。人如其名,人如其名,她就是一个可重入锁,同时她还是一个读、写锁。跟ReentrantLock并没有亲属关系因为ReentrantReadWriteLock在命名上跟ReetrantLock非常贴近,很容易让人认为她跟ReentrantLock有继承关系

2017-02-14 23:10:25

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!