酸菜鱼摆摆-CSDN博客

转载 Query改写笔记

提出的前提用户搜索query时，搜索系统一般会先对query进行分词，如果query分词的term命中倒排索引，则相应的doc即可被召回。这种方法简单有效，一般情况下相对准确，但也有明显的不足：相同的意图往往有不同的query表达方式，仅依靠字面分词匹配，会损失一定的召回。在候选量有限的情况下非常容易出现空结果或少召回的情况。电商领域中常见的关键词堆砌问题虽然可以缓解少召回的问题，但召回结果往往出现语义漂移；搜索系统有非常多的方法解决上述问题，比较典型的包括：多粒度分词增加索引命中概率、语义向量.

2022-04-12 16:34:12 1259

原创 Query类目预测

前言QP(Query Processor)的简述：Query(查询)是表达用户意图的一种方式，在算法中对Query理解相当于帮助建立用户和系统的关联。在搜索系统中QP(Query Processor)模块负责这部分工作，主要包括:query归一化，query分词，query改写，query类目预测，命名实体识别，term weighting等。关键模块：Query类目预测：对用户query进行分类，判断用户的商品类目意图，可在粗排、精排阶段，辅助进行query和item相关性的计算，或者应

2022-04-11 22:33:26 1199 1

原创余弦退火算法作图理解（python）

model = MyBertModel()optimizer = optim.AdamW(model.parameters(),lr=1) #一阶动量和二阶动量都用起来，就是 Adam 了——Adaptive + Momentum。scheduel = CosineAnnealingWarmRestarts(optimizer,T_0 = 2,T_mult=1,eta_min=0,last_epoch=-1)#T_0就是初始restart的epoch数目，T_mult就是重启之后因子，默认是1。我觉得可

2022-04-11 15:22:19 1649

原创 bert4keras作为分词的优点

1.使用苏剑林的bert4keras，作为分词工具优势：能够很好的处理空格from bert4keras.tokenizers import Tokenizer案例1：利用位置信息，方便解码,防止存在空格导致解码错误TOKENIZE.tokenize('G2 S1')TOKENIZE.rematch('G2 S1',TOKENIZE.tokenize('G2 S1'))...

2022-04-11 15:14:23 2167

原创 bert4keras使用笔记

什么是bert4kerasbert4keras是一个基于keras的预训练模型加载框架，目前支持多种预训练模型（BERT、ALBERT、RoBERTa、ALBERT、NEZHA、GPT2、T5等），并支持多种环境（python 2.7、python 3.x）和后端（keras、tf.keras、tf 1.x、tf 2.x）。keras-bert依赖于keras-transformer，而keras-transformer依赖于keras-multi-head，keras-multi-head依赖于ker

2022-04-05 15:38:00 3210

pca_lda.ipynb

空空如也