来自文家市的那个小孩-CSDN博客

原创每天一个知识点——L2R

面试的时候，虽然做过医疗文献搜索，也应用过L2R的相关模型，但涉及到其中的一些技术细节，都会成为我拿不下offer永远的痛。也尝试过去理解去背下一些知识点，终究没有力透纸背，随着时间又开始变得模糊，下面对相关问题进行一个总结。

2023-08-15 14:05:36 178

原创每天一个知识点——Normalization

学习过程的记录与总结，有些是个人的理解，不一定全对，欢迎讨论和指正

2023-08-10 11:42:43 681

目录一、论文背景二、模型架构三、实验结果论文：Poly-Encoders: Architectures And Pre-Training Strategies For Fast And Accurate Multi-Sentence Scoring一、论文背景计算两个句子相似度有两种技术架构：Bi-Encoder（俗称双塔)和Cross-encoder，这两个的区别在于交互的时机，Bi-Encoder构架input_text和candidate分别训练，直到最后预...

2021-12-30 18:14:04 819

原创句子表征|Condenser: A Pre-training Architecture for Dense Retrieval

一、模型背景二、模型架构三、实验结果四、Funnel-Transformer和U-Net介绍：作者认为他的思路来源于Funnel-Transfomer(漏斗型)，而Funnel-Transfomer来源于U-net。Funnel-Transformer：出发点是解决transformer性能瓶颈，因为它在每一层的每一个token都得做self-attention，随着句子长度的增加，计算量呈现平方级的增长，这就制约了它对长句句子表征的学习表达。之前的解决方案主要分为模型后处理和非后处

2021-12-30 13:11:36 1421

原创菜鸟驿｜多分类的精准率和召回率

在二分类中，结果的评价指标有召回率、准确率和f1值，将结果分为四类TP(true positive)、TN(true negative)、FP(false positive)、FN(false negative)，那么三个指标的计算表达式分别是二分类可以指定正例和负例，那么在多分类任务中，这三个指标又将如何刻画呢，F1_measure依赖于recall和precision，跟二分类相同，下面就介绍一下准确率和召回率的计算，假设原始数据如表格所示：真实...

2021-08-12 12:35:43 2299

原创菜鸟驿|git

针对程序员来说，git是一个绕不开的工具，只要涉及到工程版本迭代，就必然涉及到历史版本的管理，如果没有遇到特殊的情况，它的三板斧足够解决问题，所谓三板斧其实是三条命令: git add ./ git commit -m "xxx" git push (orgin master) git add命令把本地所有untrack的文件都加入暂存区，据别的网页描述， git add * 和 git add .的区别是会不会过滤...

2021-07-31 10:50:22 138

转载 BERT结构

先上两张图，具体细节有待后面补充

2021-03-08 14:39:22 191

转载文本比较算法Ⅲ——计算文本的相似度

　　在“文本比较算法Ⅰ——LD算法”中，介绍了编辑距离的计算。　　在“文本比较算法Ⅱ——Needleman/Wunsch算法”中，介绍了最长公共子串的计算。　　在给定的字符串A和字符串B，LD(A,B)表示编辑距离，LCS(A,B)表示最长公共子串的长度。　　如何来度量它们之间的相似度呢？　　不妨设S(A,B)来表示字符串A和字符串B的相似度。那么，比较合理的相似度应该满足下列性质。　　性质一：0≤S(A,B)≤100%，0表示完全不相似，100%表示完全相等　　性质二：S(A,B)

2021-03-03 17:47:31 965 1

转载为什么Python 3.6以后字典有序并且效率更高？

在Python 3.5（含）以前，字典是不能保证顺序的，键值对A先插入字典，键值对B后插入字典，但是当你打印字典的Keys列表时，你会发现B可能在A的前面。但是从Python 3.6开始，字典是变成有顺序的了。你先插入键值对A，后插入键值对B，那么当你打印Keys列表的时候，你就会发现B在A的后面。不仅如此，从Python 3.6开始，下面的三种遍历操作，效率要高于Python 3.5之前：for key in 字典for value in 字典.values()for key, va

2021-03-01 21:42:30 83

转载搜索中的权重度量利器: TF-IDF和BM25

我们在网上搜东西时，搜索引擎总是会把相关性高的内容显示在前面，相关性低的内容显示在后面。那么，搜索引擎是如何计算关键字和内容的相关性呢？这里介绍2种重要的权重度量方法：TF-IDF和BM25。在进入理论探讨之前，我们先举个例子。假如，我们想找和“Lucence”相关的文章。可以想一下，那些内容里只出现过一次“Lucence”的文章，有可能是在讲某种技术，顺便提到了Lucence这个工具。而那些出现了两三次“Lucence”的文章，很可能是专门讨论Lucence的。通过直觉，我们可以得出判断：关键..

2021-02-19 19:18:19 432

转载搜索下拉框的算法和实践

搜索下拉框也叫搜索提示，搜索下拉推荐，QAC(Query autocompletion)，Query suggestion。本质上是指搜索引擎系统根据用户当前的输入，自动提供一个query候选列表供用户选择，这些推荐query一般从query log中挖掘出大量的候选query，并且保持前缀相同，然后依据某种法则给候选query计算一个分数，最后选择出top10作为最终结果。搜索下拉框在搜索引擎和广告竞价平台中已经是标配的产品，它可以帮助用户明确搜索意图，减少用户的输入并节约搜索时间，提高搜索体验有重要作用

2021-02-18 17:34:23 853

转载奇异值分解的来龙去脉

2021-02-18 16:33:30 183

转载教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模

本文是一篇关于主题建模及其相关技术的综述。文中介绍了四种最流行的技术，用于探讨主题建模，它们分别是：LSA、pLSA、LDA，以及最新的、基于深度学习的 lda2vec。在自然语言理解任务中，我们可以通过一系列的层次来提取含义——从单词、句子、段落，再到文档。在文档层面，理解文本最有效的方式之一就是分析其主题。在文档集合中学习、识别和提取这些主题的过程被称为主题建模。在本文中，我们将通过 4 种最流行的技术来探讨主题建模，它们分别是：LSA、pLSA、LDA，以及最新的、基于深度学习的 ld.

2021-02-18 16:09:15 655

转载隐含语义索引——快速教程(Latent Semantic Indexing(LSI)---A Fast Track Turorial)

摘要：这个快速教程提供了为查询和文档打分与使用SVD（奇异值分解）和term count model来对结果排名的说明。这个教程可以用作一个SVD的快速引用。LSI教程系列在下面的网址下描述：http://www.miislita.com/information-retrieval-tutorial/svd-lsi-tutorial-1-understanding.html关键字： latent semantic indexing, LSI, singular v...

2021-02-18 15:45:18 296

转载 mysql中having和where的区别

对于大部分了解mysql数据库并且会增删查改基本操作的程序员来说，看到这个标题，第一反应是： a、where用于正常的字段过滤，除了聚类group by; b、having只用于group by.上面两点算对，但也只对了部分，实际这两者本质的区别就是where筛选的是数据库表里面本来就有的字段，而having筛选的字段是从前筛选的字段筛选的： a、where和having都可以使用的场景： se...

2021-02-06 11:08:31 123

转载 K8s CNI网络最强对比：Flannel、Calico、Canal和W

介绍网络架构是Kubernetes中较为复杂、让很多用户头疼的方面之一。Kubernetes网络模型本身对某些特定的网络功能有一定要求，但在实现方面也具有一定的灵活性。因此，业界已有不少不同的网络方案，来满足特定的环境和要求。CNI意为容器网络接口，它是一种标准的设计，为了让用户在容器创建或销毁时都能够更容易地配置容器网络。在本文中，我们将集中探索与对比目前最流行的CNI插件：Flannel、Calico、Weave和Canal（技术上是多个插件的组合）。这些插件既可以确保满足Kuberne.

2020-08-05 08:50:42 1182

原创 Dgraph的集群部署

Dgraph是免安装版的，可以直接下载安装组件直接运行所需服务，也可以通过docker镜像来启动服务。整个组件包括三个部分： Zero: 是集群的核心, 负责调度集群服务器和平衡服务器组之间的数据，类比于Elasticsearch的master节点； Alpha: 保存数据的谓词和索引. 谓词包括数据的属性和数据之间的关系; 索引是为了更快的进行数据的过滤和查找，类比于Elasticsearch的data节点； Ratel: dgraph 的 UI 接口, 可以在此界面上进行...

2020-07-08 09:36:22 1772 1

转载分布式图数据库在贝壳的应用实践

你想知道百亿级图谱如何实现毫秒级查询吗？社区众多的图数据库中如何才能挑选到一款适合实际应用场景的图数据库呢？贝壳找房的行业图谱480亿量级的三元组究竟是如何存储的呢？本文将带你探索上述问题并从中得到解答。本次分享题目为"分布式图数据库在贝壳找房的应用实践"，共分为以下五大块内容：图数据库简介图数据库技术选型图数据库平台建设原理&优化&不足未来规划先来看一个问题：贝壳找房最大的图谱——行业图谱，目前量级已经达了480亿三元组，如此海量的图谱数据究竟应该如何存储，如何查询

2020-07-06 22:20:02 1252 4

原创 dgraph bulk和dgraph live的区别和操作

当图谱构建完毕后，就需要将数据上传到图谱查看效果，往往数量量比较大，借助一些工具能实现数据的快速上传，dgraph 自带了两个上传命令，dgraph bulk 和 dgraph live。 dgraph bulk：作为首选方案的原因是它的执行效率比dgraph live高很多，话不多说，先罗列一它的执行命令： dgraph bulk -f data.rdf -s data.schema --map_shards=4 --reduce_shards=1 --zero=lo...

2020-07-06 22:09:10 952 1

原创 dgraph搜索时如何限制节点数

在搜索时，往往图谱中与某个节点关联的周围节点数量繁多，我们需要通过一定的条件过滤留下满足需求的结果，dgraph 默认是根据uid排序｛ find_follower(func: uid(MICHAELS_UID)){ name age follows （first: 3）{ # 获取前3条 name ...

2020-07-06 21:33:00 531 1

原创 elasticSearch 全文搜索调优（一）

ES虽然擅长于搜索，但面对存储数据量的不断增加，搜索的性能也不断的下降，在现阶段强调用户体验的时候，如果不能实时或者近实时地提供给用户想要的信息，对一个讲究盈利的产品而言是致命的。我也是刚接触这一块的小白，所以第一阶段针对ES的调优，搜集了一些网上比较有效的方法策略，下面做一个总结。一、refresh_interval 为了数据的实时性，ES的分片会每隔一段时间刷新一次，默认...

2019-07-18 18:59:28 482

转载解决几乎任何机器学习问题

解决几乎任何机器学习问题(完整翻译)英文原文：Approaching (Almost) Any Machine Learning ProblemKaggle团队| 07.21.2016Kaggle大师Abhishek Thakur最初在2016年7月18日在这里发表了这篇文章。一个数据科学家每天处理大量的数据。有人说，超过60-70％的时间花在了数据清理，数据转移和数据采集上，使得机器学习模型可以...

2018-06-08 09:59:32 895

转载 Google Wide And Deep model 解释与应用

这个模型是Google2016年6月发布用于分类和回归的模型，首次应用在了Google Play的推荐上，它的核心思想是结合线性模型的记忆能力（memorization）和DNN模型的泛化能力（generalization）,在训练时同时优化2个模型的参数，从而达到整体模型的预测能力最优，这个有别于组合模型（组合模型是在分别训练几个模型，在预测层再组合）注：为什么线性模型有记忆能力，而DN...

2018-06-05 22:26:35 483

转载推荐系统的时效性

时效性推荐系统应该考虑时间效应，因为用户的兴趣是有时间变化的。用户一年前喜欢的东西现在不一定感兴趣，相比于推荐过去喜欢的物品，推荐用户近期喜欢的物品更有参考价值。而在新闻更是如此，推荐过去跟用户兴趣一致的新闻已经失去了意义。每个系统时间效应的大小不同，比如时间对电影的作用就没有新闻那么明显。要考虑时效性，必须加入时间参数，比如三元组(用户,物品,时间）代替简单的二元组(用户,物品)。给定时间 T ...

2018-05-30 21:26:44 4027

原创分本分类

机器学习问题是把数据转换成信息进而提取到知识的过程，特征是“数据->信息”的过程，决定了结果的上限，模型是“信息->知识”的过程，则是去逼近这个上限。可见特征提取的重要性。文本的处理涉及到分词，常规的我们会在网上找一个现成的分词工具，如jieba分词或者stanford的分词工具，网站上也有一些收费的分词工具，我们不需要去知道其中的原理，但如果需要我们对某些序列分词，则...

2018-05-30 19:59:24 305

转载朴素贝叶斯模型:文本分类+垃圾邮件分类

学习了那么多机器学习模型，一切都是为了实践，动手自己写写这些模型的实现对自己很有帮助的，坚持，共勉。本文主要致力于总结贝叶斯实战中程序代码的实现（python）及朴素贝叶斯模型原理的总结。python的numpy包简化了很多计算，另外本人推荐使用pandas做数据统计。一引言　　让你猜测一个身高2.16的人的职业，你一般会猜测他是篮球运动员。这个原理就是朴素贝叶斯原理，因为篮球运动员大多身高很高...

2018-05-30 09:24:30 926

转载三种文本特征提取（TF-IDF/Word2Vec/CountVectorizer）及Spark MLlib调用实例（Scala/Java/python)

Spark MLlib 提供三种文本特征提取方法，分别为TF-IDF、Word2Vec以及CountVectorizer其各自原理与调用代码整理如下：TF-IDF算法介绍：词频－逆向文件频率（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。词语由t表示，文档由d表示，语料库由D表示。词频TF(t,,d)是词语...

2018-05-28 21:55:28 531

转载【机器学习】汇总详解：矩阵的迹以及迹对矩阵求导

矩阵的迹概念矩阵的迹就是矩阵的主对角线上所有元素的和。矩阵A的迹，记作tr(A)，可知tra(A)=∑aii，1<=i<=n。定理：tr(AB) = tr(BA)证明定理：tr(ABC) = tr(CAB) = tr(BCA) 这个是tr(AB)=tr(BA)的推广定理，很容易证明。根据定理tr(AB)=tr(BA)可知： ...

2018-05-27 09:53:34 46907 22

原创凸函数与凹函数

最近在学机器学习的逻辑回归，它的思路很简单，最开始我们做的是线性回归，也就是根据已知样本拟合出一条能够描述其分布的线来，而它的评价标准是最小平方差。为什么是最小平方差，而不是诸如差的绝对值之类的评价指标，这个就涉及到“最小二乘法”的思想，我们认为线性回归的预测值与真实值之间的差值是符合高斯分布的，对这个的评估就转化为对正态分布表达式中参数的评估，用极大似然估计，便得到损失函数的表达...

2018-05-23 22:16:02 2834

原创序列化与反序列化

这两个操作的初衷是无论存储还是网络传输，内容都是二进制的字节序列，而真实的应用场景中，我们还多时候得到的是一个对象，于是都放置在内存中进行操作，但内存始终是有限的，当内存的容量不足以放置这么多数据时，就需要将一部分暂时用不到的数据存储到硬盘中，于是乎就出现了对象序列化的操作。同时，如果需要进行远端通信数据传输，也面临着对象序列化的问题，接收方会进行逆向操作，也就是对象反序列化。 ...

2018-05-23 21:40:36 85

原创 go语言——请求url

虽然go语言和Java语言一样都是采用了restful的编程风格，但略有不同的是go语言的所有请求路由会单独抽出来放置在一个文件内，采用的是： beego.Router("/task", &controllers.TaskController{}, "get:ListTasks; post:NewTask")或者正则匹配的形式 beego.Router("/downlo...

2018-05-22 21:46:55 2161

原创我的机器学习之路

重拾丢弃四年的课本，毅然考取交大研究生，回来继续深造，也算一个机遇，因为15年的时候大数据开始成为风口。来到交大，也可谓一波三折，最开始误打误撞进入无线网实验室，偏离了初衷，好在有换导师的机会，挑出这个坑，进入自然语言处理实验室，它是人工智能上的明珠，跌跌撞撞，在里面软磨硬泡半年有余，却始终不是滋味，于是再次鼓起勇气，跳出原来的圈子，进入机器学习的研究领域。研究生阶段虽然快要结束，...

2018-05-21 21:20:21 554

kavin_star的博客