Catherine_In_Data-CSDN博客

ner 实体识别多标签分类多模态对比学习什么是对比学习具体的区别就是对比学习的正负例是根据一些规则自动构造的，而不是通过人工标注的数据（也就是有监督的方式），这就是最大的区常用loss NCE（这里没有明白，需要再看看）对比学习系统关键三个问题：第一个问题是：正例怎么构造？对于对比学习来说，原则上正例应该是自动构造出的，也就是自监督的方式构造的。负例怎么构造？一般来说负例好选，通常就是随机选的。第二个关键问题是Encoder映射函数，这个映射函数怎么设计？这是个比较关键的问题。第

2022-07-20 14:22:44 715

原创 flask 部署服务

flask服务部署测试demo

2022-06-08 15:55:00 529

原创 NLP之文本分类(三)---TextCNN

0. 背景：TextCNN对文本浅层特征的抽取能力很强，在短文本领域如搜索、对话领域专注于意图分类时效果很好，应用广泛，且速度快，一般是首选；对长文本领域，TextCNN主要靠filter窗口抽取特征，在长距离建模方面能力受限，且对语序不敏感paper：Convolutional Neural Networks for Sentence Classificationpaper： A Sensitivity Analysis of (and Practitioners’ Guide to) Conv

2022-05-07 15:44:35 355

原创 NLP之文本分类(一)---文本分类描述

0 背景主要是参考对文本分类的描述，相关数据集，常用算法，选取一些核心点，同时加上自身实践遇到的一些问题，以及面试中会问到的关于文本分类的问题，共学习使用。后面做进一步补充。

2022-05-07 15:33:01 2009

原创 NLP之文本分类(五)---多标签分类实践

多标签分类

2022-05-07 10:57:27 4153

原创 NLP之文本分类(四)---多标签分类初探

1. 多标签分类多标签学习[MLL]由一个样例和一个集合标签组成。任务分解： MLL包括主要任务：多标签分类（MLC）和标签排序(LR)阈值校准：设定排序的阈值任务特点：（1）不同数据集多标签程度不同。衡量多标签程度自然方式：即样本平均标签数。标签密度用标签集大小来规范化标签基数标签多样性：数据集中不同标签集合的数量，可以用数据及大小规范化。（2）标签具有相互关系多标签数据集中学习的关键挑战在于难以控制巨型输出空间，即标签集合的数量随着类别数量指数及增

2022-05-07 10:36:51 3006

原创 NLP之文本分类(二)---FastText

参考资料：https://blog.csdn.net/feilong_csdn/article/details/88655927https://fasttext.cc/docs/en/supervised-tutorial.htmlhttps://fasttext.cc1. 背景：fasttext文本分类效率较高，可以快速生成文本分类baseline，本文主要是了解fasttext核心优化点，以及熟悉官网python版本模型训练与预测。将doc的词以及n-gram向量叠加平均得到文档向量，然

2022-05-05 20:39:32 1458

转载 typora 快捷键

转载：https://blog.csdn.net/lannister_awalys_pay/article/details/118110157一级标题：⌘1 (command + 1)二级标题：⌘2 (command + 2)三级标题：⌘3 (command + 3)四级标题：⌘4 (command + 4)五级标题：⌘5 (command + 5)段落：⌘o 不生效，快捷键冲突，使用⌃o (control + o)提升标题级别：⌘= (command + =)降低标题级别：⌘- (comm

2022-04-27 16:36:53 770

原创 NLP开源

做学习使用，持续更新中。。。（1）nlp 常见任务与数据集，以下链接写的比较详细，请参考原文https://www.cnblogs.com/guozw/p/13369757.html

2022-02-16 16:16:43 397

原创业界搜索相关优化策略整理

加深印象，待进一步更新…1. 美团旅游搜索：困难：1）本异地差异大2）搜索意图多样3）底层脏数据多完整搜索系统：检索召回，查询分析，智能排序和业务应用。以下重点，检索召回，查询分析用户行为链条：搜索Query->点击搜索结果列表夜中的POI/Deal等->下单支付-> 消费–>计算消费收入。点击率链条太短，最终消费因素复杂。行为链条如下：每搜索用户收入 = 点击用户数/搜索用户数 * 支付用户数/点击用户数 * 消费用户数/支付用户数 * 每用

2022-02-10 11:13:51 217

原创推荐系统中评估指标

1. Recall : 召回率(recall)=TP/(TP+FN) 【预测为真正/实际为正】通俗解释：正样本中有多少是被找了出来2. HR@K (hit_rate) : 命中率分母：模型预测给出的topk推荐列表个数。分子：模型预测的topk中有多少是实际点击的。通俗理解：模型给出topk结果，有多少是命中实际点击的。注意：召回率与命中率是不一样的。...

2022-02-08 16:48:01 1175

原创 tensorflow --batch内负采样

class NegativeCosineLayer(): """ 自定义batch内负采样并做cosine相似度的层 """ """ 负采样原理： query_input.shape = [batch_size, dim] doc_input.shape = [batch_size, dim] 默认 query点击该doc。每个点击的item，随机采集NEG个item负样本 1. 假设每个正样本要采集N个负样本。 2. 分N次采集负样本，每次

2022-01-25 16:17:45 3897 2

原创 tensorflow2: attention机制实现

代码参考网络上资料，如有侵权，可联系删除为什么进行attention物理意义：将 Q, K 投影在不同的空间上，然后学习相似度。v 是key的内容表示。初始化 WQ,WK不同是self-attention具有泛化能力的原因，从而学习到序列中依赖语义关系。如果不设置 W_Q、W_k、W_v，我们计算的权重很大程度上依赖于我们如何确定原始输入向量。官网实现tf.keras.layers.Attention(use_scale=False, **kwargs)输入为形状[batch

2022-01-19 17:46:30 4114

转载 tenorflow ---激活函数

转载：https://blog.csdn.net/qq_20909377/article/details/79133981selu

2022-01-17 16:16:15 40

原创 Tensorflow2执行问题记录

tensorflow 日常遇到bug

2022-01-17 15:10:33 1062

原创 Tensorflow基础知识

1. tf.expand_dims()作用：给函数增加纬度。参数：tf.expand_dims(input, # 输入张量axis=None, # 给定张量输入input，此操作为选择维度索引值，在输入形状的维度索引值的轴处插入1的维度。维度索引值的轴从零开始; 如果您指定轴是负数，则从最后纬度处加1个纬度。name=None,dim=None)举例eg:t = tf.constant([1,2])t.shape TensorShape([2])t.numpy

2022-01-10 15:09:56 875

转载时间复杂度计算

转载：https://www.cnblogs.com/reposkeeper-wx/p/suan-fa-xi-lie-zhi-liu-suan-fa-shi-jian-fu-za-du-j.html时间复杂度，衡量苏算法计算耗时。基于算法计算最高项进行预估：例如，算法中涉及高阶计算 N^3 , N ^2, N. 则随着数据量集的增加，N ^2, N 的计算时间可忽略。因此，最终时间复杂度可以记为T(N)=O(N ^3).时间复杂度计算举例：（1）简单计算（2）冒泡排序def

2021-12-30 12:45:38 164

原创 linux下安装java

1、查找java相关的列表yum -y list java*2、安装jdkyum install java-1.8.0-openjdk.x86_643、完成安装后验证java -version4、通过yum安装的默认路径为：/usr/lib/jvm5、将jdk的安装路径加入到JAVA_HOMEvi /etc/profile在文件最后加入：#set java environmentJAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk.x86_64PATH=

2021-12-28 16:25:05 79

原创 python脚本批量模糊删除redis中的key

利用python脚本批量模糊删除redis中的keyr = redis.StrictRedis(host="*.*.*.*", port=***, password='****') def del_all_key(r): list_keys = r.keys("key_fre*") print(" =====before delete 总key的个数", len(list_keys)) r.delete(*r.keys('key_pre*')) list_k.

2021-12-27 11:13:36 1694

原创搜索相关性方法

基于bm25的改进https://tech.meituan.com/2017/06/16/travel-search-strategy.html美团点评旅游搜索召回策略的演进，关于相关性跟进的方法。参考BM25公式。主要考虑点：1）考虑不同文本域权重不一样，其中H表示文本域集合，名称，品类等。i_f是命中域的动态权重，可以根据命中Term在Query中的比例或权重来设置w_f是f的权重，比如POI名称域的权重一般会高于Deal标题域lf是文本域f的长度文中这里取max，是担心某个域的缺.

2021-12-22 15:19:39 152

原创 Tensorflow相关学习资料整理

中国大学MOOC联合出的Tensorflow2入门优点：有实训平台，代码，数据，实践平台比较全，https://ot.icourse163.org/#/labTensorFlow 入门实操课程》是基于 TensorFlow 技术推广工程师 Laurence Moroney 制作的新手入门课程内容，由复旦大学，上海师范大学，湖南师范大学等高校老师们以及 Google 认证开发专家ML GDE联合设计制作的中文课程。同时网易有道为此开发搭建了在线实训平台，使学生不仅可以了解到机器学习的基础知识，还将.

2021-11-24 11:49:45 1191

转载 linux 下python环境变量配置

参考链接：https://blog.csdn.net/weixin_39469127/article/details/90289295Linux下设置PYTHONPATH环境变量有三种方法：一种作用于当前终端，一种作用于当前用户，一种作用于所有用户。1.作用于当前终端，直接当前终端输入命令$ export PYTHONPATH=$PYTHONPATH:<你的要加入的路径>$ export PYTHONPATH=$PYTHONPATH:/home/hadoop/MyBI注1：’/hom

2021-11-02 21:05:08 10203

原创 python---异常汇总

python 与 torch 异常问题与解决方案汇总

2021-10-29 11:31:21 408

原创 python ---常用方法

1. itertools.product使用2. writelines与write 区别3. continue 用法：5. pickle使用6. next 使用：7. datafram 中objetct 转换为float：8. dataframe 中，只保留左边有的数据。9. 二维list转为一维list10. 字典转为json后，存储与加载11. pandas 大文件分块处理12. import其他文件夹下的模块13. ^ 异或操作14. reduce函数15. Counter

2021-10-28 11:46:09 239

原创 python --正则表达式使用

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-10-20 16:26:58 59

抖音推荐系统信息架构

VC Runtime

Practical Lessons from Predicting Clicks on Ads at Facebook

word2vec源码包--C语言

Mysql_DBA要

空空如也