- 博客(1853)
- 资源 (397)
- 问答 (108)
- 收藏
- 关注
原创 TensorFlow 用 hashtable 的意义
的embedding_matrix存embedding,然后用embedding_lookup接口读每个id的embedding。比如id从1-100000,但1-100000里有很多值是空的,如果id是满的,从1-500都有值,可以用一个。TF的hashtable用来存不连续的id,
2024-04-24 15:41:22 47 1
原创 【推荐系统】离线AUC涨了,在线CTR/CXR不涨
我离线,click-auc从0.780提升到0.866,pay-auc从0.887提升到0.927,当时因一些原因,只用了少量数据训练,AUC看起来不错,就上线实验了。后来发现是训练的数据少的原因,然后到线上AB实验反跌了,
2024-04-18 10:15:39 429
原创 【搜索算法】靠item标签召回,超越ElasticSearch+分词的baseline
要超越ElasticSearch+(item名)分词的baseline,如果都要求 有相关性的item(有token匹配),其实就是相当于优化分词,而分词优化的极限就是把 item名和query词 切分成字级token。所以标签召回,只能是相当于 扩充更多的 推荐的item。搜【健身】,搜出【哑铃】就相当于是推荐出的item。比如搜【杠铃】,搜出【哑铃】可以,
2024-04-12 21:02:40 241
原创 【搜索算法】加item标签扩充召回
就是热门的query词召回数量提升了10倍,但是ElasticSearch的召回数量阈值不够,item侧标签的一种来源是 item类目的同义词 直接打到item上,这些 item类目同义词 则多去覆盖 非热门的query词。同时其他的query词召回数量没有增益。
2024-04-12 15:29:35 85
原创 【ElasticSearch】DisMaxQueryBuilder 和 BoolQueryBuilder 的结合使用
【代码】【ElasticSearch】DisMaxQueryBuilder 和 BoolQueryBuilder 的结合使用。
2024-04-12 10:56:36 74
原创 ElasticSearch 的 ConstantScoreQuery 的理解
可以查找所有 匹配上(分数为1)的doc,没匹配上(分数为0)的doc不返回。
2024-04-11 09:21:12 233
原创 ElasticSearch 的 DisMaxQueryBuilder 的理解
就是DisMaxQueryBuilder可以用来选择出 最高的。DisMaxQueryBuilder的定义。最高分的分值是相同的,最高分的doc就只返回。
2024-04-10 18:21:10 377 1
原创 ElasticSearch 两个BoolQueryBuilder满足其中一个
【代码】ElasticSearch 两个BoolQueryBuilder满足其中一个。
2024-04-10 11:22:17 79
原创 ElasticSearch 的 BoolQueryBuilder 使用
【代码】ElasticSearch的BoolQueryBuilder使用。
2024-04-08 21:50:45 227
原创 python,http访问页面,获得页面真实信息
点进去打开新的页面,再复制新页面里的http链接。在chrome浏览器,访问页面,Mac系统按。
2024-04-03 10:40:14 117
原创 Java, Comparator, 报错 Comparison method violates its general contract!
用这段java代码可以复现这个报错。
2024-03-29 17:54:07 92
原创 【推荐算法-特征工程】user侧标签类特征
用户高点击的item上的tag的Top-3,3个tag-id可以作为用户的3维特征,但是如何区分这Top-3里哪个是Top-1,还是Top-2,还是Top-3呢,比如用户Top-1点击tag的emb_hidded_size = 24。比如用户Top-2点击tag的emb_hidded_size = 16。可以在特征embedding的时候,给不同的hidden_size,比如用户Top-3点击tag的emb_hidded_size = 8。
2024-03-22 19:55:08 79
原创 pyspark drop_duplicates 报错 py4j.Py4JException: Method toSeq([class java.lang.String]) does not exist
【代码】pyspark drop_duplicates 报错 py4j.Py4JException: Method toSeq([class java.lang.String]) does not exist。
2024-03-15 14:32:52 28
原创 命令行跑stanford-corenlp
在 https://nlp.stanford.edu/software/stanford-corenlp-4.5.6.zip。在 https://stanfordnlp.github.io/CoreNLP/human-languages.html。下载model的jar。也放到解压后的文件夹里。
2024-03-12 15:03:02 68
原创 git 合并分支
branch2 先从 branch1 fork出来。现在想把branch2给merge到branch1。然后 branch2 有更新 commit。然后 branch1 也更新 commit。
2024-03-06 10:29:41 335
原创 Mac安装python,还是推荐走pyenv,源码make install太费事:比如报错:No module named ‘_lzma‘
安装python3.8。
2024-03-03 19:58:14 372
原创 安装brew报错:Failed to connect to raw.githubusercontent.com port 443
【代码】安装brew报错,Failed to connect to raw.githubusercontent.com port 443。
2024-03-03 19:46:11 298
原创 query作为tag打在item上,理论上能解决所有搜索的召回问题
比如搜 奶茶 在 呷哺 下单,(呷哺也在卖奶茶),有上万个 奶茶query 都在 呷哺item 下单,那么给 呷哺item 打上 奶茶tag 肯定是OK的一条数据,通过 高频query的订单 找到的query-item的绑定关系,作为训练数据,有了模型后,然后对 比如 item呷哺呷哺 进行预测出 奶茶tag。在订单越大的时候,数据是越置信的,
2024-02-29 19:26:18 376
原创 Spark, import java in scala, 报错 NoClassDefFoundError: Could not initialize class
在scala文件里import一个java文件,报错。很可能是import的这个java文件里的。里的代码的初始化问题。
2024-02-28 14:03:48 42
原创 报错 lambda expressions are not supported in -source (use -source to enable lambda expressions)
【代码】lambda expressions are not supported in -source 1.5 (use -source 8 to enable lambda expressions)
2024-02-28 11:19:59 26
原创 SQL column1 contains another column2
【代码】SQL column1 contains another column2。
2024-02-28 10:23:00 352
原创 无人工标注 实现搜索 分词/标签召回/query改写/query-item相关性
高频/低频 用户行为(浏览/点击/下单)是相当于 已经去掉噪声 的数据,数据质量是可以的,可以一起用 比如 高频1gram+高频2gram+高频3gram+高频4gram。以 同一query 的 高频订单/低频订单,作为正负样本,训练二分类模型。这里 面馆A,面馆B 的标签 必须是已有的,都是 面类饭店,那么可以认为 牛肉面 和 牛肉拉面 是很相似的词了。然后认为 牛肉面 和 牛肉拉面 互为相似词,如果没有好的分词工具的话,训练一个文本生成模型,训练一个文本生成模型,训练一个文本生成模型。
2024-02-20 15:04:19 398
原创 基于用户搜索行为,训练query-item相关性模型
高频用户行为(点击/下单)是相当于 已经去掉噪声 的数据,数据质量是可以的,以 同一query 的 高频订单/低频订单,作为正负样本,训练二分类模型。
2024-02-20 11:43:36 320
原创 基于用户搜索行为,给query打上item的标签
用户高频搜 牛肉拉面 — 高频下单 面馆A 面馆B。用户高频搜 牛肉面 — 高频下单 面馆A 面馆B。面馆A,面馆B 的标签都是 面类饭店。然后对 所有饭店 进行预测。训练一个文本生成模型,
2024-02-07 21:44:29 323
原创 基于用户搜索行为,给item打上query标签 / 把query看成标签打在item上
用户搜 牛肉拉面 — 高频下单 面馆A 面馆B。用户搜 牛肉面 — 高频下单 面馆A 面馆B。然后对 面馆C 进行预测。训练一个文本生成模型,
2024-02-04 18:00:47 356
原创 基于用户搜索行为,寻找query的相似词/同义词/扩展词/改写词
用户搜 牛肉拉面 — 高频下单 面馆A 面馆B 面馆D。用户搜 牛肉面 — 高频下单 面馆A 面馆B 面馆C。那么可以认为 牛肉面 和 牛肉拉面 是很相似的词了。
2024-02-04 17:56:39 420
原创 模拟请求ElasticSearch
在这个searchBuilder变量里,对里面query变量点右侧 view按钮,在IDEA的debug模式,走到Java代码的searchBuilder,IDEA里会显示出一个json,把这个json填到。打开插件,GET的json填什么。安装chrome的这个插件。
2024-02-02 15:31:22 613
原创 【推荐系统】item-id 作为特征的意义
所以把item-id embedding后作为特征,就是一个让模型记住每个item信息的方式。是有一些 预测/泛化 的能力,但不影响模型在记忆的出发点,因为其实 模型本身就是 基于记忆(拟合) 的,
2024-01-19 14:54:52 446
huggingface的bert-base-chinese
2024-03-05
huggingface的bert-base-uncased
2024-03-03
Deep (Convolution) Networks from First Principles by马毅老师
2023-09-26
NLPIR新闻语料库(2400万字)
2023-08-30
CLUE AFQMC 语义相似度 数据集
2023-07-24
CLUE TNEWS 文本分类数据集
2023-07-24
MovieLens 20M Dataset
2022-05-31
MovieLens 25M Dataset
2022-05-17
criteo dataset(CTR数据集)part3
2022-03-27
criteo dataset(CTR数据集)part2
2022-03-27
criteo dataset(CTR数据集)part1
2022-03-27
onnxruntime-1.5.2.jar
2020-12-03
train-images-idx3-ubyte.gz 和 train-labels-idx1-ubyte.gz
2020-12-03
How to write a good CVPR submission
2020-11-27
aclImdb_v1.tar.gz
2020-11-19
tensorflow_gpu-1.15.3-cp36-cp36m-manylinux2010_x86_64.whl
2020-11-06
tensorflow_gpu-1.15.2-cp36-cp36m-manylinux2010_x86_64.whl
2020-11-06
tensorflow_gpu-1.15.0-cp36-cp36m-manylinux2010_x86_64.whl
2020-11-06
tensorflow_gpu-1.15.4-cp36-cp36m-manylinux2010_x86_64.whl
2020-11-06
tensorflow-1.14.0-cp36-cp36m-macosx_10_11_x86_64.whl
2020-10-27
tensorflow-2.3.0-cp36-cp36m-macosx_10_11_x86_64.whl
2020-10-27
annotated_wikisql_and_PyTorch_bert_param.zip
2020-10-22
自动驾驶,如何得到方向盘转动的ground truth?
2024-03-18
AlphaGo能超越人类,因为训练时 对于模型的每个输入,都有一个100%正确的答案?
2024-01-16
其实LLM/ChatGPT是否在距离AlphaGo式AI越来越远?
2024-01-16
技术上,ChatGPT要成为 AI医生/AI律师/AI教师 还欠缺哪些能力?
2024-01-11
数学 是且仅是 一种语言和一种工具,不是科学的全部?
2023-12-14
哪些时候用CUDA编程更好?
2023-12-14
用RL做NLP,和 根据那条数据的reward重新标注那条数据 有什么区别?
2022-05-07
没有物理机器人载体,如何在模拟环境里的进行学习和研究机器人?
2022-04-28
2022年了,USB式GPU有哪些进展?
2022-04-28
2022年了,有哪些稳压deepfm的CTR模型?
2022-04-01
CTR模型,如果上线了没效果,这时可以进行哪些分析工作?以及有无必要投入大量时间分析?
2022-03-24
算法工程师如何应对做算法策略的不确定性;比如没效果,这时绩效怎么保证?
2022-03-01
CTR模型必须要有一个测试数据集吗? 训练数据集和测试数据集是同一个,可以吗?
2022-02-25
为啥我感觉现在机器学习模型就是一种模糊匹配工具or相似识别工具?
2022-02-16
因果推断技术靠谱吗,感觉里面的影响因素太多了,所以能实际解决落地问题吗?
2022-02-08
XGB/GBDT/决策树,得出特征重要性的原理是什么?
2022-02-08
强化学习是不是无人驾驶的未来?
2022-02-01
GAN生成图像,弄一个discriminator ,和无D直接生成,区别是?
2022-02-01
哪些互联网公司的管理职级和专业职级是分开的?
2022-01-22
CTR模型的AUC如果比较高,是否其实只是 因为复购行为带来的AUC虚高?
2022-01-17
CTR模型的本质是不是算出 user的哪些特征和item的哪些特征 最匹配?
2022-01-08
人工智能的因果学习(Causal Learning)到底想解决什么问题?
2021-12-17
BYOL里stop-gradient的作用是什么?
2021-12-01
马上2022年了,强化学习+NLP 有了哪些突破?
2021-11-26
马上2022年了,pointer-network现在看来的作用是什么?
2021-11-26
总被主管说文档写的不好怎么办?
2021-11-18
NER任务只有一个类的情况下,BME或者Yes-No的数据预处理方式对结果有影响吗?
2021-11-08
学好数学对于编程的真实增益的性价比到底如何?
2021-11-03
学好数学对于编程的真实增益到底是多少?
2021-11-03
如果说每一个数学公式都在描述一件事情,那么数学公式的推导,是在做什么?
2021-10-26
每个物理公式是否都是在【描述】一个事情?
2021-10-12
求通俗讲讲数学或理论物理进行研究的细节,复杂公式是不是也都是由基础公式而来?
2021-09-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人