热爱Coding-CSDN博客

原创 TensorFlow 用 hashtable 的意义

的embedding_matrix存embedding，然后用embedding_lookup接口读每个id的embedding。比如id从1-100000，但1-100000里有很多值是空的，如果id是满的，从1-500都有值，可以用一个。TF的hashtable用来存不连续的id，

2024-04-24 15:41:22 47 1

原创【推荐系统】离线AUC涨了，在线CTR/CXR不涨

我离线，click-auc从0.780提升到0.866，pay-auc从0.887提升到0.927，当时因一些原因，只用了少量数据训练，AUC看起来不错，就上线实验了。后来发现是训练的数据少的原因，然后到线上AB实验反跌了，

2024-04-18 10:15:39 429

原创【搜索算法】靠item标签召回，超越ElasticSearch+分词的baseline

要超越ElasticSearch+（item名）分词的baseline，如果都要求有相关性的item（有token匹配），其实就是相当于优化分词，而分词优化的极限就是把 item名和query词切分成字级token。所以标签召回，只能是相当于扩充更多的推荐的item。搜【健身】，搜出【哑铃】就相当于是推荐出的item。比如搜【杠铃】，搜出【哑铃】可以，

2024-04-12 21:02:40 241

原创【搜索算法】加item标签扩充召回

就是热门的query词召回数量提升了10倍，但是ElasticSearch的召回数量阈值不够，item侧标签的一种来源是 item类目的同义词直接打到item上，这些 item类目同义词则多去覆盖非热门的query词。同时其他的query词召回数量没有增益。

2024-04-12 15:29:35 85

原创【ElasticSearch】DisMaxQueryBuilder 和 BoolQueryBuilder 的结合使用

【代码】【ElasticSearch】DisMaxQueryBuilder 和 BoolQueryBuilder 的结合使用。

2024-04-12 10:56:36 74

原创 ElasticSearch 的 ConstantScoreQuery 的理解

可以查找所有匹配上(分数为1)的doc，没匹配上(分数为0)的doc不返回。

2024-04-11 09:21:12 233

原创 ElasticSearch 的 DisMaxQueryBuilder 的理解

就是DisMaxQueryBuilder可以用来选择出最高的。DisMaxQueryBuilder的定义。最高分的分值是相同的，最高分的doc就只返回。

2024-04-10 18:21:10 377 1

原创 ElasticSearch 两个BoolQueryBuilder满足其中一个

【代码】ElasticSearch 两个BoolQueryBuilder满足其中一个。

2024-04-10 11:22:17 79

原创 ElasticSearch 的 BoolQueryBuilder 使用

【代码】ElasticSearch的BoolQueryBuilder使用。

2024-04-08 21:50:45 227

原创 python，http访问页面，获得页面真实信息

点进去打开新的页面，再复制新页面里的http链接。在chrome浏览器，访问页面，Mac系统按。

2024-04-03 10:40:14 117

原创 Java, Comparator, 报错 Comparison method violates its general contract!

用这段java代码可以复现这个报错。

2024-03-29 17:54:07 92

原创 Linux shell，在文件里统计string个数

grep -c the_string FILE_NAME

2024-03-29 10:22:25 116

原创【推荐算法-特征工程】item侧标签类特征

全量item的高频 2gram / 3gram 都可以作为item的特征。

2024-03-24 11:48:47 85

用户高点击的item上的tag的Top-3，3个tag-id可以作为用户的3维特征，但是如何区分这Top-3里哪个是Top-1，还是Top-2，还是Top-3呢，比如用户Top-1点击tag的emb_hidded_size = 24。比如用户Top-2点击tag的emb_hidded_size = 16。可以在特征embedding的时候，给不同的hidden_size，比如用户Top-3点击tag的emb_hidded_size = 8。

2024-03-22 19:55:08 79

原创 Maven，pom.xml，查找子jar包

然后如果有需要，把相关的子jar包去掉。

2024-03-20 09:38:44 231

原创 pyspark drop_duplicates 报错 py4j.Py4JException: Method toSeq([class java.lang.String]) does not exist

【代码】pyspark drop_duplicates 报错 py4j.Py4JException: Method toSeq([class java.lang.String]) does not exist。

2024-03-15 14:32:52 28

原创 Mac 使用root用户

【代码】Mac 使用root用户。

2024-03-12 17:58:56 330

原创命令行跑stanford-corenlp

在 https://nlp.stanford.edu/software/stanford-corenlp-4.5.6.zip。在 https://stanfordnlp.github.io/CoreNLP/human-languages.html。下载model的jar。也放到解压后的文件夹里。

2024-03-12 15:03:02 68

原创 Lucene 自定义词库

【代码】Lucene 自定义词库。

2024-03-11 10:00:40 263

原创 Lucene 分词示例代码

【代码】Lucene 分词。

2024-03-11 09:44:54 161

原创【推荐系统】判断特征重要性

将要评估的那维特征置为默认值，比如0，观察AUC相比置0之前的降低程度。

2024-03-11 09:25:54 340

原创 Linux 当前文件夹下的所有文件中查找String

【代码】Linux 当前文件夹下的所有文件中查找String。

2024-03-07 11:40:22 379

原创 git 合并分支

branch2 先从 branch1 fork出来。现在想把branch2给merge到branch1。然后 branch2 有更新 commit。然后 branch1 也更新 commit。

2024-03-06 10:29:41 335

原创 Mac安装python，还是推荐走pyenv，源码make install太费事：比如报错：No module named ‘_lzma‘

安装python3.8。

2024-03-03 19:58:14 372

原创安装brew报错：Failed to connect to raw.githubusercontent.com port 443

【代码】安装brew报错，Failed to connect to raw.githubusercontent.com port 443。

2024-03-03 19:46:11 298

原创 query作为tag打在item上，理论上能解决所有搜索的召回问题

比如搜奶茶在呷哺下单，（呷哺也在卖奶茶），有上万个奶茶query 都在呷哺item 下单，那么给呷哺item 打上奶茶tag 肯定是OK的一条数据，通过高频query的订单找到的query-item的绑定关系，作为训练数据，有了模型后，然后对比如 item呷哺呷哺进行预测出奶茶tag。在订单越大的时候，数据是越置信的，

2024-02-29 19:26:18 377

原创 Spark, import java in scala, 报错 NoClassDefFoundError: Could not initialize class

在scala文件里import一个java文件，报错。很可能是import的这个java文件里的。里的代码的初始化问题。

2024-02-28 14:03:48 42

原创报错 lambda expressions are not supported in -source (use -source to enable lambda expressions)

【代码】lambda expressions are not supported in -source 1.5 (use -source 8 to enable lambda expressions)

2024-02-28 11:19:59 26

原创 SQL column1 contains another column2

【代码】SQL column1 contains another column2。

2024-02-28 10:23:00 352

原创无人工标注实现搜索分词/标签召回/query改写/query-item相关性

高频/低频用户行为（浏览/点击/下单）是相当于已经去掉噪声的数据，数据质量是可以的，可以一起用比如高频1gram+高频2gram+高频3gram+高频4gram。以同一query 的高频订单/低频订单，作为正负样本，训练二分类模型。这里面馆A，面馆B 的标签必须是已有的，都是面类饭店，那么可以认为牛肉面和牛肉拉面是很相似的词了。然后认为牛肉面和牛肉拉面互为相似词，如果没有好的分词工具的话，训练一个文本生成模型，训练一个文本生成模型，训练一个文本生成模型。

2024-02-20 15:04:19 398

原创【搜索算法】分词模型的冷启动替换

可以一起用比如高频1gram+高频2gram+高频3gram+高频4gram。如果没有好的分词工具的话，

2024-02-20 14:17:21 323

原创基于用户搜索行为，训练query-item相关性模型

高频用户行为（点击/下单）是相当于已经去掉噪声的数据，数据质量是可以的，以同一query 的高频订单/低频订单，作为正负样本，训练二分类模型。

2024-02-20 11:43:36 322

原创基于用户搜索行为，给query打上item的标签

用户高频搜牛肉拉面 — 高频下单面馆A 面馆B。用户高频搜牛肉面 — 高频下单面馆A 面馆B。面馆A，面馆B 的标签都是面类饭店。然后对所有饭店进行预测。训练一个文本生成模型，

2024-02-07 21:44:29 323

原创基于用户搜索行为，给item打上query标签 / 把query看成标签打在item上

用户搜牛肉拉面 — 高频下单面馆A 面馆B。用户搜牛肉面 — 高频下单面馆A 面馆B。然后对面馆C 进行预测。训练一个文本生成模型，

2024-02-04 18:00:47 356

原创基于用户搜索行为，寻找query的相似词/同义词/扩展词/改写词

用户搜牛肉拉面 — 高频下单面馆A 面馆B 面馆D。用户搜牛肉面 — 高频下单面馆A 面馆B 面馆C。那么可以认为牛肉面和牛肉拉面是很相似的词了。

2024-02-04 17:56:39 420

原创模拟请求ElasticSearch

在这个searchBuilder变量里，对里面query变量点右侧 view按钮，在IDEA的debug模式，走到Java代码的searchBuilder，IDEA里会显示出一个json，把这个json填到。打开插件，GET的json填什么。安装chrome的这个插件。

2024-02-02 15:31:22 613

原创 Spark，Scala，collect成一个string

【代码】Spark，Scala，collect成一个string。

2024-02-02 10:49:38 27

原创 Latex，在table的cell里换行

【代码】Latex，在table的cell里换行。

2024-01-31 16:38:41 359

原创 Latex，调整行间距

【代码】Latex，调整行间距。

2024-01-31 16:34:01 466

原创【推荐系统】item-id 作为特征的意义

所以把item-id embedding后作为特征，就是一个让模型记住每个item信息的方式。是有一些预测/泛化的能力，但不影响模型在记忆的出发点，因为其实模型本身就是基于记忆（拟合）的，

2024-01-19 14:54:52 446

stanford-corenlp-4.5.6.zip

https://nlp.stanford.edu/software/stanford-corenlp-4.5.6.zip

2024-03-12

huggingface的bert-base-chinese

https://huggingface.co/google-bert/bert-base-chinese pytorch和tensorflow都有

2024-03-05

huggingface的bert-base-uncased

https://huggingface.co/google-bert/bert-base-uncased pytorch和tensorflow都有

2024-03-03

TREC-6 文本分类数据集

https://www.tensorflow.org/datasets/catalog/trec

2024-02-22

chatglm3-6b的模型参数文件0/7

这个是除了7个大文件之外的所有小文件

2023-11-30

chatglm3-6b的模型参数文件6/7

2023-11-29

chatglm3-6b的模型参数文件5/7

2023-11-29

chatglm3-6b的模型参数文件4/7

2023-11-29

chatglm3-6b的模型参数文件7/7

2023-11-28

chatglm3-6b的模型参数文件3/7

2023-11-28

chatglm3-6b的模型参数文件2/7

2023-11-28

chatglm3-6b的模型参数文件1/7

2023-11-28

Deep (Convolution) Networks from First Principles by马毅老师

2023-09-26

NLPIR新闻语料库（2400万字）

1.解压缩后数据量为48MB，大约2400万字的新闻； 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间；每个文件包括多个新闻正文内容（已经去除了新闻的垃圾信息）； 4.新闻本身内容的版权属于原作者或者新闻机构； 5.整理后的语料库版权属于www.NLPIR.org； 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景；如需更大规模的语料库，可以联系NLPIR.org管理员。

2023-08-30

CLUE AFQMC 语义相似度数据集

蚂蚁金融语义相似度 Ant Financial Question Matching Corpus 数据量：训练集（34334）验证集（4316）测试集（3861）

2023-07-24

CLUE TNEWS 文本分类数据集

今日头条中文新闻（短文本）分类 Short Text Classificaiton for News 数据量：训练集(53,360)，验证集(10,000)，测试集(10,000)

2023-07-24

Linux-CentOS编译好的python3.8，解决了ssl相关问题

2023-02-17

MovieLens 20M Dataset

MovieLens 20M movie ratings. Stable benchmark dataset. 20 million ratings and 465,000 tag applications applied to 27,000 movies by 138,000 users. Includes tag genome data with 12 million relevance scores across 1,100 tags. Released 4/2015; updated 10/2016 to update links.csv and add tag genome data.

2022-05-31

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

stanford-corenlp-4.5.6.zip

huggingface的bert-base-chinese

huggingface的bert-base-uncased

TREC-6 文本分类数据集

chatglm3-6b的模型参数文件0/7

chatglm3-6b的模型参数文件6/7

chatglm3-6b的模型参数文件5/7

chatglm3-6b的模型参数文件4/7

chatglm3-6b的模型参数文件7/7

chatglm3-6b的模型参数文件3/7

chatglm3-6b的模型参数文件2/7

chatglm3-6b的模型参数文件1/7

Deep (Convolution) Networks from First Principles by马毅老师

NLPIR新闻语料库（2400万字）

CLUE AFQMC 语义相似度 数据集

CLUE TNEWS 文本分类数据集

Linux-CentOS编译好的python3.8，解决了ssl相关问题

MovieLens 20M Dataset

MovieLens 25M Dataset

tensorflow 1.14 Mac 系统本地跑需要的dylib

criteo dataset（CTR数据集）part3

criteo dataset（CTR数据集）part2

criteo dataset（CTR数据集）part1

avazu dataset（CTR数据集）

英文BERT论文预训练数据part2

英文BERT论文预训练数据part1

学数学 最好的方法是 做数学

onnxruntime-1.5.2.zip

onnxruntime-1.5.3.zip

onnxruntime-1.5.2.jar

train-images-idx3-ubyte.gz 和 train-labels-idx1-ubyte.gz

How to write a good CVPR submission

aclImdb_v1.tar.gz

tensorflow_gpu-1.15.3-cp36-cp36m-manylinux2010_x86_64.whl

tensorflow_gpu-1.15.2-cp36-cp36m-manylinux2010_x86_64.whl

tensorflow_gpu-1.15.0-cp36-cp36m-manylinux2010_x86_64.whl

tensorflow_gpu-1.15.4-cp36-cp36m-manylinux2010_x86_64.whl

tensorflow-1.14.0-cp36-cp36m-macosx_10_11_x86_64.whl

tensorflow-2.3.0-cp36-cp36m-macosx_10_11_x86_64.whl

annotated_wikisql_and_PyTorch_bert_param.zip

自动驾驶，如何得到方向盘转动的ground truth？

AlphaGo能超越人类，因为训练时 对于模型的每个输入，都有一个100%正确的答案?

其实LLM/ChatGPT是否在距离AlphaGo式AI越来越远？

技术上，ChatGPT要成为 AI医生/AI律师/AI教师 还欠缺哪些能力？

数学 是且仅是 一种语言和一种工具，不是科学的全部？

哪些时候用CUDA编程更好？

MetaLearning是LearnToLearn，那如何解决LearnToLearnToLearn？

BERT/GPT是 精确存储了所有每句话的“语义” 还是得出每句话的少数服从多数的统计“语义”？

用RL做NLP，和 根据那条数据的reward重新标注那条数据 有什么区别？

没有物理机器人载体，如何在模拟环境里的进行学习和研究机器人？

2022年了，USB式GPU有哪些进展？

2022年了，有哪些稳压deepfm的CTR模型？

CTR模型，如果上线了没效果，这时可以进行哪些分析工作？以及有无必要投入大量时间分析？

算法工程师如何应对做算法策略的不确定性；比如没效果，这时绩效怎么保证？

CTR模型必须要有一个测试数据集吗？ 训练数据集和测试数据集是同一个，可以吗？

有人搞过离线CTR模型么，缓存每个user对每个item的打分，没缓存的item默认处理，靠谱吗？

把user买过的item的名字embedding后作为特征，以及item本身的名字embedding作为特征，这两个特征加到CTR模型，会有效果吧？

为啥我感觉现在机器学习模型就是一种模糊匹配工具or相似识别工具？

因果推断技术靠谱吗，感觉里面的影响因素太多了，所以能实际解决落地问题吗？

XGB/GBDT/决策树，得出特征重要性的原理是什么？

强化学习是不是无人驾驶的未来？

GAN生成图像，弄一个discriminator ，和无D直接生成，区别是？

哪些互联网公司的管理职级和专业职级是分开的？

CTR模型的AUC如果比较高，是否其实只是 因为复购行为带来的AUC虚高？

CTR模型的本质是不是算出 user的哪些特征和item的哪些特征 最匹配？

人工智能的因果学习（Causal Learning）到底想解决什么问题？

BYOL里stop-gradient的作用是什么？

马上2022年了，强化学习+NLP 有了哪些突破？

马上2022年了，pointer-network现在看来的作用是什么？

总被主管说文档写的不好怎么办？

NER任务只有一个类的情况下，BME或者Yes-No的数据预处理方式对结果有影响吗？

为什么机器翻译文本生成，至今仍然在用transformer-auto-regressive的别扭架构？

Float特征直接输入deepCTR模型和分桶转成int再embedding输入的区别是？

学好数学对于编程的真实增益的性价比到底如何？

学好数学对于编程的真实增益到底是多少？

如果说每一个数学公式都在描述一件事情，那么数学公式的推导，是在做什么？

研究出 通用人工智能/曲率引擎/黎曼猜想/可控核聚变/零事故飞行汽车/量子计算机/治愈癌症 的难度排名?

每个物理公式是否都是在【描述】一个事情？

求通俗讲讲数学或理论物理进行研究的细节，复杂公式是不是也都是由基础公式而来？

基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度？

CLUE AFQMC 语义相似度数据集

学数学最好的方法是做数学

AlphaGo能超越人类，因为训练时对于模型的每个输入，都有一个100%正确的答案?

技术上，ChatGPT要成为 AI医生/AI律师/AI教师还欠缺哪些能力？

数学是且仅是一种语言和一种工具，不是科学的全部？

BERT/GPT是精确存储了所有每句话的“语义” 还是得出每句话的少数服从多数的统计“语义”？

用RL做NLP，和根据那条数据的reward重新标注那条数据有什么区别？

CTR模型必须要有一个测试数据集吗？训练数据集和测试数据集是同一个，可以吗？

CTR模型的AUC如果比较高，是否其实只是因为复购行为带来的AUC虚高？

CTR模型的本质是不是算出 user的哪些特征和item的哪些特征最匹配？

研究出通用人工智能/曲率引擎/黎曼猜想/可控核聚变/零事故飞行汽车/量子计算机/治愈癌症的难度排名?