酸奶大战纯牛奶-CSDN博客

原创模型评估方法

问题背景我们只有一个包含m个样例的数据集D={(x1,y1)…(xm,ym)},既要训练，又要测试，怎样才能做到呢？答案是通过对D进行适当的处理，从中产生出训练集S和测试集T，下面介绍几种常见的做法。留出法留出法直接将数据集D划分为两个互斥的集合，其中训练集为S，测试集T，即D=SUT,SnT=空集，留出法一般是多次随机划分，然后求平均值，其中训练集大概要在2/3~4/5之间。交叉验证法...

2019-09-26 11:52:14 158

原创 Spark：HanLP+Word2Vec+LSH实现文本推荐(kotlin)

Spark：HanLP+Word2Vec+LSH实现文本推荐(kotlin)文本推荐的基本流程就是首先对目标本文进行关键词提取，接着把关键词转成词向量，再计算词向量的相似性进行推荐。这三个步骤都有现成的模型和算法来实现，本文介绍的就是基于spark用hanlp+word2vec+lsh实现文本推荐。下面先介绍每个步骤所用的模型和算法。1.HanLP：提取中文文本的关键词1.HanLP是一系...

2019-09-25 11:38:52 3365

movies.dat

1m movie 数据集

2020-08-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 模型评估方法

原创 Spark：HanLP+Word2Vec+LSH实现文本推荐(kotlin)

movies.dat

空空如也

原创模型评估方法