自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (1)
  • 收藏
  • 关注

原创 模型评估方法

问题背景我们只有一个包含m个样例的数据集D={(x1,y1)…(xm,ym)},既要训练,又要测试,怎样才能做到呢?答案是通过对D进行适当的处理,从中产生出训练集S和测试集T,下面介绍几种常见的做法。留出法留出法直接将数据集D划分为两个互斥的集合,其中训练集为S,测试集T,即D=SUT,SnT=空集,留出法一般是多次随机划分,然后求平均值,其中训练集大概要在2/3~4/5之间。交叉验证法...

2019-09-26 11:52:14 158

原创 Spark:HanLP+Word2Vec+LSH实现文本推荐(kotlin)

Spark:HanLP+Word2Vec+LSH实现文本推荐(kotlin)文本推荐的基本流程就是首先对目标本文进行关键词提取,接着把关键词转成词向量,再计算词向量的相似性进行推荐。这三个步骤都有现成的模型和算法来实现,本文介绍的就是基于spark用hanlp+word2vec+lsh实现文本推荐。下面先介绍每个步骤所用的模型和算法。1.HanLP:提取中文文本的关键词1.HanLP是一系...

2019-09-25 11:38:52 3365

movies.dat

1m movie 数据集

2020-08-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除