4 davendw

尚未进行身份认证

渴求思想与思想的碰撞,完善智慧人生

等级
博文 60
排名 6w+

什么是零次学习(zero-shot Learning)篇一

最近再进行Zero-ShotLearning关于知识图谱嵌入的研究,这篇文章开始将会从调研Zero-ShotLearning开始逐步记录整个类似问题做知识嵌入的研究过程。本章80%翻译自一个公开的科学散记也有本小弱观看去年CVPR的tutorial的个人见解,更多思考会在之后详细说明。Introduction在过去的几十年里,机器变得更加智能,但如果没有将机器所见训练...

2018-08-14 02:13:08

Mini版数据库实现之阅读MySQL代码(安装篇)-Part.1

阅读MySQL代码之源码安装写在前面的话:这个系列将会从学习者的角度去探索如何实现一个类MySQL的数据库,但是我们知道真正的在短时间内能够写出来的个人的版本是很难有很好的成品。但是从一个学习者的角度来说,最重要的是弄懂这个数据库是如何成功运行的,而首当其中的就是去编译其源码。我挑选MySQL-5.1.34版本,作为这次实验的源代码包,这篇将记录我的整个安装的心路历程...

2018-08-10 01:29:27

Do CIFAR-10 Classifiers Generalize to CIFAR-10?【翻译】

这是一篇真的很有意思的AIWINTER主题的文章。文章主要论证,机器学习方面的研究目前主要由几项关键任务的性能改进为关注点的实验性工作为主导。但是,表现最佳的模型的让人印象深刻的准确性,遭到了质疑,原因是相同的测试集已经用了多年来衡量这些模型。为了理解过度拟合的存在性危害,作者通过创建一个真正未经学习的图像新测试集来衡量CIFAR-10分类器的准确性。并给出了自己的发现。

2018-06-17 03:19:27

台大-林轩田老师-机器学习基石学习笔记14

上一讲讲的是过拟合的原因,并且也介绍了一点,解决过拟合的方法。此讲重点介绍其中的一种最为常用的方法,正规化(Regularized)。我们上一节讲说了一个过拟合的例子:stepback不仅用于篮球中我们也知道了,如果我们使用一个高阶多项式(图中红色曲线所示),例如10阶,对目标函数(蓝色曲线)进行拟合。拟合曲线波动很大,虽然EinEinE_{in}很小,但是EoutEoutE...

2018-03-02 17:31:05

台大-林轩田老师-机器学习基石学习笔记13

上节讲的是非线性分类模型,通过线性与非线性空间之间的变换,将非线性模型映转换为线性模型,再进行分类,分析了非线性变换可能会使计算复杂度增加。强调了纬度和负责度之间的关系。这节中,这种模型复杂度增加带来机器学习中一个很常见的问题——过拟合。什么是过拟合?机器学习的终极目标就是为了预测,当然预测前我们要对数据进行训练。用原生数据来直接训练的话,有一个问题就是我们设计的分类器在训练集上会得到

2018-01-29 01:18:45

台大-林轩田老师-机器学习基石学习笔记12

从缺陷开始我们先来看下这两个图如果我们的假设空间定在二维空间,那么当数据不是线性可分的时候,将会发生比较尴尬的事情——无从下手。左边的数据我们称为线性可分,右边的是线性不可分。之前的十一讲,所有林老师涉及的机器学习模型都为线性模型,即假设空间是线性的。线性模型中使用的界限函数为线性分数。线性模型的优点为在理论上可以使用VC维保证。但是,当数据集为线性不可分的时候,如右图,则会很难找

2018-01-28 02:24:19

BP神经网络的一些例子

给定某地区20年的数据,分别为年份,人数,机动车数量,公路面积,公路客运量,公路货运量,这20年是1990年到2009年,现在给我们2010和2011年,人数,机动车数量,公路面积的数据,用BP网络预测该地区2010年和2011年公路的客运量和公路货运量。

2017-12-28 00:30:59

台大-林轩田老师-机器学习基石学习笔记11

上一讲讲到的是逻辑回归,并且提出了cross-entropyerror(交叉熵误差)的概念,并使用了梯度下降算法;再上一讲讲到是线性回归,第二节课讲的是PLA算法。这三讲将会是我们这一讲的基础。本节课讲的是用这些线性模型来解决分类问题。

2017-12-09 01:15:15

台大-林轩田老师-机器学习基石学习笔记10

这一堂课是主要讲的是逻辑回归(LogisticRegression)。但是这个回归问题在问题的执行上更像是个分类问题,但是有和分类问题不一样。按照老师的观点:logisticregression是这样定义的我们从要解决的问题是:有一组病人的数据,我们需要根据下一位病人的病症来判断其是否患病。变成了:有一组病人的数据,我们需要预测他们在一段时间后患上心脏病的“可能性”,就是我们要考虑的问题

2017-11-30 17:36:20

CCF-训练50题-NO.30-蛇形矩阵

蛇形矩阵是由1开始的自然数依次排列成的一个矩阵上三角形。

2017-11-25 17:30:02

CCF-训练50题-NO.29-最少钱币数

问题描述这是一个古老而又经典的问题。用给定的几种钱币凑成某个钱数,一般而言有多种方式。例如:给定了6种钱币面值为2、5、10、20、50、100,用来凑15元,可以用5个2元、1个5元,或者3个5元,或者1个5元、1个10元,等等。显然,最少需要2个钱币才能凑成15元。你的任务就是,给定若干个互不相同的钱币面值,编程计算,最少需要多少个钱币才能凑够

2017-11-25 17:27:22

台大-林轩田老师-机器学习基石学习笔记9

引言故事回到之前我们第一讲当中的发信用卡的问题,如果不是发和不发的决策如果是,发多少的决策的时候,这个时候就不是二分类问题了。这是——线性回归问题

2017-11-21 14:18:39

成为一名推荐系统工程师永远都不晚

推荐系统产品形式的演进,背景是互联网从PC到移动的演进,PC上是搜索为王,移动下是推荐为王,自然越来越重要。随着各种可穿戴设备的丰富,越来越多的推荐产品还会涌现出来。产品和技术相互协同发展,未来会有更多有意思的推荐算法和产品形式问世,成为一名推荐系统工程师永远都不晚。LS

2017-11-20 21:00:35

深度学习与AI+思维简单课程思考5

本次的思考笔记也是这一系列的最后篇了~本次主要是简述当下较火的自动问答系统的基本结构和关键技术并且我会谈谈我认为的国家、社会和个人应该如何应对人工智能的快速发展和变化。

2017-11-20 16:48:10

台大-林轩田老师-机器学习基石学习笔记8

经过一周的期中考,再次更新啦!上一讲是主要引入了VC维这个机器学习中非常重要的概念。并梳理了以下这个结论:如果假设集的VC维有限大,数据足够大,且可以找到一个假设让,数据的Ein≈0,那么机器学习就是可行的。但是数据集当中会不会含有一些我们认为他是对的东西呢,就是NOISE了,这一讲重点在于此。引子什么是噪音?

2017-11-20 16:41:50

CCF-训练50题-NO.28-到底买不买

题目描述小红想买些珠子做一串自己喜欢的珠串。卖珠子的摊主有很多串五颜六色的珠串,但是不肯把任何一串拆散了卖。于是小红要你帮忙判断一下,某串珠子里是否包含了全部自己想要的珠子?如果是,那么告诉她有多少多余的珠子;如果不是,那么告诉她缺了多少珠子。为方便起见,我们用[0-9]、[a-z]、[A-Z]范围内的字符来表示颜色。例如在图1中,第3串是小红想做的珠串;那么第1串可以买,因为包含了全部她想

2017-11-17 00:11:17

CCF-训练50题-NO.27-挖掘机技术哪家强

为了用事实说明挖掘机技术到底哪家强,组织一场挖掘机技能大赛。现请你根据比赛结果统计出技术最强的那个学校。

2017-11-17 00:09:38

CCF-训练50题-NO.26-在霍格沃茨找零钱

如果你是哈利·波特迷,你会知道魔法世界有它自己的货币系统——就如海格告诉哈利的:“十七个银西可(Sickle)兑一个加隆(Galleon),二十九个纳特(Knut)兑一个西可,很容易。”现在,给定哈利应付的价钱P和他实付的钱A,你的任务是写一个程序来计算他应该被找的零钱。

2017-11-17 00:04:39

CCF-训练50题-NO.25-组个最小数

给定数字0-9各若干个。你可以以任意顺序排列这些数字,但必须全部使用。目标是使得最后得到的数尽可能小(注意0不能做首位)。例如:给定两个0,两个1,三个5,一个8,我们得到的最小的数就是10015558。现给定数字,请编写程序输出能够组成的最小的数。

2017-11-17 00:00:54

CCF-训练50题-NO.24-个位数统计

给定一个k位整数N=dk-1*10k-1+…+d1*101+d0(0<=di<=9,i=0,…,k-1,dk-1>0),请编写程序统计每种不同的个位数字出现的次数。例如:给定N=100311,则有2个0,3个1,和1个3。

2017-11-16 23:57:02
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!