自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

randy_01的博客

专注AI算法,原创博客

  • 博客(110)
  • 资源 (5)
  • 收藏
  • 关注

原创 谈谈分类超平面

https://zhuanlan.zhihu.com/p/80517380

2019-10-20 11:03:09 1327

原创 深度学习不是黑盒子

当下,深度学习技术之于深度学习可解释性,相当于历史上的蒸汽机之于热力学。瓦匠们发明蒸汽机后的几十年里,都没有理论解释产生,这个阶段是初级阶段,还不能真正带动社会变革。直到热力学诞生后,蒸汽机原理可解释了,然后被改进,产生了火车,轮船等,极大推动了社会进步。基础理论研究永远是社会进步的原动力。当下人工智能第三次复苏,相当于蒸汽机诞生后前几十年的初级阶段。说深度学习是黑盒子不可解释是因为没有诞生基础理...

2019-07-31 14:08:49 1580

原创 语义相似度(理论篇)

如果本文观点有不对的地方,欢迎指正! author:佟学强   nlp中语义理解一直是业内的难题。汉语不同于英语,同样一个意思,可以有很多种说法,比如你是谁的问题,就可以有如下几种:①你是谁?②你叫什么名字?③您贵姓?④介绍一下你自己 等等。这些句子在语义上是十分接近的,如果做一个智能音响,对音响说出上述任何一句,其结果不应该因为句子形式的不同而不同,也就是说训练出的模型不能对同义语句太敏感。在神...

2017-10-27 21:13:44 20782

原创 nlp研究方向的修正

nlp领域里,语义理解仍然是难题!  给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想。通常情况下,人在理解语义时头脑中会搜寻与之相关的知识。知识图谱的创始人人为,构成这个世界的是实体,而不是字符串,这从根本上改变了过去搜索的体系。语义理解其实是基于知识,概念和这些概念间的关系。人们在解答问题时,往往会讲述与这个问题相关的知识,这是语义理解的过程。这种机制完全...

2017-09-20 16:50:23 4220 1

原创 从数学角度探究梯度下降算法的本质

以数据驱动的AI,根本任务有两个:①建立系统的评价准则或者规则;②寻找最优的归纳偏置。找到最优的归纳偏置关键在于参数的优化算法。目前机器学习的参数优化算法集中在遗传算法,模拟退火,SGD等。1996年非常具有代表性的论文lasso在损失函数的多准则构建上做出了杰出贡献。这篇论文属于基础学科研究领域,对后来的AI理论发展起到了非常大的推进作用。在众多的AI公开课中,很少有从数学角度深入研究这个课题的...

2019-06-19 22:15:43 1146

原创 AI研究方法论与问题探讨

前言注意:本书适用于对矩阵论,凸优化,泛函数分析,统计学有良好的基础并且有一定AI实践的人,因为本书会大量引入数学,AI基础研究内容。目前,机器学习很火热...

2019-06-11 16:24:01 533

原创 凸优化思考之一:KKT条件的来源

2019-04-29 22:17:36 484

原创 凸优化中几个比较重要的推断

1.泛函数的几何意义2.共轭函数的几何意义3.凸函数的局部最优解就是全局最优解4.最优解的判断准则证明5.无约束二次规划解讨论6.分离超平面定理...

2019-03-19 15:58:35 497

原创 随笔一则

最近的思考 白岩松竟然没有微信,有追求的人果然不同。每天读书,思考,发呆,锻炼身体,聊天,听音乐都是有意义的事情。80后是改革开放进程中最悲壮的群体,这一代人因为经济问题被迫放下或者放弃目标,比如因为钱的问题转行做码...

2019-03-19 02:38:00 257 1

原创 特别说明

写在前面的话:超越算法使用阶段具备研究能力,需要经历蜕变和痛苦。把工作辞了专门花费2~3年时间钻研最底层的数学和Ai理论,既需要勇气和魄力,又需要有坐冷板凳的钻劲儿和超强的内在自我驱动力和聪明的大脑(高考分数高的人不一定聪明)。这是务实+有魄力的表现,踏踏实实从0开始。这一切的前提都离不开经济独立和自由。世俗的标准和眼光只适用于有学历没能力镀金的人,不适合本人。一个聪明有能力有想法的人一定是可上可...

2019-01-30 12:54:24 344 1

原创 探寻《矩阵论》与AI的结合(二)

总述:https://blog.csdn.net/randy_01/article/details/80616681 这篇博客主要论述了矩阵理论的一般性,接下来将进一步深入探讨特殊矩阵以及应用。国外翻译版的《矩阵论》主要教会从业人员一种研究矩阵的方法论。纵观整个篇幅基本可以发现,研究矩阵的方法不外乎以下几种:①feature value decomposition②矩阵相似性~的研究③矩阵分块理论...

2019-01-23 22:26:46 2894 1

原创 语义理解最新看法

       给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想。对于一篇有思想的文章,作者的创作构思以及核心思想,我们人脑基本的处理逻辑都是结合过去学习过的规则和概念进行抽象总结。作者的创作过程可以形成一个图模型,清晰地展示出路径。目前的nlp根本达不到,都是浅层次的操作,因为目前的nlp基本上借鉴了图像处理机制,根本没有触及nlp的本质。nlp的进展将会十分艰难...

2019-01-08 13:54:42 1408

原创 语义理解的看法

       给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想。对于一篇有思想的文章,作者的创作构思以及核心思想,我们人脑基本的处理逻辑都是结合过去学习过的规则和概念进行抽象总结。作者的创作过程可以形成一个图模型,清晰地展示出路径。目前的nlp根本达不到,都是浅层次的操作,因为目前的nlp基本上借鉴了图像处理机制,根本没有触及nlp的本质。nlp的进展将会十分艰难...

2019-01-08 13:53:46 4615

原创 统计学笔记(二)

前言:本篇博客包括了随机变量和图模型推理之间的所有内容。学好《统计学》需要《微积分》,《线性代数》,《矩阵论》和《实变函数与泛函数分析》作为基础,另外再增加《凸优化》。如果只是应用的话,这些知识吸收60%就足够了,但是要搞研究的话,不仅要吸收80%以上,另外还要研究《神经生物学从神经元到大脑》和物理学,从中吸收灵感,为研究下一代AI打下好的基础,用几何问题解决代数问题是不可避免的。下一代AI的突破...

2018-11-29 16:08:38 2032

原创 统计学笔记(一)

写在前面的话:《统计学完全教程》囊括了统计学的全部知识,共22章,由美国著名的学者沃塞曼所著。在nlp领域里统计学占据主导地位,没有了统计学,深度学习将无法构建损失函数,无法实现图模型的推理。推理算法主要依靠统计学,包括以拉普拉斯矩阵为基础的无向图卷积算子,上个世纪的PageRank算法,随机游走模型……当今的AI主要以从海量数据中寻找规律的方式来实现弱人工智能,包括特征的抽取(比如图卷积算子...

2018-11-25 18:10:19 4325 1

原创 DNN的BP算法Python简单实现(2017)

BP算法是神经网络的基础,也是最重要的部分。由于误差反向传播的过程中,可能会出现梯度消失或者爆炸,所以需要调整损失函数。在LSTM中,通过sigmoid来实现三个门来解决记忆问题,用tensorflow实现的过程中,需要进行梯度修剪操作,以防止梯度爆炸。RNN的BPTT算法同样存在着这样的问题,所以步数超过5步以后,记忆效果大大下降。LSTM的效果能够支持到30多步数,太长了也不行。如果要求更长的...

2018-10-23 19:42:43 1303

原创 《凸优化》学习笔记(一)

凸优化在数学优化中有着重要且特殊的身份。数学优化是一个广泛的话题,理解凸优化之前,请先理解线性优化。在机器学习算法中,已知的比如LogisticRegression,SVM,都与数学优化有关,在数学中,不存在无约束优化问题。比较常见的构建损失函数方法,从最简单的两个向量的二阶范数的平方(KNN,Kmeans)到linearRegression、LogisticRegression的最小二乘模型,再...

2018-10-23 19:35:49 1163

原创 中文分词的逆向最大匹配算法(2016年)

逆向最大匹配算法,中文分词机械化分词中最基本的算法,也是入门级别的算法。但是,在机械化分词方面的效果,表现却很好。尤其是在大文本的时候,一次取较多词语进行匹配,因为大文本匹配成词的概率远远高于小文本,所以会有很好的表现。下面的代码,来自IK分词的一部分源码包,2016年本人进行了逆向最大匹配算法的改造,闲着没事干,算是入门级别的分词。package org.wltea.analyzer.co...

2018-10-23 19:32:55 949

原创 平衡的三叉树

2016年3月份,写了一个平衡的三叉树算法包,还写了一个基于逆向最大匹配算法的中文分词算法包。现在,将平衡的三叉树算法包上传。首先看一下包结构: 1.chinese.utility.cfg代码:package chinese.utility.cfg;/** * 获得主词典、量词词典以及扩展词典和扩展停词词典的路径 * @author TongXueQiang * @date...

2018-10-23 19:24:24 1088

原创 搜索算法之两个数组取交集的算法(2017年博客园)

在垂直搜索中,有很多方法可以控制返回结果的数量。比如用户输入"上海世博会",要求只显示跟上海世博会相关的内容。有三种方法可以参考:①BooleanQuery,AND逻辑②phraseQuery,精读最高,只出现"上海世博会"连续的短语的文档③solr的模糊匹配查询。如果采用第一种方案,在垂直搜索中(比如Lucene),如果用户的查询向量(经由queryParser处理,调用中文分词,并且形成查询语...

2018-10-23 19:12:29 2904

原创 实变函数与泛函数分析笔记(一):Lebesgue积分

导语:内积空间中的内积可以定义范数,反之,范数不一定非要内积来定义,所以说赋范线性空间是比内积空间更广泛的概念。距离可以用范数定义,反之,只有距离满足平移不变和齐次性才能定义一个范数,因此度量空间比赋范线性空间广泛。Banach空间是完备的赋范线性空间。Hilbert空间是完备的内积空间。所以Hilbert空间是Banach空间的特例,Banach空间是完备距离空间的特例。在数学里,尤其是在泛函分...

2018-10-21 17:38:40 4252

原创 导数与黎曼积分

黎曼积分是逐项可积的,对于逐项不可积的函数黎曼积分无能为力,需要Lebsgue积分。本篇先从最基本的导数开始,然后到微分,最后到黎曼积分,下一篇讲述Lebsgue积分和实变函数的积分,后面再讲度量空间,泛函数与线性算子,最后到希尔伯特空间的几何算子。另外还增加《凸优化》的部分。本篇文章重点关注的是数学思想,而不是现有结论的重复论述。数学证明最能反映一个人的数学思维,而不是解题。当年牛顿被苹果砸...

2018-10-21 17:19:07 3288 1

原创 傅立叶变换最详细的解读

谈到傅立叶变换,必然离不开基本的无穷级数。无穷级数是高等数学的一个重要组成部分,它是表示函数,研究函数性质的以及进行数值计算的一种工具,本文先讨论常数项级数,接着讨论函数的幂级数,然后讨论函数的三角幂级数分解,最后到傅立叶级数然后到傅立叶变换。在介绍傅立叶变换时,会结合数学和物理,自然常识,尽量做到深入浅出。本文将按照以下篇幅进行论述:一、常数项级数以及幂级数二、函数的幂级数展开三...

2018-10-20 21:55:08 35708 4

原创 nlp研究的三个层次

写在前面的话:《凸优化》理论集成了矩阵论+泛函数分析,这门学科学好了可以使AI理论上升好几个层次。基础理论精进后就可以与物理学,计算机学以及神经生物学等学科结合搞AI基础研究---从0到1的研究,比如上个世纪的lasso成果。目前的AI基础研究切入点在突破现有深度学习的瓶颈,即如何突破深度学习对海量数据过度依赖的笨重式的感知智能,推动认知智能的前进,去年的谱卷积算子,拉普拉斯矩阵的特征值分解,图模...

2018-10-19 20:11:57 2542

原创 佟式笑话两则

                                                                              一、码农求职记前记:说有这么一个人呐,寒窗苦读数年,终于学有所成了。去年求职AI研究员,辗转多家公司,每谈及加班问题,必抵触之,又以公司不搞基础研究为由拒绝之。余有敢于厮,故编写一段子以记录其辛酸历程。正文:第一次面试官:结...

2018-09-26 20:27:58 210

原创 实变函数与泛函数分析学习笔记(三):有界线性算子

导语:现代数学入门的钥匙就是实变函数与泛函数分析。数学,物理学,计算机学科,神经生物学相互交叉构成了AI的基础。深入研究AI,尤其是神经规则推理以及下一代AI技术,必须修炼好内功。非数学专业的学生,可能学过傅立叶变换,方向导数与梯度这些。但是对这些概念的理解还需要继续深入,除了泛函数分析,与此相关的还有凸优化,矩阵论,这些都是必修的内功。关于数据结构,要达到能够独立设计优秀的数据结构的程度,不仅限...

2018-09-26 12:24:47 7472

原创 实变函数与泛函数分析学习笔记(二):赋范线性空间

导语:现代数学入门的钥匙就是实变函数与泛函数分析。数学,物理学,计算机学科,神经生物学相互交叉构成了AI的基础。深入研究AI,尤其是神经规则推理以及下一代AI技术,必须修炼好内功。非数学专业的学生,可能学过傅立叶变换,方向导数与梯度这些。但是对这些概念的理解还需要继续深入,除了泛函数分析,与此相关的还有凸优化,矩阵论,这些都是必修的内功。关于数据结构,要达到能够独立设计优秀的数据结构的程度,不仅限...

2018-09-26 12:08:06 3159

原创 对当下AI的一些思考

中美的博弈没有一批像华为这样的企业是绝对不行滴,一个远远不够。明年将集中全部精力搞神经规则推理以及下一代AI的研究,今年算是过渡期,任务艰巨。过渡期一定要打好基础,实变函数与泛函数分析对于数学专业来讲只是入门的数学,但是计算机专业的学生很多都没有研究。目前大学本科的计算机专业在专业设置上存在问题,具体问题就不多讲了。数学,神经生物学,物理学,计算机学科相互交叉构成了AI的基础。目前国内大部分的私企...

2018-09-25 12:12:19 677 1

原创 史上对BM25模型最全面最深刻的解读以及lucene排序深入讲解(2017年博客)

https://www.cnblogs.com/txq157/p/6420372.html

2018-09-25 10:59:55 1236

原创 kmeans算法的改进(2016年本人的博客)

https://www.cnblogs.com/txq157/p/6067098.html

2018-09-25 10:49:49 795

原创 优先级队列的设计(2016年的博客)

 前年写了一篇关于"史上对BM25模型最全面最深刻解读以及lucene排序深入解读"的博客,lucene最后排序用到的思想是"从海量数据中寻找topK"的时间空间最优算法。在特定的场合,比如solr自带的搜索智能提示公能,当构建完三叉树,前缀匹配查找出所有的节点之后,也要用这种思想进行排序。根据这个思想构造出一个优先级队列,具有容量限制(K),精确的时间复杂度为KlgK+(n-k)lgK,最坏的时...

2018-09-25 10:46:06 751

原创 码农加班者说

                                                                        码农加班者说                                                                             佟学强前记:       学强者,河北人仕也。自幼苦读诗书,人皆言聪慧。奈何年...

2018-09-14 16:35:56 383

原创 内积和范数的推导

2018-08-16 16:15:35 6374

原创 2018年nlp重大进展:关系推理,从图结构入手

author:佟学强abstract文章的标题想了很久,有点儿勉强了,因为让机器实现逻辑推理还差得远。在Ai领域里,目前统计学派和联结主义学派比较盛行,但是类脑学科还没突破,所以当下的Ai都是弱Ai。目前取得突破的基本都是在视觉和语音领域,nlp的进展非常缓慢。众所周知的人类两种智能归纳总结和演绎推理,联结主义只是解决了归纳总结问题,而在nlp中联结主义集中表现在文字高阶特征的抽取上,比如...

2018-08-16 16:13:06 3323 2

原创 养鸡场下蛋记

养鸡场下蛋记 author:佟学强V:txq130有一养鸡场,鸡每天都下蛋,蛋全都一样的。有一天厂长发现,西方的蛋好像比他的蛋个头大,而且营养还好,数量也多。厂长心急,于是开始扩充养鸡场规模,孵化更多的鸡出来。厂长对众鸡说,你们以后必须更加努力,而且要转变思路,我们的蛋,第一,数量不能比他们少太多,最起码要实现全国的老百姓每天都有蛋吃;第二,...

2018-08-16 10:48:00 316

原创 拉普拉斯矩阵

拉普拉斯矩阵 posted @ 2018-07-13 15:56 佟学强 阅读(...) 评论(...) 编辑 收藏

2018-07-13 15:56:00 296

原创 原创:涛声依旧

    前记:吴军老师写过《数学之美》这本书,用艺术的形式讲述了统计学,让文科生都能看得懂。能把深刻的道理用艺术的形式讲出来,已经很了不起了。这个世界上无所谓肤浅与深刻,没有肤浅就不会衬托出你的深刻。真正的高手从来不避讳肤浅。目前nlp这么火热,它本身就是一门艺术。人类自从诞生起,就具备了学习能力,记忆能力以及语义联想能力。人和机器相比,在语义理解上一个显著的特征是具备更加丰富和灵活的联想...

2018-06-10 18:11:53 736

原创 涛声依旧

涛声依旧 前记:吴军老师写过《数学之美》这本书,用艺术的形式讲述了统计学,让文科生都能看得懂。能把深刻的道理用艺术的形式讲出来,已经很了不起了。这个世界上无所谓肤浅与深刻,没有肤浅就不会衬托出你的深刻。真正的高手从来不避讳肤浅。目前nlp这么火热,它本身就是一门艺术。人类自从诞生起,就具备了学习能力,记忆能力以及语义...

2018-06-10 18:09:00 508

原创 转载:cnn学习之卷积或者池化后输出的map的size计算

转载:cnn学习之卷积或者池化后输出的map的size计算 相信各位在学习cnn的时候,常常对于卷积或者池化后所得map的的大小具体是多少,不知道怎么算。尤其涉及到边界的时候。首先需要了解对于一个输入的input_height*input_widtht的图像,在卷积或者池化的时候,经常需要加padding,这是为了处理边界问题时而采用的一种方...

2018-05-09 14:25:00 135

原创 语义相似度(实践篇)

语义相似度(实践篇) 这篇文章,专门讲语义相似度问题。先看场景:scene(一):用户通过大众点评,线上约了餐馆,就餐后在上面发表了很多评论,评论中涉及了大量的餐馆的问题,比如菜品质量,酒店卫生,服务等等。现在需要抽取之中的要点,然后反馈给商家。scene(二):KB_QA的两个问题:①获取question的语义表示②把语义表示转换成知识图谱...

2018-05-01 12:10:00 282

数据库sql入门基础

21天入门sql语句,简单易学,适合初学者,mysql操作,0基础

2019-02-26

self_attention技术

深度学习在nlp中主要用于捕捉语义表示,语义表示存在语义丢失问题,丰富语义表达是深度学习最重要的一个研究方向

2019-02-26

对话状态跟踪

对话状态跟踪是slot对话非常重要的环节,本篇文章详细阐述了概念,最新的研究成果

2019-02-26

slot对话上下文建模

上下文建模是slot对话绕不过的技术门槛儿,本篇论文是国外18年最新的研究成果,值得精读。

2019-02-26

基于模板匹配的问答

KB_QA实现的方式有很多,如何有效地利用知识图谱,并且提升问答精读,模板匹配是不错的方案,除此之外,向量建模,语义解析,信息抽取都是可选的方案。

2018-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除