• 等级
  • 220969 访问
  • 299 原创
  • 66 转发
  • 8667 排名
  • 38 评论
  • 61 获赞

详解机器学习中的熵、条件熵、相对熵和交叉熵

1、信息熵(informationentropy)熵(entropy)这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵(Shannonentropy),信息熵(informationentropy)。本文只讨论信息熵。首先,我们先来理解一下信息这个概念。信息是一个很抽象的概念,百度百科将它定义为:指音讯、消息、通讯系统...

2019-04-15 18:52:13

中文自然语言处理——商品评论情感判别

1、数据集下载商品(书籍、酒店、计算机、牛奶、手机、热水器)等评论数据fromsklearn.model_selectionimporttrain_test_splitfromgensim.models.word2vecimportWord2Vecimportnumpyasnpimportpandasaspdimportjiebafromsklearn.e...

2019-03-20 21:07:59

自然语言处理(NLP)学习路线总结

目录自然语言处理概述自然语言处理入门基础自然语言处理的主要技术范畴自然语言处理基本点特征处理模型选择NLP常用工具NLP语言模型快速入门NLP方法自然语言处理学习资料1、自然语言处理概述自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间...

2019-03-20 21:01:53

Git fetch & pull 解析

简单概括用一张图来理一下gitfetch和gitpull的概念:可以简单的概括为:gitfetch是将远程主机的最新内容拉到本地,用户在检查了以后决定是否合并到工作本机分支中。而gitpull 则是将远程主机的最新内容拉下来后直接合并,即:gitpull=gitfetch+gitmerge,这样可能会产生冲突,需要手动解决。下面我们来详细了解一下git...

2019-02-27 09:50:38

文本相似度(tf-idf 和 bm25的算法讲解)

1.关于tf-idf:(使用tf-idf和向量空间模型)TF:文档j中的关键词i的归一化词频值描述某一词在一篇文档中出现的频繁程度。(为了阻止更长的文档得到更高的相关度权值,必须进行文档长度的某种归一化) TF=freq(i,j)/maxOthers(i,j)   ###(maxxOthers=max(freq(z,j)) IDF:逆文档频率。...

2019-02-01 15:54:02

万字总结:学习MySQL优化原理,这一篇就够了!

http://dbaplus.cn/news-155-1531-1.html

2019-01-22 15:47:06

单、强壮的情感、主题分类工具——NB-SVM

这篇笔记要记录的算法是NB-SVM,NB是NaiveBayes,即把NB和SVM结合为一个算法来使用。 Kaggle前面结束了一场ToxicCommentsTagging(https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge),因为我啥都不会嘛,所以只能等比赛结束跟着Kernal...

2019-01-21 20:53:11

机器学习大牛最常用的5个回归损失函数,你知道几个?

 转载:https://www.jiqizhixin.com/articles/2018-06-21-3“损失函数”是机器学习优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么?这些可都是机器学习大牛最常用的回归损失函数哦!机器学习中所有的算法都需要最大化或最小化一个函数,这个函数被称为...

2019-01-21 00:12:13

BERT大火却不懂Transformer?读这一篇就够了

编者按:前一段时间谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的...

2019-01-14 23:55:17

NLP中语言模型预训练方法

最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。就此,我将最近看的一些相关论文进行总结,选取了几个代表性模型(包括ELMo[1],OpenAIGPT[2]和BERT[3])和大家一起学习分享。1. 引言在介绍论文之前,我将先简单介绍一些相关背景知识。首先是语言模型(LanguageModel),语言模型简单来...

2019-01-13 23:33:35

NLP中关于文本分类问题的常用方案

NLP通常包括两个关键问题:1.选择什么样的语言模型?2.选择什么样的分类算法?第二个问题是机器学习领域的标准问题,各种针对不同数据类型、数据分布的算法和技巧,这里不再赘述。而在NLP当中,语言模型更加重要一些。不同语言模型的区别,也就是对文本提取特征的不同。常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单...

2019-01-13 23:30:33

梯度下降优化算法概述

   最近学习cs231n的课程,其中到梯度下降这一块时发现好几种方法,都不太懂。故学习下这篇博文。同时,翻译出来,供大家学习参考。   Feelfreetocontactmeorleaveacomment.   错误与不足之处,望各位读者指正。梯度下降优化算法概述  梯度下降是优化过程中最流行的方法之一并且并广泛运用在优化神经网络的过程中,同时,每一个state...

2019-01-13 01:02:26

机器学习期望最大算法:实例解析

 交流思想,注重分析,更注重通过实例让您通俗易懂。包含但不限于:经典算法,机器学习,深度学习,LeetCode题解,Kaggle实战。期待您的到来!01—回顾已经分析了朴素贝叶斯分类,拉普拉斯修正,半朴素贝叶斯分类器,在这些理论阐述中,都带有详细的例子解释,通过例子理解相关的理论是一种快速消化公式和理论比较不错的方法。接下来,介绍一种非常经典的求解隐变量的算法,这也是一...

2019-01-07 00:04:02

并查集(Union-Find)算法介绍

并查集(Union-Find)算法介绍http://blog.csdn.net/dm_vincent/article/details/7655764  本文主要介绍解决动态连通性一类问题的一种算法,使用到了一种叫做并查集的数据结构,称为Union-Find。更多的信息可以参考Algorithms 一书的Section1.5,实际上本文也就是基于它的一篇读后感吧。原文中更多的是给出一些结论...

2019-01-06 23:17:01

一些重要的算法------启发式搜索,束搜索(beam search),二分查找算法 and so on............

一些重要的算法------启发式搜索,束搜索(beamsearch),二分查找算法andsoon............下面是一些比较重要的算法,原文罗列了32个,但我觉得有很多是数论里的,和计算机的不相干,所以没有选取。下面的这些,有的我们经常在用,有的基本不用。有的很常见,有的很偏。不过了解一下也是好事。也欢迎你留下你觉得有意义的算法。(注:本篇文章并非翻译,其中的算法描述大部份摘...

2019-01-06 22:58:53

束搜索算法(Andrew Jungwirth 初稿)BEAM Search

最近搜了几篇BEAMSEARCH束搜索的文章,这篇最直白易懂,并有示例的详细步骤图解,比维基百科的更为合适,因此拿在这里,供参考。原文链接:BeamSearchAlgorithm(DraftbyAndrewJungwirth)束搜索算法本文目标:1.演示了如何在存储有限的情况下进行类似的宽度优先的图搜索算法,即束搜索,使用启发式函数和限定的束宽度beamwidt...

2019-01-06 22:55:43

Python并发编程之初识异步IO框架:asyncio 上篇(九)

大家好,并发编程 进入第九篇。通过前两节的铺垫(关于协程的使用),今天我们终于可以来介绍我们整个系列的重点-- asyncio。asyncio是Python3.4版本引入的标准库,直接内置了对异步IO的支持。有些同学,可能很疑惑,既然有了以生成器为基础的协程,我们直接使用yield 和 yieldfrom 不就可以手动实现对IO的调度了吗?为何Python吃饱了没事干,老重复造...

2019-01-04 12:16:02

Python并发编程之学习异步IO框架:asyncio 中篇(十)

大家好,并发编程 进入第十章。好了,今天的内容其实还挺多的,我准备了三天,到今天才整理完毕。希望大家看完,有所收获的,能给小明一个赞。这就是对小明最大的鼓励了。为了更好地衔接这一节,我们先来回顾一下上一节的内容。上一节「」,我们首先介绍了,如何创建一个协程对象.主要有两种方法通过async关键字, 通过@asyncio.coroutine 装饰函数。然后有了协程对象,就需要一个事...

2019-01-04 12:15:55

盘点 Python 中的那些冷知识(一)

小明在日常Code中遇到一些好玩,冷门的事情,通常都会记录下来。现在已经积攒了一些了,最近打算整理一波,发出来给大家补补。一篇只分享五个,有时间了就整理。不想错过的,千万记得关注一下。1.省略号也是对象... 这是省略号,在Python中,一切皆对象。它也不例外。在Python中,它叫做Ellipsis。在Python3中你可以直接写…来得到这玩意。&gt...

2019-01-03 15:01:10

Python并发编程之消息队列补充及如何创建线程池(六)

大家好,并发编程 进入第六篇。在第四章,讲消息通信时,我们学到了Queue消息队列的一些基本使用。昨天我在准备如何创建线程池这一章节的时候,发现对Queue消息队列的讲解有一些遗漏的知识点,而这些知识点,也并不是无关紧要的,所以在今天的章节里,我要先对Queue先做一些补充以防大家对消息队列有一些知识盲区。再次提醒:本系列所有的代码均在Python3下编写,也建议大家尽快投入到Pyth...

2019-01-03 14:56:14

Terry_dong

关注
  • 计算机软件/学生
  • 中国 广西 南宁市
奖章
  • 持之以恒