1 deephub

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 2k+

十分钟了解Transformers的基本概念

RNN已死,注意力万岁?多年来,我们一直在使用RNN,LSTM和GRU解决顺序问题,您突然希望我们将其全部丢弃吗? 嗯,是!! 所有这三种架构的最大问题是它们进行顺序处理。 而且它们也不擅长处理长期依赖关系(即使使用LSTM和GRU的网络)。 Transformers 提供了一种可并行处理顺序数据的方式,因此,它不仅比以前的体系结构快得多,而且在处理长期依赖性方面也非常出色。那么什么是 Transformers?这看起来很恐怖,不是吗? 如果我告诉您所有这些都可以归结为一个公式,是不是就简单一些了

2020-10-20 08:46:27

Analysis of US Elections from 1976 to 2010 with Pandas

使用pandas分析1976年至2010年的美国大选我最近在Kaggle上看到了美国大选的数据集。既然我们正在热烈讨论2020年的大选,我想分析一下之前的美国总统大选是个好主意。数据集包含了从1976年到2020年的选举。我会从不同的角度来处理这些数据,试图了解人们是如何投票的。我将使用pandas库进行数据分析和可视化,因此这也是使用pandas的函数和方法的良好实践。让我们从导入库并将数据集读入一个Pandas dataframe开始。import numpy as npimport pa

2020-10-19 09:02:08

基于神经网络的风格迁移目标损失解析

今天我想谈谈神经类型的转移和卷积神经网络。已有相当多的文章和教程可供使用。有时内容只是复制,有些则提供了一种新颖的实现。它们的共同之处在于对细节的快速钻研。在我看来太具体了。不仅如此,通常还有一些实现细节,这使得将重点放在整体的主要概念上变得更加困难。这篇文章可以看作是对其他文章的概述和理解,以便在更高的层次上理解这个概念。我的意图是去掉一些实现细节,使其足够高,足以满足初学者的需要,并激发他们阅读原始研究论文和后续实现的好奇心。基于神经网络的风格迁移这个方法来自于论文《A Neural Algor.

2020-10-18 09:45:32

理解强化学习

强化学习指的是专注于学习如何与环境交互的算法的机器学习。这种算法的一个例子叫做Q-learning。尽管它更接近于蛮力方法,Q-learning可能是最流行的强化学习方法。在我们开始学习Q-learning之前,让我们先讨论一下为什么我们不使用非监督或监督学习方法。在一个监督学习方法中,你给算法数行数据,每一行都有一个答案,算法会尝试去适应它。这相当于给算法提供狗和猫的图片,每当我们的算法对一张照片给出错误的答案时,告诉它调整自己,以便下次看到类似的观察结果时,它更接近正确的结果。然后,我们希望,在拥有

2020-10-17 09:05:59

梯度直方图(HOG)用于图像多分类和图像推荐

介绍​ 机器学习的神奇之处在于,我们对原理的概念和思路理解得越多,它就变得越容易。在本文中,我们将研究在图像分类和图像推荐中使用定向梯度直方图的方法。数据集来源:Kaggle Fashion图像分类数据集(Small)https://www.kaggle.com/paramaggarwal/fashion-product-images-small​ 数据集有主类别、子类别、性别、季节和每个图像的标签。目的是将数据集用于图像分类和推荐。让我们先看看数据分布!每个列的惟一值。对于每个性别,m

2020-10-16 08:29:42

对比PyTorch和TensorFlow的自动差异和动态子类化模型

使用自定义模型类从头开始训练线性回归,比较PyTorch 1.x和TensorFlow 2.x之间的自动差异和动态模型子类化方法,这篇简短的文章重点介绍如何在PyTorch 1.x和TensorFlow 2.x中分别使用带有模块/模型API的动态子类化模型,以及这些框架在训练循环中如何使用AutoDiff获得损失的梯度并从头开始实现 一个非常幼稚的渐变后代实现。生成噪声的线性数据为了专注于自动差异/自动渐变功能的核心,我们将使用最简单的模型,即线性回归模型,然后我们将首先使用numpy生成一些线性数

2020-10-15 09:24:11

使用CatBoost和NODE建模表格数据对比测试

来自俄罗斯在线搜索公司Yandex的CatBoost快速且易于使用,但同一家公司的研究人员最近发布了一种基于神经网络的新软件包NODE,声称其性能优于CatBoost和所有其他梯度增强方法。 这是真的吗? 让我们找出如何同时使用CatBoost和NODE!该文章适用于谁?尽管我是为那些对机器学习特别是表格数据感兴趣的人写这篇博客的,但是如果您熟悉Python和scikit-learn库,并且希望跟随代码一起学习,对您很有帮助。 否则,希望您会发现理论和概念方面都很有趣!CatBoost简介CatBo

2020-10-14 09:10:33

Google的神经网络表格处理模型TabNet介绍

Google Research的TabNet于2019年发布,在预印稿中被宣称优于表格数据的现有方法。 它是如何工作的,又如何可以尝试呢?表格数据可能构成当今大多数业务数据。 考虑诸如零售交易,点击流数据,工厂中的温度和压力传感器,银行使用的KYC (Know Your Customer) 信息或制药公司使用的模型生物的基因表达数据之类的事情。论文称为TabNet: Attentive Interpretable Tabular Learning(https://arxiv.org/pdf/1908.

2020-10-13 08:58:12

QRNN A Potential Competitor to the Transformer

Transformer的潜在竞争对手QRNN论文解读,训练更快的RNN使用递归神经网络(RNN)序列建模业务已有很长时间了。 但是RNN很慢因为他们一次处理一个令牌无法并行化处理。 此外,循环体系结构增加了完整序列的固定长度编码向量的限制。 为了克服这些问题,诸如CNN-LSTM,Transformer,QRNNs之类的架构蓬勃发展。在本文中,我们将讨论论文“拟递归神经网络”(https://arxiv.org/abs/1611.01576)中提出的QRNN模型。 从本质上讲,这是一种将卷积添加到递归和

2020-10-12 09:20:50

在图上发送消息的神经网络MPNN简介和代码实现

欢迎来到图神经网络的世界,在这里我们在图上构建深度学习模型。你可以认为这很简单。毕竟,我们难道不能重用使用正常数据的模型吗?其实不是。在图中所有的数据点(节点)是相互连接的。这意味着数据不再是独立的,这使得大多数标准的机器学习模型毫无用处,因为它们的推导都强烈地基于这个假设。为了克服这个问题,可以从图中提取数字数据,或者使用直接对这类数据进行操作的模型。创建直接在图上工作的模型更为理想,因为我们可以获得更多关于图的结构和属性的信息。在本文中,我们将研究一种专门为此类数据设计的架构,即消息传递神经网络(

2020-10-11 09:40:47

使用CatBoost进行不确定度估算:模型为何不确定以及如何估计不确定性水平

本教程涵盖以下主题:什么是预测不确定性,为什么您要关心它?不确定性的两个来源是什么?如何使用CatBoost梯度提升库估算回归问题的不确定性什么是不确定性?机器学习已广泛应用于一系列任务。但是,在某些高风险应用中,例如自动驾驶,医疗诊断和财务预测,错误可能导致致命的后果或重大的财务损失。在这些应用中,重要的是要检测系统何时犯错并采取更安全的措施。此外,还希望收集这些“故障场景”,对其进行标记,并教系统通过主动学习做出正确的预测。预测不确定性估计可用于检测错误。理想情况下,该模型在可能会出错.

2020-10-10 08:37:10

如何在算法比赛中获得出色的表现 :改善模型的5个重要技巧

如果你最近才开始使用Kaggle,或者你是这个平台的老用户,你可能想知道如何轻松地提高你的模型的性能。以下是我在Kaggle之旅中积累的一些实用技巧。建立自己的模型或只是从一个基线公共内核,并尝试实施这些建议!回顾过去的比赛虽然Kaggle的政策是永远不会出现两次相同的比赛,但经常会有非常相似的问题的重新制作。例如,一些举办方每年都会针对同一主题提出定期的挑战(NFL’s Big Data Bowl ),只有很小的变化,或者在某些领域(比如医学成像)会有很多比赛,目标不同,但思路非常相似。因此,回顾

2020-10-09 08:35:57

孪生网络:使用双头神经网络进行元学习

深度神经网络有一个大问题-他们一直渴望数据。 当数据太少时(无法到达算法可以接受的数量)深度神经网络很难推广。 这种现象突出了人类和机器认知之间的差距。 人们可以通过很少的训练示例来学习复杂的模式(尽管速度较慢)。需要像我们这样思考的机器自我监督学习的研究正在发展,以开发完全不需要标签的结构(在训练数据本身中巧妙地找到标签),但其用例却受到限制。半监督学习是另一个快速发展的领域,它利用通过无监督培训学到的潜在变量来提高监督学习的性能。这是一个重要的概念,但其范围仅限于无监督与受监督数据比率相对较大且

2020-10-08 09:06:17

如何在图数据库中训练图卷积网络模型

在图数据库中训练GCN模型,可以利用图数据库的分布式计算框架现实应用中大型图的可扩展解决方案什么是图卷积网络?典型的前馈神经网络将每个数据点的特征作为输入并输出预测。利用训练数据集中每个数据点的特征和标签来训练神经网络。这种框架已被证明在多种应用中非常有效,例如面部识别,手写识别,对象检测,在这些应用中数据点之间不存在明确的关系。但是,在某些使用情况下,当v(i)与v(i)之间的关系不仅仅可以由数据点v(i)的特征确定,还可以由其他数据点v(j)的特征确定。 j)给出。例如,期刊论文的主题(例如计算机科

2020-10-07 10:07:56

单变量和多变量高斯分布:可视化理解

详细介绍高斯分布及其与均值、标准差、方差的关系​ 高斯分布是统计中最重要的概率分布,在机器学习中也很重要。因为很多自然现象,比如人口的身高,血压,鞋子的尺码,教育指标,考试成绩,还有很多更重要的自然因素都遵循高斯分布。​ 我相信,你听说过这个词,在某种程度上也知道它。如果没有,也不要担心。这篇文章将会解释清楚。我在Coursera的Andrew Ng教授的机器学习课程中发现了一些令人惊叹的视觉效果。他知道如何将一个主题分解成小块,使它更容易解释。​ 他使用了一些可视化方法,让人们很容易理解高斯

2020-10-06 08:11:15

14个Seaborn数据可视化图

调查数据并从中提取信息和趋势的工具。绿色代表新的开始和成长,也意味着更新和丰富。​ 数据可视化在数据挖掘中起着非常重要的作用。各种数据科学家花费了他们的时间通过可视化来探索数据。为了加快这一进程,我们需要有合适的工具。​ 没有规划的情况下,资源也无法转化为有价值的商品。因此,我希望本文能够为您提供关于所有可视化方法的架构。目录简介了解你的数据分布曲线a. 直方图b. 联合图c. 配对图d. Rug图分布图a. 条形图b. 统计图c. 箱型图d. Viol

2020-10-05 08:02:37

Actor-Critic:强化学习中的参与者-评价者算法简介

Actor-Critic从名字上看包括两部分,参与者(Actor)和评价者(Critic)。其中Actor使用策略函数,负责生成动作(Action)并和环境交互。而Critic使用我们之前讲到了的价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作。基于策略和基于价值的RL算法在基于策略的RL中,最优策略是通过直接操纵策略来计算的,而基于价值的函数通过找到最优值函数来隐式地找到最优策略。 基于策略的RL在高维和随机的连续动作空间以及学习随机策略方面非常有效。 同时,基于价值的RL在样品效.

2020-10-04 09:58:25

Pandas的列表值处理技巧,避免过多循环加快处理速度

这里有一些技巧可以避免过多的循环,从而获得更好的结果图1 -标题图像。​ 您曾经处理过需要使用列表的数据集吗?如果有,你就会明白这有多痛苦。如果没有,你最好做好准备。​ 如果你仔细看,你会发现列表无处不在!下面是一些实际问题,您可能会遇到列表。音频或视频标签调查数据中的开放式问题参与创作作品的所有作者、艺术家、制作人等的名单图2 -一个有趣的猫有关的视频的标签列表。​ 我最近参与了多个项目,这些项目要求我分析这类数据。在经历了几个小时的痛苦摸索之后,我意识到必须在这里分享我的知

2020-10-03 09:25:13

使用图进行特征提取:最有用的图特征机器学习模型介绍

​ 从图中提取特征与从正常数据中提取特征完全不同。图中的每个节点都是相互连接的,这是我们不能忽视的重要信息。幸运的是,许多适合于图的特征提取方法已经创建,这些技术可以分为节点级、图级和邻域重叠级。在本文中,我们将研究最常见的图特征提取方法及其属性。​ 注意:我的文章结构类似于William L. Hamilton[1]所写的图形学习书籍。节点级别的特征​ 从图中获取信息的最简单方法之一是为每个节点创建单独的特性。这些特征可以利用迭代方法从一个较近的邻域和一个较远的K-hop邻域捕获信息。让我们.

2020-10-02 09:42:34

使用GANs生成时间序列数据:DoppelGANger论文详解

序列数据(具有时间依赖性的数据)在业务中非常常见,从信用卡交易到医疗保健记录再到股票市场价格。 但是,隐私法规限制并极大地减慢了对研发至关重要的有用数据的访问。 这就产生了对具有高度代表性但又完全私有的合成顺序数据的需求,这至少可以说是具有挑战性的。生成合成时间序列和顺序数据要比表格数据更具挑战性,在表格数据中,通常将与一个人有关的所有信息存储在一行中。 在顺序数据中,信息可以分布在许多行中,例如信用卡交易,并且保留行(事件)和列之间的相关性(变量是关键)。 此外,序列的长度是可变的。 有些案例可能只包含

2020-10-01 10:04:08

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力探索
    原力探索
    参与《原力计划【第二季】——打卡挑战》的文章入选【每日精选】的博主将会获得此勋章。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 原力探索 · S
    原力探索 · S
    在《原力计划【第二季】》打卡挑战活动中,发布 12 篇原创文章参与活动的博主,即可获得此勋章。(本次活动结束后统一统计发放)