10 磐创 AI

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1k+

自然语言处理中的语言模型简介

作者|Devyanshu Shukla编译|Flin来源|medium在这篇文章中,我们将讨论关于语言模型(LM)的所有内容什么是LMLM的应用如何生成LMLM的评估介绍NLP中的语言模型是计算句子(单词序列)的概率或序列中下一个单词的概率的模型。即句子的概率:下一个单词的概率:语言模型 v/s 字嵌入语言模型常常与单词嵌入混淆。主要的区别在于,在语言模型中,单词顺序很重要,因为它试图捕捉单词之间的上下文,而在单词嵌入的情况下,只捕捉语义相似度(https://en.wi

2020-08-11 22:22:04

20个Pandas函数详解

作者|Soner Yıldırım编译|VK来源|Towards Data SciencePandas是一个python数据分析库。它提供了许多函数和方法来加快数据分析过程。pandas之所以如此普遍,是因为它具有强大的功能,以及他简单的语法和灵活性。在这篇文章中,我将举例来解释20个常用的pandas函数。有些是很常见的,我敢肯定你以前用过。有些对你来说可能是新的。所有函数都将为你的数据分析过程增加价值。import numpy as npimport pandas as pd1.query

2020-08-10 22:19:39

用Python构建个性化智能闹钟

作者|Kumar Shubham编译|VK来源|Towards Data Science你可能之前有见过有人使用Python语言构建闹钟,帮助他唤醒或提醒他一个重要的会议。这些都是很简单,没有任何智能,他们所做的只是播放你设置的闹钟音乐,或者随机选择一个YouTube视频或歌曲来播放。所以,让我们更上一层楼,做一些更聪明,更个性化的东西,它能理解你,帮助你更快更好地醒来。我们将在本文中构建的个性化闹钟系统将从过去的事件中学习并理解它们,以便在下一个闹钟中获得更好的性能。每次使用它都会变得更好。

2020-08-10 00:58:05

基于Python的决策树分类器与剪枝

作者|Angel Das编译|VK来源|Towards Data Science介绍决策树分类器是一种有监督的学习模型,在我们关心可解释性时非常有用。决策树通过基于每个层次的多个问题做出决策来分解数据决策树是处理分类问题的常用算法之一。为了更好地理解它,让我们看看下面的例子。决策树通常包括:根节点-表示被进一步划分为同质组的样本或总体拆分-将节点分为两个子节点的过程决策节点-当一个子节点根据某个条件拆分为其他子节点时,称为决策节点叶节点或终端节点-不进一步拆分的子节点信息增

2020-08-06 13:46:44

使用Scikit Learn的分类器探索Iris数据集

作者|Dehao Zhang编译|VK来源|Towards Data Science暂时,想象一下你不是一个花卉专家(如果你是专家,那对你很好!)。你能区分三种不同的鸢尾属植物吗?刚毛鸢尾属,花色鸢尾属和维吉尼亚鸢尾属(setosa, versicolor, virginica)?我知道我不能…但是,如果我们有一个包含这些物种实例的数据集,以及它们的萼片和花瓣的测量结果呢?换言之,我们能从这个数据集中学到什么来帮助我们区分这三个物种吗?目录我们为什么选择这个数据集?我们想回答什么

2020-08-05 13:32:33

5个步骤实现目标检测

作者|DR. VAIBHAV KUMAR编译|VK来源|Analytics In Diamag目标检测技术是当今计算机视觉领域的发展趋势。在场景图像和视频中,有许多方法被用来检测物体。在资源和执行时间方面,每种技术都有自己的优势和局限性。检测视频中的物体也需要大量的技术知识和资源。因此,人们一直在寻找一种简单、快速的目标检测方法。在本文中,我们将演示如何检测视频中看到的对象,只需5个步骤。我们将在本任务中使用pixellib库,该库使用实例分割检测对象。我们还将使用预训练Mask R-CNN模型

2020-08-04 18:09:29

检测X光图像中Covid-19

作者|Marcelo Rovai编译|VK来源|Towards Data Science免责声明本研究是为X光图像中COVID-19的自动检测而开发的,完全是为了教育目的。由于COVID-19没有经过专业或学术评估,最终的应用并不打算成为一个准确的用于诊断人类的COVID-19的诊断系统,。介绍Covid-19是由一种病毒(SARS-CoV-2冠状病毒)引起的大流行性疾病,已经感染了数百万人,在几个月内造成数十万人死亡。据世界卫生组织(WHO)称,大多数COVID-19患者(约80%)可能无

2020-08-04 00:54:49

在PyTorch中使用深度自编码器实现图像重建

作者|DR. VAIBHAV KUMAR编译|VK来源|Analytics In Diamag人工神经网络有许多流行的变体,可用于有监督和无监督学习问题。自编码器也是神经网络的一个变种,主要用于无监督学习问题。当它们在体系结构中有多个隐藏层时,它们被称为深度自编码器。这些模型可以应用于包括图像重建在内的各种应用。在图像重建中,他们学习输入图像模式的表示,并重建与原始输入图像模式匹配的新图像。图像重建有许多重要的应用,特别是在医学领域,需要从现有的不完整或有噪声的图像中提取解码后的无噪声图像。在本

2020-08-03 14:59:23

基于PyTorch图像特征工程的深度学习图像增强

介绍在深度学习黑客竞赛中表现出色的技巧(或者坦率地说,是任何数据科学黑客竞赛) 通常归结为特征工程。 当您获得的数据不足以建立一个成功的深度学习模型时,你能发挥多少创造力?我是根据自己参加多次深度学习黑客竞赛的经验而谈的,在这次深度黑客竞赛中,我们获得了包含数百张图像的数据集——根本不足以赢得甚至完成排行榜的顶级排名。那我们怎么处理这个问题呢?答案? 好吧,那要看数据科学家的技能了! 这就是我们的好奇心和创造力脱颖而出的地方。 这就是特征工程背后的理念——在现有特征的情况下,我们能多好地提出新特征。当

2020-08-02 23:48:21

使用TPU在PyTorch中实现ResNet50

作者|DR. VAIBHAV KUMAR编译|VK来源|Analytics In DiamagPyTorch通过提供大量强大的工具和技术,一直在推动计算机视觉和深度学习领域的发展。在计算机视觉领域,基于深度学习的执行需要处理大量的图像数据集,因此需要一个加速的环境来加快执行过程以达到可接受的精度水平。PyTorch通过XLA(加速线性代数)提供了这一特性,XLA是一种线性代数编译器,可以针对多种类型的硬件,包括GPU和TPU。PyTorch/XLA环境与Google云TPU集成,实现了更快的执行速

2020-08-01 11:32:54

何时使用约束求解而不是机器学习

作者|Antoine Champion编译|VK来源|Towards Data Science机器学习和深度学习一直是业界的热门话题。品牌领先于功能,导致深度学习在许多人工智能应用中被过度使用。这篇文章将提供对约束求解的快速理解,这是一个强大但未被充分利用的方法,可以解决人工智能和其他计算机科学领域的大量问题,例如物流和调度时间推理和图形问题。解决现实问题让我们来考虑一个事实性的和高度话题性的问题。病人人数正在上升。医院必须迅速组织起来治疗病人。世界上需要一种算法,在疾病严重程度、患者

2020-08-01 00:39:13

用Python构建数据科学Web应用程序

作者|Chanin Nantasenamat编译|VK来源|Towards Data Science在本文中,我将向你展示如何使用streamlit python库快速构建一个简单的数据驱动web应用程序,只需几行代码。作为一名数据科学家或机器学习工程师,能够部署我们的数据科学项目是很重要的。传统的使用Django或Flask这样的框架来部署机器学习模型可能是一项艰巨和/或耗时的任务。我们正在构建的股票网络应用程序概述今天,我们将构建一个简单的web应用程序来显示股票价格和成交量。这将需要使用两

2020-07-31 16:49:03

构建对象检测模型

作者|ALAKH SETHI编译|VK来源|Analytics Vidhya目标检测我喜欢深度学习。坦率地说,这是一个有大量技术和框架可供倾注和学习的广阔领域。当我看到现实世界中的应用程序,如面部识别和板球跟踪等时,建立深度学习和计算机视觉模型的真正兴奋就来了。我最喜欢的计算机视觉和深入学习的概念之一是目标检测。建立一个模型的能力,可以通过图像,告诉我什么样的物体存在!当人类看到一幅图像时,我们在几秒钟内就能识别出感兴趣的物体。机器不是这样的。因此,目标检测是一个在图像中定位目标实例的计算机视

2020-07-30 19:46:11

PyTorch实现TPU版本CNN模型

作者|DR. VAIBHAV KUMAR编译|VK来源|Analytics In Diamag随着深度学习模型在各种应用中的成功实施,现在是时候获得不仅准确而且速度更快的结果。为了得到更准确的结果,数据的大小是非常重要的,但是当这个大小影响到机器学习模型的训练时间时,这一直是一个值得关注的问题。为了克服训练时间的问题,我们使用TPU运行时环境来加速训练。为此,PyTorch一直在通过提供最先进的硬件加速器来支持机器学习的实现。PyTorch对云TPU的支持是通过与XLA(加速线性代数)的集成实现

2020-07-30 12:21:54

C++机器学习库介绍

作者|ALAKH SETHI编译|VK来源|Analytics Vidhya介绍我喜欢使用C++。C++是我学习过的第一种编程语言,我喜欢在机器学习中使用它。我在之前写过关于构建机器学习模型的文章。我收到了一个回复,问我C++有没有机器学习的库?这是个公平的问题。像Python和R这样的语言有大量的包和库来满足不同的机器学习任务。那么C++有没有这样的产品呢?是的,是的!在本文中,我将重点介绍两个这样的C++库,我们也将看到它们都可以运行。目录为什么我们要使用机器学习库?C++中的

2020-07-29 21:34:02

假设检验:使用p值来接受或拒绝你的假设

作者|GUEST编译|VK来源|Analytics Vidhya介绍检验是统计学中最基本的概念之一。不仅在数据科学中,假设检验在各个领域都很重要。想知道怎么做?让我们举个例子。现在有一个lifebuoy沐浴露。沐浴露厂商声称,它杀死99.9%的细菌。他们怎么能这么说呢?必须有一种测试技术来证明这种说法是正确的。所以假设检验用来证明一个主张或任何假设。目录假设检验的定义零和替代假设检验简单假设检验和复合假设检验单尾和双尾检验临界区I型和II型错误。统计学意义信心水

2020-07-29 13:12:17

生成流畅文本方法

作者|Aaron Abrahamson编译|VK来源|Towards Data Science在沙丘魔堡2000上训练文本生成模型沙丘魔堡是一个遥远的封建社会的故事。它关注的是一位公爵和他的家人,他们被迫成为沙漠星球阿拉基斯的管理者。弗兰克·赫伯特在1965年出版了这部经典作品。几乎任何现代科幻小说都可以追溯到沙丘的某些元素。我最近完成了《沙丘》的续集《沙丘的弥赛亚》,并且刚刚开始了《沙丘的孩子》系列的第三部。有六个故事最初是赫伯特写的,后来又有一大堆是他儿子写的。我没读过那些。我一直在探索文本

2020-07-28 19:42:32

KNNImputer:一种可靠的缺失值插补方法

作者|KAUSHIK编译|VK来源|Analytics Vidhya概述学会用KNNImputer来填补数据中的缺失值了解缺失值及其类型介绍scikit learn公司的KNNImputer是一种广泛使用的缺失值插补方法。它被广泛认为是传统插补技术的替代品。在当今世界,数据是从许多来源收集的,用于分析、产生见解、验证理论等等。从不同的资源收集的这些数据通常会丢失一些信息。这可能是由于数据收集或提取过程中的问题导致的,该问题可能是人为错误。处理这些缺失值,成为数据预处理中的一个重要步

2020-07-28 12:01:32

SparseNN中的优化

作者|The AI LAB编译|VK来源|Medium对SparseNN模型的过拟合进行研究,并探索了多种正则化方法,如嵌入向量的max-norm/constant-norm、稀疏特征id的dropout、参数的freezing、嵌入收缩等。然而,据我们所知,在单次训练中,没有显著的减少过拟合的效果。正则化全连接层和稀疏参数随机梯度下降优化器使用小批量样本来更新全连接层和稀疏参数。给定一个小批量的例子,通常所有的全连接层参数都会被更新(假设没有gate或dropout),而只有一小部分稀疏参数会在

2020-07-27 19:26:04

基于TorchText的PyTorch文本分类

作者|DR. VAIBHAV KUMAR编译|VK来源|Analytics In Diamag文本分类是自然语言处理的重要应用之一。在机器学习中有多种方法可以对文本进行分类。但是这些分类技术大多需要大量的预处理和大量的计算资源。在这篇文章中,我们使用PyTorch来进行多类文本分类,因为它有如下优点:PyTorch提供了一种强大的方法来实现复杂的模型体系结构和算法,其预处理量相对较少,计算资源(包括执行时间)的消耗也较少。PyTorch的基本单元是张量,它具有在运行时改变架构和跨gpu分布训练的

2020-07-27 12:01:12

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。