2 melody_44154393

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 40w+

零基础入门NLP之新闻文本分类挑战赛——基于深度学习的文本分类3

此章,我们继续进一步学习基于深度学习的文本分类,了解Transformer的原理和基于Bert的词表示。一、TransformerGoogle于2017年6月发布在arxiv上的一篇文章《Attention is all you need》,提出解决sequence to sequence问题的transformer模型,用全attention的结构代替了lstm,抛弃了之前传统的encoder-decoder模型必须结合cnn或者rnn的固有模式,只用attention,可谓大道至简。文章的主要目的是

2020-08-04 20:25:43

零基础入门NLP之新闻文本分类挑战赛——基于深度学习的文本分类2

在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的。在本章我们将继续深入。一、Word2vecWord2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。[百度百科]1、什么是 Word E

2020-08-03 23:13:27

零基础入门NLP之新闻文本分类挑战赛——基于深度学习的文本分类:FastText

在上一章节,介绍了使用传统机器学习算法来解决了文本分类问题,从本章开始将尝试使用深度学习方法,与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。FastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在学术上并没有太大创新。但是它的优点也非常明显,在文本分类任务中,FastText(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。在标准的多核CPU上, 能够训练10亿词级别语料库的词向量在10分钟之内,能够分类有着30万多类别

2020-07-27 22:02:02

零基础入门NLP之新闻文本分类挑战赛——基于机器学习的文本分类

接下来介绍一下基于机器学习的文本分类方法。一、文本表示方法在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定

2020-07-25 21:40:26

零基础入门NLP之新闻文本分类挑战赛——数据读取与数据分析

一、数据读取首先,导入pandas库读取csv数据,并显示前几行看一下~import pandas as pd#读取数据train_df = pd.read_csv('F:/datawhale/NLP_learning/train_set.csv', sep='\t', nrows=100)train_df.head()可以看到,第一列为新闻的类别,第二类为新闻的字符。二、数据分析读取数据集后,我们需要对数据进行分析,理解数据的特征,方便后续做相应的数据清洗工作。1、句子长度分析因为每

2020-07-22 23:15:38

零基础入门NLP之新闻文本分类挑战赛——赛题理解

假期还有两周左右就结束了,正巧,Datawhale联合天池发布了零基础入门NLP的学习,于是报名参加了零基础入门NLP-新闻文本分类。本人之前没有接触过NLP,记录一下学习的历程,供和我一样的小白参考~一、赛题数据赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。如下:在数据集中标

2020-07-21 20:31:18

《动手学深度学习》第一次打卡

线性回归线性回归的基本要素线性回归基本要素包括模型、数据集、损失函数、优化函数。1、模型以房价预测为例进行说明。采用二维变量对房价进行预测,分别是房屋面积、房屋年龄price=w_area⋅area+w_age⋅age+b2、数据集数据集通常通过统计局及各大网站下载真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实...

2020-02-14 21:16:04

0-1背包问题

一、背包问题背包问题(Knapsack problem)是一种组合优化的NP完全问题。问题描述为:给定一组物品,每种物品都有自己的重量和价格,在限定的总重量内,我们如何选择,才能使得物品的总价格最高。问题的名称来源于如何选择最合适的物品放置于给定背包中。解决思路:动态规划,对每一件物品遍历背包容量,当背包可容纳值大于等于当前物品,与之前已放进去的物品所得价值进行对比,考虑是否需要置换。代码...

2018-12-24 19:35:41

leetcode 17 and leetcode 46 之python实现

一、leetcode 17——电话号码的字母组合1、题目给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。2、示例输入:“23”输出:[“ad”, “ae”, “af”, “bd”, “be”, “bf”, “cd”, “ce”, “cf”]3、思路用dict表示号码字母对应关系预处理去除非字...

2018-12-23 16:14:34

递归思想及动态规划思想学习笔记

一、递归1、概念在函数内部,可以调用其他函数。如果一个函数在内部调用自身本身,这个函数就是递归函数。注:递归函数的优点是定义简单,逻辑清晰。理论上,所有的递归函数都可以写成循环的方式,但循环的逻辑不如递归清晰。使用递归函数需要注意防止栈溢出。在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。由于栈的大小不...

2018-12-22 00:20:59

二叉树之python实现

一、二叉树概念二叉树是树的特殊一种,具有如下特点:1、每个结点最多有两颗子树,结点的度最大为2。2、左子树和右子树是有顺序的,次序不能颠倒。3、即使某结点只有一个子树,也要区分左右子树。二、二叉树遍历二叉树遍历:从树的根节点出发,按照某种次序依次访问二叉树中所有的结点,使得每个结点被访问仅且一次。1、前序遍历基本思想:先访问根结点,再先序遍历左子树,最后再先序遍历右子树即根—左—右...

2018-12-21 00:29:04

队列及堆排序学习笔记

一、队列1、概念队列是一种先进先出的线性表。它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作。进行插入操作的端称为队尾,进行删除操作的端称为队头。队列中没有元素时,称为空队列。如图所示2、python的实现#通过 Queue() 建立一个空队列class Queue: def __init__(self): self.ite...

2018-12-20 17:18:06

单链表之python实现学习笔记及环形链表-反转链表

一、单链表定义单链表是一种链式存取的数据结构,用一组地址任意的存储单元存放线性表中的数据元素。链表中的数据是以结点来表示的,每个结点的构成:元素(数据元素的映象) + 指针(指示后继元素存储位置),元素就是存储数据的存储单元,指针就是连接每个结点的地址数据。二、python实现用python实现单链表操作,包括创建、遍历、增添、删除,代码如下:class Node(object): ...

2018-12-19 11:24:32

哈希表学习笔记及LeetCode编程练习之两数之和and快乐数

一、哈希表的定义哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。记录的存储位置=f(关键字),这里的对应关系f称为散列函数,又称为哈希(Hash函数),采用散列技术将记录存储在一块连续的存储空间中,这块连续存储空...

2018-12-18 19:19:03
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。