自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

melody

编程小白的编程之旅

  • 博客(14)
  • 收藏
  • 关注

原创 零基础入门NLP之新闻文本分类挑战赛——基于深度学习的文本分类3

此章,我们继续进一步学习基于深度学习的文本分类,了解Transformer的原理和基于Bert的词表示。一、TransformerGoogle于2017年6月发布在arxiv上的一篇文章《Attention is all you need》,提出解决sequence to sequence问题的transformer模型,用全attention的结构代替了lstm,抛弃了之前传统的encoder-decoder模型必须结合cnn或者rnn的固有模式,只用attention,可谓大道至简。文章的主要目的是

2020-08-04 20:25:43 4507

原创 零基础入门NLP之新闻文本分类挑战赛——基于深度学习的文本分类2

在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的。在本章我们将继续深入。一、Word2vecWord2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。[百度百科]1、什么是 Word E

2020-08-03 23:13:27 3672

原创 零基础入门NLP之新闻文本分类挑战赛——基于深度学习的文本分类:FastText

在上一章节,介绍了使用传统机器学习算法来解决了文本分类问题,从本章开始将尝试使用深度学习方法,与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。FastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在学术上并没有太大创新。但是它的优点也非常明显,在文本分类任务中,FastText(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。在标准的多核CPU上, 能够训练10亿词级别语料库的词向量在10分钟之内,能够分类有着30万多类别

2020-07-27 22:02:02 4146

原创 零基础入门NLP之新闻文本分类挑战赛——基于机器学习的文本分类

接下来介绍一下基于机器学习的文本分类方法。一、文本表示方法在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定

2020-07-25 21:40:26 4770

原创 零基础入门NLP之新闻文本分类挑战赛——数据读取与数据分析

一、数据读取首先,导入pandas库读取csv数据,并显示前几行看一下~import pandas as pd#读取数据train_df = pd.read_csv('F:/datawhale/NLP_learning/train_set.csv', sep='\t', nrows=100)train_df.head()可以看到,第一列为新闻的类别,第二类为新闻的字符。二、数据分析读取数据集后,我们需要对数据进行分析,理解数据的特征,方便后续做相应的数据清洗工作。1、句子长度分析因为每

2020-07-22 23:15:38 3522

原创 零基础入门NLP之新闻文本分类挑战赛——赛题理解

假期还有两周左右就结束了,正巧,Datawhale联合天池发布了零基础入门NLP的学习,于是报名参加了零基础入门NLP-新闻文本分类。本人之前没有接触过NLP,记录一下学习的历程,供和我一样的小白参考~一、赛题数据赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。如下:在数据集中标

2020-07-21 20:31:18 6683

原创 《动手学深度学习》第一次打卡

线性回归线性回归的基本要素线性回归基本要素包括模型、数据集、损失函数、优化函数。1、模型以房价预测为例进行说明。采用二维变量对房价进行预测,分别是房屋面积、房屋年龄price=w_area⋅area+w_age⋅age+b2、数据集数据集通常通过统计局及各大网站下载真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实...

2020-02-14 21:16:04 1469

原创 0-1背包问题

一、背包问题背包问题(Knapsack problem)是一种组合优化的NP完全问题。问题描述为:给定一组物品,每种物品都有自己的重量和价格,在限定的总重量内,我们如何选择,才能使得物品的总价格最高。问题的名称来源于如何选择最合适的物品放置于给定背包中。解决思路:动态规划,对每一件物品遍历背包容量,当背包可容纳值大于等于当前物品,与之前已放进去的物品所得价值进行对比,考虑是否需要置换。代码...

2018-12-24 19:35:41 1560

原创 leetcode 17 and leetcode 46 之python实现

一、leetcode 17——电话号码的字母组合1、题目给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。2、示例输入:“23”输出:[“ad”, “ae”, “af”, “bd”, “be”, “bf”, “cd”, “ce”, “cf”]3、思路用dict表示号码字母对应关系预处理去除非字...

2018-12-23 16:14:34 2252

原创 递归思想及动态规划思想学习笔记

一、递归1、概念在函数内部,可以调用其他函数。如果一个函数在内部调用自身本身,这个函数就是递归函数。注:递归函数的优点是定义简单,逻辑清晰。理论上,所有的递归函数都可以写成循环的方式,但循环的逻辑不如递归清晰。使用递归函数需要注意防止栈溢出。在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。由于栈的大小不...

2018-12-22 00:20:59 3206

原创 二叉树之python实现

一、二叉树概念二叉树是树的特殊一种,具有如下特点:1、每个结点最多有两颗子树,结点的度最大为2。2、左子树和右子树是有顺序的,次序不能颠倒。3、即使某结点只有一个子树,也要区分左右子树。二、二叉树遍历二叉树遍历:从树的根节点出发,按照某种次序依次访问二叉树中所有的结点,使得每个结点被访问仅且一次。1、前序遍历基本思想:先访问根结点,再先序遍历左子树,最后再先序遍历右子树即根—左—右...

2018-12-21 00:29:04 5681

原创 队列及堆排序学习笔记

一、队列1、概念队列是一种先进先出的线性表。它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作。进行插入操作的端称为队尾,进行删除操作的端称为队头。队列中没有元素时,称为空队列。如图所示2、python的实现#通过 Queue() 建立一个空队列class Queue: def __init__(self): self.ite...

2018-12-20 17:18:06 3064

原创 单链表之python实现学习笔记及环形链表-反转链表

一、单链表定义单链表是一种链式存取的数据结构,用一组地址任意的存储单元存放线性表中的数据元素。链表中的数据是以结点来表示的,每个结点的构成:元素(数据元素的映象) + 指针(指示后继元素存储位置),元素就是存储数据的存储单元,指针就是连接每个结点的地址数据。二、python实现用python实现单链表操作,包括创建、遍历、增添、删除,代码如下:class Node(object): ...

2018-12-19 11:24:32 2497

原创 哈希表学习笔记及LeetCode编程练习之两数之和and快乐数

一、哈希表的定义哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。记录的存储位置=f(关键字),这里的对应关系f称为散列函数,又称为哈希(Hash函数),采用散列技术将记录存储在一块连续的存储空间中,这块连续存储空...

2018-12-18 19:19:03 3705

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除