3 Sherlock0618

尚未进行身份认证

我要认证

一辈子很长,要和有趣的人在一起; 余生,不要再辜负青春和梦想!

等级
TA的排名 27w+

零基础入门天池NLP赛事之——新闻文本分类(6)

基于深度学习的文本分类一、学习目标:了解Transformer的原理和基于预训练语言模型(Bert)的词表示 学会Bert的使用,具体包括pretrain和finetune二、文本表示方法Part4:Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个

2020-08-04 23:48:16

零基础入门天池NLP赛事之——新闻文本分类(5)

基于深度学习的文本分类一、学习目标:学习Word2Vec的使用和基础原理 学习使用TextCNN、TextRNN进行文本表示 学习使用HAN网络结构完成文本分类二、文本表示方法 Part3:词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高...

2020-07-31 00:46:03

零基础入门天池NLP赛事之——新闻文本分类(4)

基于深度学习的文本分类一、学习目标:学习FastText的使用和基础原理 学会使用验证集进行调参二、文本表示方法 Part2:1. 现有文本表示方法的缺陷:除了上一篇介绍的方法知网,还有几种文本表示方法:One-hot Bag of Words N-gram TF-IDF也通过sklean进行了相应的实践,相信你也有了初步的认知。但上述方法都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。与这些表示方法不同

2020-07-27 23:29:20

零基础入门天池NLP赛事之——新闻文本分类(3)

一、学习目标:学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类二、机器学习模型:机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种分支,对于学习者来说应该优先掌握机器学习算法的分类,然后再其中一种机器学习算法进行学习。由于机器学习算法的分支和细节实在是太多,所以如果你一开始就被细节迷住了眼,你就很难知道全局是什

2020-07-26 00:02:50

零基础入门天池NLP赛事之——新闻文本分类(2)

本节任务:数据读取与数据分析1. 数据读取有分析:数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。1.1 学习目标:学习使用Pandas读取赛题数据 分析赛题数据的分布规律1.2 数据读取:赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('../input/train_set.csv'

2020-07-23 01:55:10

零基础入门天池NLP赛事之——新闻文本分类(1)

1. 赛题理解:1.1 赛题理解:(1)赛题名称: 零基础入门NLP之新闻文本分类(2) 赛题目标: 通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建 和 模型训练等知识点;(3) 赛题任务: 赛题以自然语言处理为背景、要求选手对新闻文本进行分类,这是一个典型的字符识别问题;1.1.1 学习目标:(1) 理解赛题背景 与 赛题数据;(2) 完成赛题报名 与 数据下载,理解赛题的解题思路;1.1.2 赛题数据:赛题以匿名处理后的新闻数据为赛

2020-07-21 20:35:05

零基础入门天池CV赛事之——街景字符编码识别(5)—— 模型集成

本章讲解的知识点包括:集成学习方法、深度学习中的集成学习和结果后处理思路。1. 学习目标:学习集成学习方法以及交叉验证情况下的模型集成 学会使用深度学习模型的集成学习2. 集成学习方法:在机器学习中的集成学习可以在一定程度上提高预测精度,常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期,如果硬件设备不允许建议选取留出法,如果需要追求精度可以使用交叉验证的方法。下面假设构建了10

2020-06-02 22:14:08

零基础入门天池CV赛事之——街景字符编码识别(4)—— 模型训练与验证

1. 学习目标:理解验证集的作用,并使用训练集和验证集完成训练 学会使用Pytorch环境下的模型读取和加载,并了解调参流程2. 构造验证集:在机器学习模型(特别是深度学习模型)的训练过程中,模型是非常容易过拟合的。深度学习模型在不断的训练过程中训练误差会逐渐降低,但测试误差的走势则不一定。在模型的训练过程中,模型只能利用训练数据来进行训练,模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好,模型就会记住训练样本的细节,导致模型在测试集的泛化效果较差,这种现象称为过拟合(Overf

2020-05-30 22:58:33

零基础入门天池CV赛事之——街景字符编码识别(3)—— 字符识别模型

1. 学习目标学习CNN基础和原理; 使用Pytorch框架构建CNN模型并完成训练2. CNN介绍卷积神经网络(CNN)是是一类特殊的人工神经网络,是深度学习中一个重要的分支。CNN在很多领域都表现优异,精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多的卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次的输

2020-05-26 22:23:39

零基础入门天池CV赛事之——街景字符编码识别(2)——数据读取与数据扩增

1. 学习目标学习Python和Pytorch中图像读取 学会扩增方法和Pytorch读取赛题数据2. 图像读取由于赛题数据是图像数据,赛题的任务是识别图像中的字符。因此我们首先需要完成对数据的读取操作,在Python中有很多库可以完成数据读取的操作,比较常见的有Pillow和OpenCV。2.1 PillowPillow是Python图像处理函式库(PIL)的一个分支。Pillow提供了常见的图像读取和处理的操作,而且可以与ipython notebook无缝集成,是应用比较广泛的库。

2020-05-23 23:41:56

零基础入门天池CV赛事之——街景字符编码识别(1)

一、首先配置相关环境:1. 安装Anaconda软件去Anaconda的官网下载Anacondahttps://www.anaconda.com/products/individual里面有各种系统版本(本次实验在win10下进行)安装完之后, 进入Anaconda的安装目录下的Scripts,根据各自的目录, 打开cmd命令行,为了避免权限问题,最好使用管理员权限打开,并查询conda的版本, 使用conda --version显示如下:可以看到conda 4.7.1

2020-05-20 23:51:03

【Leetcode 1039】多边形三角剖分的最低得分

问题描述给定 N,想象一个凸 N 边多边形,其顶点按顺时针顺序依次标记为 A[0], A[i], ..., A[N-1]。假设您将多边形剖分为 N-2 个三角形。对于每个三角形,该三角形的值是顶点标记的乘积,三角剖分的分数是进行三角剖分后所有 N-2 个三角形的值之和。返回多边形进行三角剖分后可以得到的最低分。测试用例1:输入:[1,2,3]输出:6解释:多边形已经三角化,唯一三角形的分数为 6。测试用例2:测试用例3:输入:[1,3,1,4,1,5]输出:13解释:最低分

2020-05-13 08:42:39

【Leetcode 730】统计不同回文子字符串

问题描述给定一个字符串 S,找出 S 中不同的非空回文子序列个数,并返回该数字与 10^9 + 7 的模。通过从 S 中删除 0 个或多个字符来获得子字符序列。如果一个字符序列与它反转后的字符序列一致,那么它是回文字符序列。如果对于某个 i,A_i != B_i,那么 A_1, A_2, … 和 B_1, B_2, … 这两个字符序列是不同的。测试用例1:输入:S = ‘bccb...

2020-05-08 09:57:49

【Leetcode 516】最长回文子序列

问题描述给定一个字符串s,找到其中最长的回文子序列。可以假设s的最大长度为1000。示例 1:输入:“bbbab”输出: 4一个可能的最长回文子序列为 “bbbb”。示例 2:输入:“cbbd”输出: 2参考实现过程class Solution {public: int longestPalindromeSubseq(string s) { ...

2020-05-07 00:26:26

【Leetcode 10】正则表达式匹配

问题描述给你一个字符串 s 和一个字符规律 p,请你来实现一个支持‘.’ 和 ‘’ 的正则表达式匹配‘.’ 匹配任意单个字符'’ 匹配零个或多个前面的那一个元素所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。说明:s 可能为空,且只包含从 a-z 的小写字母。p 可能为空,且只包含从 a-z 的小写字母,以及字符 . 和 *。示例1:输入:s = “aa”...

2020-05-06 00:48:57

【Leetcode 44】通配符匹配

问题描述给定一个字符串 (s) 和一个字符模式 § ,实现一个支持 ‘?’ 和 ‘*’ 的通配符匹配。‘?’ 可以匹配任何单个字符。‘*’ 可以匹配任意字符串(包括空字符串)。两个字符串完全匹配才算匹配成功。说明:s 可能为空,且只包含从 a-z 的小写字母。p 可能为空,且只包含从 a-z 的小写字母,以及字符 ? 和 *。示例1:输入:s = “aa”p = “...

2020-05-05 08:27:34

【Leetcode 72】编辑距离

问题描述:给你两个单词 word1 和 word2,请你计算出将 word1 转换成 word2 所使用的最少操作数 。你可以对一个单词进行如下三种操作:插入一个字符删除一个字符替换一个字符测试用例1:输入:word1 = “horse”, word2 = “ros”输出:3解释:horse -> rorse (将 ‘h’ 替换为 ‘r’)rorse -> ...

2020-05-01 01:39:21

【Leetcode 714】买入股票的最佳时机含手续费

问题描述给定一个整数数组 prices,其中第 i 个元素代表了第 i 天的股票价格 ;非负整数 fee 代表了交易股票的手续费用。你可以无限次地完成交易,但是你每笔交易都需要付手续费。如果你已经购买了一个股票,在卖出它之前你就不能再继续购买股票了。返回获得利润的最大值。注意:这里的一笔交易指买入持有并卖出股票的整个过程,每笔交易你只需要为支付一次手续费。测试用例:输入: price...

2020-04-30 00:42:54

【Leetcode 309】买入股票的最佳时机含冷冻期

问题描述:给定一个整数数组,其中第i个元素代表了第i天的股票价格 。​设计一个算法计算出最大利润。在满足以下约束条件下,你可以尽可能地完成更多的交易(多次买卖一支股票):你不能同时参与多笔交易(你必须在再次购买前出售掉之前的股票)。 卖出股票后,你无法在第二天买入股票 (即冷冻期为 1 天)。测试用例:输入: [1,2,3,0,2]输出: 3 解释: 对应的交易状...

2020-04-29 01:10:00

【Leetcode 188】买入股票的最佳时机Ⅳ

问题描述:给定一个数组,它的第 i 个元素是一支给定的股票在第 i 天的价格。设计一个算法来计算你所能获取的最大利润。你最多可以完成 k 笔交易。注意:你不能同时参与多笔交易(你必须在再次购买前出售掉之前的股票)。测试用例1:输入: [2,4,1], k = 2输出: 2解释: 在第 1 天 (股票价格 = 2) 的时候买入,在第 2 天 (股票价格 = 4) 的时候卖...

2020-04-27 23:43:41

查看更多

勋章 我的勋章
  • 签到王者
    签到王者
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 原力探索 · S
    原力探索 · S
    在《原力计划【第二季】》打卡挑战活动中,发布 12 篇原创文章参与活动的博主,即可获得此勋章。(本次活动结束后统一统计发放)