自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 语音识别入门(改变音频采样率)

我这里采用的是ffmpeg方式来改变音频的采样率。还可以通过sox,librosa的方式来改变音频的采样率。

2021-07-07 14:20:47 503

转载 Task6 文本分类(BERT)

Bert具体包括pretrain和finetune两部分Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。在编码部分,他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self

2020-08-04 21:00:57 233

转载 Task5 文本分类(深度学习)

1.Word2Vec:2.TextCNN:利用CNN(卷积神经网络)进行文本特征抽取,不同大小的卷积核分别抽取n-gram特征,卷积计算出的特征图经过MaxPooling保留最大的特征值,然后将拼接成一个向量作为文本的表示。这里我们基于TextCNN原始论文的设定,分别采用了100个大小为2,3,4的卷积核,最后得到的文本向量大小为100*3=300维。3.T.

2020-08-02 23:27:27 169

原创 创建Vue2.0+ElementUI的环境

@[TOC] Vue2.0+ElementUI创建Vue2.0+ElementUI的环境步骤:1.cnpm install vue2.cnpm install vue-router3.cnpm install --global vue-cli4.vue init webpack vue_project_name开始运行环境,查看安装是否成功** cd vue_project_name**** npm run dev **==安装elementUI ==5. cnpm i elemen

2020-07-31 10:45:11 154 1

原创 Task4基于深度学习的文本分类

FastText是一种典型DL词向量的表示方法,它通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作;它是一个三层神经网络:输入层、隐含层、输出层;它用单词的Embedding叠加获得的文档向量,将相似的句子分为一类;它学到的Embedding空间维度比较低,可以快速进行训练;如何使用验证集调参1.通过阅读文档,要弄清楚这些参数的大致含义,哪些参数会增加模型的复杂度2.通过验证集上进行验证模型精度,找到模型在是..

2020-07-27 23:18:37 85

原创 Task3基于机器学习的分类

方法一、方法二、文本表示方法有:one-hot,Bag of Words,N-gram,TF-IDF,FastText,word2Vec,TextCNN,BERT......

2020-07-23 10:06:16 67

原创 Task2数据读取与数据分析

旨在对测试数据的数据做分析,分析数据的label比例,以及标点符号的占比

2020-07-22 15:18:39 149

原创 DataWhale新闻文本分类

零基础入门NLP之新闻文本分类赛题理解赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚.

2020-07-21 17:50:35 118

原创 Django连接mysql

1.先在Navicat里面新建一个数据库;2.配置好跟库的关联3.引入pymql模块4.运行命令 一. python manage.py makemigrations 在本地生成了脚本 二. python manage.py migrate 同步进Mysql里面5.操作MYSQL附注:...

2020-06-27 11:03:16 128

转载 Vue + ElementUI

1.下载Node.js2.安装Vue:(用 npm安装) 3.安装ElementUI:

2020-06-18 16:54:29 81

原创 特征工程

我们为什么要收集数据呢?因为有些问题需要靠数据找出答案。从数据到答案的路上,充满了错误的开始和死胡同,经常是有意栽花花不发,无心插柳柳成荫。数据处理工作流往往是对阶段的迭代过程。数学模型:描述了数据不同部分之间的关系。特征:原始数据的数值表示。特征工程:是在给定数据、模型和任务的情况下设计出最合适的特征的过程。特征的数量也非常重要,如果没有足够的有信心量的特征,那么模型将不能完成最...

2020-03-28 22:34:43 133

原创 Kaggle 数据分析心得

一、数据分析的基本流程大致分为以下几步: 1.数据EDA 2.数据清洗 3.特征工程 4.模型的构建 5.测试 6.提交验证¶二、特征工程 常见的特征工程包括:异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 特征归一化/标准化: ...

2020-03-24 16:26:30 358

原创 文本分类、数据增强、 模型微调

一、文本情感分类文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题:使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析,并有着广泛的应用。同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用。在本节中,我们将应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络,来判断一段不定长的文本序列中包含的是正面还是负面的情绪...

2020-02-25 20:25:30 534

原创 优化进阶、word2vec、词嵌入进阶

一、优化进阶目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量的迭代方向仅仅取决于自变量当前位置,这可能会带来一些问题。对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收...

2020-02-19 21:39:15 380

转载 批量归一化和残差网络、凸优化、梯度下降

一、批量归一化(BatchNormalization)1. 对输入的标准化(浅层模型):处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。 标准化处理输入数据使各个特征的分布相近。2. 批量归一化(深度模型):利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使...

2020-02-19 21:13:39 178

转载 机器翻译、seq2seq、Transformer

一、机器翻译机器翻译采用的是seq2seq的模型机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。数据预处理 --->分词 --->建立词典 ---> 载入数据集 --->Encoder-Decod...

2020-02-19 19:27:26 694

原创 CNN、LeNet

一、卷积神经网络卷积层:卷积层得名于卷积运算,但卷积层中用到的并非卷积运算而是互相关运算。我们将核数组 (通常称为卷积核或过滤器(filter))上下翻转、左右翻转,再与输入数组做互相关运算,这一过程就是卷积运算。由于卷积层的核数组是可学习的,所以使用互相关运算与使用卷积运算并无本质区别。卷积层的两个超参数:填充:在输入高和宽的两侧填充元素(通常是0元素) ...

2020-02-19 18:54:53 473

原创 过拟合、梯度消失、RNN进阶

一、过拟合和欠拟合训练误差:指模型在训练数据集上表现出的误差。泛化误差:指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。(ML应关注此项)如何计算训练误差或者泛化误差,可以用损失函数。【损失函数:均方误差(线性回归)、交叉熵损失函数(softmax回归)】验证集的作用:进行模型选择。K折交叉验证:由于验证数据集不参与模型训练,当训练数据不够...

2020-02-19 18:05:12 1051

转载 文本预处理、语言模型、循环神经网络

文本预处理:下列哪一项不是构建Vocab类所必须的步骤:BA. 词频统计,清洗低频词B. 句子长度统计C. 构建索引到token的映射D. 构建token到索引的映射无论use_special_token参数是否为真,都会使用的特殊token是____,作用是用来____ : DA. <pad>,在小批量中数据不等长时做填...

2020-02-14 14:24:08 385

翻译 线性回归、softmax、感知机

一、线性回归:线性回归的基本要素:模型、数据集、损失函数、优化函数(梯度下降法)。模型:y = w*area+ w*age+ b; (wx +b)损失函数:在模型训练中,我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差,且数值越小表示误差越小。一个常用的选择是平方函数。 它在评估索引为ii的样本误差的表达式为 ...

2020-02-14 13:50:54 293

原创 爬虫(三、清洗和组织数据)

将爬虫(二)提取到的数据进行清洗:清洗代码如下图所示:

2020-01-10 13:49:37 298

原创 爬虫(二、提取数据)

上一篇通过requests库已经可以抓到网页源码了,这一篇物品们要从源码中找到并提取数据。(此处选用Beautiful Soup库[词库的作用是抓取数据])select里面的搜索路径用下图的方式copy放进去:...

2020-01-10 13:31:03 225

原创 爬虫(初级)

crawler基本原理:Request(请求):每一个展示在用户面前的网页都必须经过这一步,也就是向服务其发送请求; Response(响应):服务器在接收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内 ...

2020-01-10 12:03:01 250

转载 pyCharm简单的调试指南

针对一个后缀为.py的文件如何进行调试,分两种类别:第一种:跳过函数内部的程序调试步骤: 1.点击右上角的虫子图标,然后下面会有控制面板出来,再点击Debugger,然后我们在行号那里选择要调试哪一行,点击就会有红点。如下图所示:2.最后再次点击那个虫子图标,这个时候就可以开始进行调试了,点击Step Over 或者快捷键F8就可以进行调试了。如下图:第二种:针对函...

2020-01-10 09:50:03 201

原创 Visual C++ 6.0的使用

一、创建文件步骤 1.打开编辑器-->2.选择file的新建-->选择“文件”板块的对应文件类型(我选的是C/C++ Header File,因为我写的是C)-->3.写文件名(test.c)[注意后缀!!!]二、创建工程项目的步骤 1.打开编辑器-->2.选择file的新建-->选择“工程”板块的倒数第三个W...

2019-09-17 10:17:17 1684

转载 Git上传代码到github操作

首先你要在github上申请一个账号网址:https://github.com/然后你要下载一个git工具网址:https://gitforwindows.org/就代表上传成功了。中间遇到一个错误,如下图:转载网址:https://blog.csdn.net/Jackson23333/article/details/81...

2019-07-26 15:31:16 85

转载 装饰器

1.闭包函数的原理就是包含内层函数的return和外层环境变量2.装饰器在本质上是一个python函数,其他函数在不需要做任何代码变动的前提下增加额外功能,装饰器的返回值(return)也是一个函数对象.3.使用装饰器极大的服用了代码,但是它有一个缺点就是原函数的元信息不见了。为此解决的方法是使用functools.wraps,wraps本身也是一个装饰器,它能把原函数的...

2019-07-10 13:46:39 73

转载 基本语句和函数 python

1. a = [1,2,3] b = [4,5,6] 输出 [1,2,3,4,5,6] 方法一: 方法二: 方法三:a + b2.3.在集合set['a','b','c','d'],添加’jay‘: 将集合b = set(['b','e',...

2019-07-08 19:52:22 174

原创 python基础数据类型(字符串处理)

1.将字符串更改内容的方法:a = 'abcde' 改成 ‘abqde': 方法一:用join的方法,str.join(sequence); 方法二:用replace的方法,str.replace(old,new[ ,max]); 方法三:用序列切片的方法,2.从字符串s = "abcd"中取出'd‘: ...

2019-07-08 14:10:30 949

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除