自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 资源 (8)
  • 收藏
  • 关注

原创 pytorch--从零实现一个BERT模型

本文主要从代码的角度一步步来讲解一下BERT模型是如何实现的。(后附完整代码)关于BERT的理论解析现在随便一搜就可以找到很多,在这里就不在赘述。有需要补一下理论知识的,可以看一下下面的文章:图解BERT模型:从零开始构建BERT...

2021-12-11 22:45:00 6436 15

原创 Windows微信双开

Windows微信双开教程 2023.07.11亲测有效

2023-07-11 14:24:53 435

原创 面向任务对话系统(TOD)综述

本文介绍面向任务的对话系统,包括模块化和端到端系统。面向任务的系统解决了某一领域的具体问题,如电影票预订、餐厅预订等。由于其卓越的性能,我们专注于基于深度学习的系统。

2022-09-09 12:18:28 1654 1

原创 java 运算符与表达式 (基础)

运算符与表达式算术运算符算术操作符:+,-,*,/,%,++,–表示加减乘除,取余(求模),自增和自减/运算,两个操作数都是整数时,表示整数除法否则,表示浮点除法整数被0除将产生一个异常,浮点数被O除得到无穷大或者NaNpublic class Test{ public static void main(String[] args){ int i = 3; int j = 2; System.out.println(i/j); // 结果

2022-05-01 08:30:00 640

原创 面向任务的对话系统

面向任务的对话系统2.1 流水线方法2.1.1 语言理解2.1.2 对话状态跟踪2.1.3 策略学习2.1.4 自然语言生成2.2 端到端方法面向任务的对话系统一直是口语对话系统的重要分支。在本节中,我们将回顾面向任务的对话系统的流水线方法和端到端方法。2.1 流水线方法基于流水线的面向任务的对话系统的典型结构如图1所示。它包含了四个关键部分:语言理解。它被称为自然语言理解(NLU),它把用户话语解析为预定义的语义槽。对话状态跟踪器。它管理每一轮的输入与对话历史,输出当前对话状态。对话策略学

2022-04-11 14:27:32 1350

原创 GLUE数据集

网盘链接:链接:https://pan.baidu.com/s/1pVxCVcRWEN9Ram5E99_prA提取码:yuhu数据集目录:脚本代码:(需要科学上网)''' Script for downloading all GLUE data.Note: for legal reasons, we are unable to host MRPC.You can either use the version hosted by the SentEval team, which is alre

2021-12-06 15:37:31 652 6

原创 正则化为什么这么好用?

直观上理解就是如果正则化????设置得足够大,权重矩阵????被设置为接近于 0 的值,直观理解就是把多隐藏单元的权重设为 0,于是基本上消除了这些隐藏单元的许多影响。下面给出说明:背景知识:方差&偏差L1 L2正则化左图是高偏差(欠拟合) 右图是高方差(过拟合) 中间是just right。你可以想象一下上图中的右图是一个过拟合的神经网络(高方差)。下图右上角是我们的代价函数J 包含参数W,b。我们添加正则项,它可以避免数据权值矩阵过大,这就是弗罗贝尼乌斯范数,为什么压缩L2范式

2021-10-15 14:42:34 299

原创 支持向量机

支持向量机什么是支持向量机?多类问题的支持向量机核化SVC(支持向量分类器)中的重要参数核化支持向量机的优点:核化支持向量机的缺点:什么是支持向量机?支持向量机,因其英文名为 Support Vector Machine,故一般简称 SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。支持向量机(SVM)是一种相对简单的方法。监督机器学习算法用于分类和/或回归。它更倾向于分类,但有时对回归也非常有用。

2021-09-19 12:55:45 1263 2

原创 BERT简介

BERT,是 Bidirectional Encoder Representations(双向编码器表示)的缩写,它从单词的两边(左边和右边)来考虑上下文。以前所有的努力方向,都是一次只考虑单词的一边,要么是左边,要么是右边。这种双向性有助于模型更好地理解使用单词的上下文。此外,BERT 的设计目标是能够进行多任务学习,也就是说,它可以同时执行不同的自然语言处理任务。BERT这个model实际上是一个transformer 的 Encodertransformer BERT一般用在NLP上,它的输入

2021-08-27 20:20:22 5691

原创 Transformer

Transformer 就是一个Sequence-to-sequence (Seq2seq) 的model。Sequence-to-sequence 的model就是 input是一个sequence,由机器自己决定output的长度有什么的应用是Seq2seq的model呢?举例来说一个很好的应用,就是语音辨识 输入是声音讯号,输出是语音辨识的结果输入和输出的长度,当然是有一些关系,但是却没有绝对的关系,有机器自己决定要输出多少字。还有机器翻译,和语音翻译你可能会说,有了语音辨识和机器翻译

2021-08-11 12:54:36 752 2

原创 Deep Learning

Deep Learning 的前世今生step1:define a set of function定义一个function 这个function其实就是neural network每个Logistic Regression 的weights 和 biases 的参数合在一起就是Network parameter。我们可以用不同的方法来连接这些Neuron,这些是需要你手动设计的。最常见的连接方式:Fully Connect Feedforward Network你把你的Neuron 排成一

2021-08-08 19:59:55 165

原创 为什么我们要Deep Learning?

为什么我们要deep learning?你可能很直接说,这个答案很简单啊。因为越deep,performance就越好。下面是一个很早年的一个实验(2011), Interspeech里面的某一篇paper你会发现越来越deep以后,它的performance ,error rate就越来越低。但是如果你稍微有一个ML的常识的话,这个结果并没有让你太surprise,因为本来model越多的parameter它cover的function set就越大,它的bias就越小,如果你今天有够多的tra

2021-08-04 09:52:17 803

原创 一文搞懂RNN和LSTM

RNN和LSTMRNNRNN基本概念RNN的其它变形LSTM理论基础运行过程(硬核)最终模型RNN为了引入RNN ,我们要举的例子是Slot FillingSlot Filling:你的系统要自动的知道这边的的每一个词汇,它属于哪一个slot这个问题怎么解呢?这个问题当然也可以用一个Feedforward 的neural network来解。input就是一个词汇,把词汇丢到这个neural network里,需要先把它变成一个vector(方法有很多) 。但是光这样是不够的,没有办法so

2021-08-03 13:06:46 480

原创 Word embedding

Word embedding视频链接Word embedding:词向量dimension reduction:维数缩减Word embedding 其实是 dimension reduction一个非常好、非常广为人知的应用。如果我们今天要你用一个vector 来表示一个Word,你会怎么做呢?最经典的做法叫做 1-of-N encoding每个word 对应的vector都不一样,但是从这个vector里面,你没有办法得到任何咨询。比如说 cat 和 dog 都是动物这件事。那怎么办

2021-08-01 11:32:25 307

原创 Logistic Regression

视频链接我们要做的:step 1:Function setStep 2: Goodness of a FunctionStep 3: Find the best function把两项 分别代入:Logistic Regression VS Linear RegressionLogistic Regression + Square ErrorLogistic Regression + Square Error会出现距离目标很远 很近的时候微分算出来都是 0 。如果选用Sq

2021-07-28 20:55:21 332

原创 6.Classification

接下来我们要进入一个新的主题:分类分类的input 是一个object x ,output 是这个object 属于哪一个class。需要用数字来表示一个宝可梦,才能够把它放到一个function里面;可以把它的特性数值化(生命值,攻击力,速度…)为了完成这个任务,我们要先收集data (例:input 皮卡丘 output点)那怎么解这个classification 的问题?如果classification 就当做Regression 的问题来硬解,这么做会遇到什么样的问题呢?如果

2021-07-25 17:45:01 281

原创 如何优化Deep Learning?

首先回顾一下我们之前学过的:• SGD• SGD with momentum• Adagrad• RMSProp• AdamSome Notationsmt + 1 : 动量L(θt;x t) : 表示y 和 y^ 之间的差距What is Optimization about?optimization 要做些什么?• Find a ???? to get the lowest Σ???? ????(????; ????) !!• Or, Find a ???? to get th

2021-07-20 20:43:21 195 3

原创 4.Gradient Descent

李宏毅2021春机器学习笔记1.机器学习介绍2.Regression3.Bias and Variance4.Gradient DescentTip 1:Tuning your learning ratesAdagradTip 2:Stochastic Gradient DescentTip 3:Feature ScalingFeature scaling 常见做法:Gradient Descent Theory高能预警!!!Tip 1:Tuning your learning rates大

2021-07-14 17:31:56 123 1

原创 3.Bias and Variance

Bias and Variance判断依据:处理方式:Model SelectionCross Validation 交叉验证N-fold Cross Validation : N折交叉验证我们上一节有看到说,如果你选择不同的function set 你就选择不同的model ,你在testing data上也会得到不同的error。而且越复杂的model不见得会给你越低的error。本节讨论的问题,这些error来自什么地方?error 有两个来源:一个是来自bias一个是来自于varianc

2021-07-11 18:09:32 171 4

原创 2.Regression

训练过程(三个步骤):先写出一个有未知数的function,这个未知数以后我们都用 θ 来代表一个model里面所有的未知函数定义一个loss,loss是一个function,这个loss的输入是一组参数,去判断这一组参数好还是不好解一个optimization的problem,你要去找一个 θ – 可以使loss的最小,最小的定义为θ*把θ* 用在测试资料上,也就是把 θ*带入fθ(x) 中未知的参数这个Loss function 他是一个function 的 functio

2021-07-11 18:06:33 149 2

原创 李宏毅2021春机器学习笔记--1.机器学习介绍

1.机器学习介绍一、机器学习就是自动找函数二、寻找什么样子的函数式1. regression(回归)2. classification(分类)1)Binary Classification(二元分类):2)multi-class Classification(多层次分类):3. generation(生成):产生有结构的复杂东西 (例如:文句、图片)三、怎么告诉机器 想找什么样的函数式1.函数式的Loss:预测结果的出错率。损失函数(loss function)用来估量模型的

2021-07-05 19:35:07 436 2

原创 前端数据校验

数据校验效果图代码注意事项当前端做一些表单时,通常涉及到一些数据校验,比如字符长度,是否非空,两次输入数据是否一致。这些功能完全可以通过脚本实现。效果图废话不多说,直接上代码。代码<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>数据校验</title> <!-- 数据校验部分-->

2021-06-04 18:30:10 2768

原创 13.Self-Attention

讲完CNN以后,要介绍另一个常用的network架构 – Self-attention。到目前为止,我们的network的input都是一个向量,那如果输入是一排向量呢?而且向量的数目是会改变的呢?例如:输入的是一个句子,一段语音,一个图,一个分子。。。可能的输出:第一种:每一个向量都有一个对应的label(又叫Sequence Labeling)第二种:只有一个label第三种:机器自己决定要输出多少个label这种任务又叫做seq2seq(语音辨识,翻译就是seq2seq的任务,因为

2021-04-27 09:30:09 405

原创 12.卷积神经网络CNN

视频链接12.卷积神经网络CNNNetwork的一个架构 Convolutional Neural Network,专门被用在影像注:在下面的讨论中,我们都假设我们的模型输入的图片大小固定。模型的输入是一个图片,模型的目标是分类,输入是一个向量,向量的长度就觉得了你现在的模型可以辨识出多少不同种类的东西。接下来的问题是怎么把一个图像当做一个模型的输入呢?对电脑来说一张图片是一个三维的Tensor(维度大于2的矩阵就是Tensor)我们只要把图片变成一个向量,我们就可以把他当做是network

2021-04-24 20:31:18 196

原创 11.类神经网络训练不起来怎么办(四)批次标准化(Batch Normalization)

11(五)批次标准化(Batch Normalization)我们觉得说error surface 如果很崎岖的时候,它比较难train,我们能不能够直接把山铲平,让它比较好train呢?batch normalization就是其中一个把山铲平的想法。在一开始讲optimization 的时候,一开始就说不要小看optimization这个问题。有时候就是你的error surface 是confessed 的(比如一个碗状)都不见得很好train。那我们举的例子就是假设你的两个参数,他们对los

2021-04-13 22:10:44 458 1

原创 9.类神经网络训练不起来怎么办(三)Adaptive Learning Rate

9 类神经网络训练不起来怎么办(三)自动调整学习率自动调整学习速率:Adaptive Learning Ratecritical point 不一定是我们训练过程中最大的阻碍。往往在训练一个network时,我们会把它的loss记录下来,通常随着参数update的次数增加loss会减小,最后就卡住了,多数时候,大家就会猜说是不是走到了critical point,因为gradient = 0 ,没法更新参数。但你真的确认过,当loss无法在下降的时候,gradient 真的很小吗?下面这个例子,当

2021-04-12 20:27:37 355

原创 markdown文档中上标下标

效果:md输出:g<sub> 1</sub>g<sup>1</sup>g<sub> i </sub><sup>1</sup>

2021-04-12 18:02:56 191

原创 8.类神经网络训练不起来怎么办(二)batch and momentum

视频链接8 类神经训练不起来怎么办(二)批次与动量批次:batch动量:momentum两个有可能可以对抗 saddle point 或local minima 的技术。Batch拿一个batch的资料拿出来算loss,所有的batch 看过一遍叫一个epochshuffle(洗牌) 有很多不同的做法,常见的做法是在每一次epoch开始之前会分一次batch,每一个epoch的batch都不一样。为什么要用batch?(带着问题往下读)左边 没有用batch的,要把所有的资料都看过一遍,

2021-04-11 21:20:07 266

原创 7.类神经网络训练不起来怎么办(一)局部最小值与鞍点

视频链接7. 类神经网络训练不起来怎么办(一)局部最小值与鞍点gradient为零的点统称为critical point​ 局部最小值:local minima​ 鞍点:saddle pointloss没办法在下降也许是因为卡在了critical point为什么要分辨?如果是local minima 那可能就没有路可以走了,如果是saddle point 还是有路可以走的,使loss更低。如何分辨到底是卡在local minima 还是 saddle point?L (θ) lo

2021-04-11 15:36:47 456

原创 机器学习笔记 --6.机器学习任务攻略

视频链接2.机器学习任务攻略训练资料就是要拿来训练我们的model训练过程(三个步骤):先写出一个有未知数的function,这个未知数以后我们都用 θ 来代表一个model里面所有的未知函数定义一个loss,loss是一个function,这个loss的输入是一组参数,去判断这一组参数好还是不好解一个optimization的problem,你要去找一个 θ – 可以使loss的最小,最小的定义为θ*把θ* 用在测试资料上,也就是把 θ*带入fθ(x) 中未知的参数作业通

2021-04-10 16:33:16 367

原创 java 运算符 --算术运算符

运算符是一种特殊的符号,用以表示数据的运算、赋值和比较等。可以细分为以下几类:算术运算符赋值运算符比较运算符(关系运算符)逻辑运算符位运算符三元运算符本次介绍算术运算符,常见运算符 符号即意义如下表所示:小细节:/*运算符之一:算术运算符+ - + - * / % (前)++ (后)++ (前)-- (后)-- +*/class AriTest { public static void main(String[] args) { //除号:/ int n

2021-03-25 17:35:54 221

原创 HJ61放苹果c++

题目链接题目描述把m个同样的苹果放在n个同样的盘子里,允许有的盘子空着不放,问共有多少种不同的分法?(用K表示)5,1,1和1,5,1 是同一种分法。数据范围:0<=m<=10,1<=n<=10。本题含有多组样例输入。输入描述:输入两个int整数输出描述:输出结果,int型示例1输入7 3输出8思路设f(m,n) 为m个苹果,n个盘子的放法数目,则先对n作讨论,当n>m:必定有n-m个盘子永远空着,去掉它们对摆放苹果方法数目不产生影响。即if(n

2021-03-20 21:06:19 312

原创 面试题:==和equals的区别

==操作符与equals方法一、==和equals的区别二、 == 操作符的使用:三、equals()方法的使用:四、上代码:一、==和equals的区别== 既可以比较基本类型也可以比较引用类型。对于基本类型就是比较值,对于引用类型就是比较内存地址。equals的话,它是属于java.lang.Object类里面的方法,如果该方法没有被重写过默认也是 = =;我们可以看到String等类的equals方法是被重写过的,而且String类在日常开发中用的比较多,久而久之,形成了equals是

2021-02-09 10:51:46 1100

原创 面试题:多态是编译时行为还是运行时行为?

先给出答案,多态是运行时行为本题主要是考察对多态性的理解关于多态性的理解后面我会写一篇文章来阐述一下下面引用一段代码来证明此答案package com.codediao.java5;import java.util.Random;//面试题:多态是编译时行为还是运行时行为? 答:运行时行为//证明如下:class Animal { protected void eat() { System.out.println("animal eat food"); }}class

2021-01-30 18:34:09 2168

原创 Eclipse Debug功能的使用教程

以代码运行为例,演示debug功能package com.codediao.java;public class DebugTest { public static void main(String[] args) { int i = 10; int j = 20; System.out.println("i = " + i + ", j = " + j); DebugTest test = new DebugTest(); int max = test.getMax(i,

2021-01-28 19:30:06 4257

原创 一道笔试题

一道笔试题需要在method方法调用之后,仅打印出a=100,b=200,请写出method方法的代码public class Test{ public static void main(String[] args){ int a=10; int b=10; method(a,b); System.out.println("a="+a); System.out.println("b="+b); }}方法一:用一些“小技巧”public static void metho

2021-01-17 17:42:37 143

原创 eclipse 常用快捷键

eclipse 常用快捷键1.补全代码的声明:alt + /2.快速修复: ctrl + 13.批量导包:ctrl + shift + o4.使用单行注释:ctrl + /5.使用多行注释: ctrl + shift + /6.取消多行注释:ctrl + shift + \7.复制指定行的代码:ctrl + alt + down 或 ctrl + alt + up8.删除指定行的代码:ctrl + d9.上下移动代码:alt + up 或 alt + down10.切换到下一行代码空位

2021-01-15 12:18:31 59

原创 2020-10-24

1024快乐~

2020-10-24 15:39:45 81

原创 一文搞懂深度优先遍历

写在前面图及其遍历算法的基本概念网上教程有很多,这里不在进行赘述。本文侧重于算法的实现及其思想的讨论,所有代码均为伪代码,意在能简洁明了的阐述算法。一、 “原生”dfs1.分析深度优先搜索算法需要分别实现以下内容:1.访问顶点的实现2.“依次从顶点V的未被访问的邻接点出发进行深度遍历”其中 2 主要涉及:a.顶点是否被访问标识;b.顶点v的各邻接点的求解;c.“从各邻接点出发深度遍历”的实现。2.代码实现:基于上述讨论可得dfs算法描述如下:void dfs(graph G,in

2020-09-23 11:18:42 1854 6

原创 html设置网页div的显示层次顺序z-index

z-index定义和用法z-index 属性的值设置元素的堆叠顺序。拥有更高堆叠顺序的元素总是会处于堆叠顺序较低的元素的前面。注释:1.元素可拥有负的 z-index 属性值。2.Z-index 仅能在定位元素上奏效!说明该属性设置一个定位元素沿 z 轴的位置,z 轴定义为垂直延伸到显示区的轴。如果为正数,则离用户更近(靠上层),为负数则表示离用户更远(靠底层)。例子:(css文件中)...

2020-04-24 18:51:06 1943

transformer.py

py文件格式,下载就可以运行 通过pytorch对transformer模型进行实现

2021-11-25

BERT.py-pytorch实现

py文件格式,下载就可以运行.使用pytorch实现bert模型整个代码是一个比较简单的实现,是为了让大家更好的理解模型

2021-11-25

v4.0-Java面试突击版.pdf

java面试突击版,金三银四,不放弃任何一个机会

2021-04-03

2021年java面试题.pdf

java面试题,金三银四抓住机会

2021-04-03

数据结构和算法3.0.pdf

五百多到算法题,详解和详细代码均有

2021-04-02

C语言C++常见面试题(含答案).pdf

金三银四期间,搜集到的一些面试题,希望可以帮到你

2021-03-25

软件设计师中级历年真题.zip

软考中级历年真题+答案

2021-03-07

杭电oj分类.docx

杭电oj分类

2021-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除