与或-CSDN博客

原创 pytorch--从零实现一个BERT模型

本文主要从代码的角度一步步来讲解一下BERT模型是如何实现的。(后附完整代码)关于BERT的理论解析现在随便一搜就可以找到很多，在这里就不在赘述。有需要补一下理论知识的，可以看一下下面的文章：图解BERT模型：从零开始构建BERT...

2021-12-11 22:45:00 6436 15

原创 Windows微信双开

Windows微信双开教程 2023.07.11亲测有效

2023-07-11 14:24:53 435

原创面向任务对话系统(TOD)综述

本文介绍面向任务的对话系统，包括模块化和端到端系统。面向任务的系统解决了某一领域的具体问题，如电影票预订、餐厅预订等。由于其卓越的性能，我们专注于基于深度学习的系统。

2022-09-09 12:18:28 1654 1

运算符与表达式算术运算符算术操作符:+，-，*，/，%，++，–表示加减乘除，取余（求模)，自增和自减/运算，两个操作数都是整数时,表示整数除法否则，表示浮点除法整数被0除将产生一个异常，浮点数被O除得到无穷大或者NaNpublic class Test{ public static void main(String[] args){ int i = 3; int j = 2; System.out.println(i/j); // 结果

2022-05-01 08:30:00 640

原创面向任务的对话系统

面向任务的对话系统2.1 流水线方法2.1.1 语言理解2.1.2 对话状态跟踪2.1.3 策略学习2.1.4 自然语言生成2.2 端到端方法面向任务的对话系统一直是口语对话系统的重要分支。在本节中，我们将回顾面向任务的对话系统的流水线方法和端到端方法。2.1 流水线方法基于流水线的面向任务的对话系统的典型结构如图1所示。它包含了四个关键部分：语言理解。它被称为自然语言理解（NLU），它把用户话语解析为预定义的语义槽。对话状态跟踪器。它管理每一轮的输入与对话历史，输出当前对话状态。对话策略学

2022-04-11 14:27:32 1350

原创 GLUE数据集

网盘链接：链接：https://pan.baidu.com/s/1pVxCVcRWEN9Ram5E99_prA提取码：yuhu数据集目录：脚本代码：（需要科学上网）''' Script for downloading all GLUE data.Note: for legal reasons, we are unable to host MRPC.You can either use the version hosted by the SentEval team, which is alre

2021-12-06 15:37:31 652 6

原创正则化为什么这么好用？

直观上理解就是如果正则化????设置得足够大，权重矩阵????被设置为接近于 0 的值，直观理解就是把多隐藏单元的权重设为 0，于是基本上消除了这些隐藏单元的许多影响。下面给出说明：背景知识：方差&偏差L1 L2正则化左图是高偏差（欠拟合）右图是高方差（过拟合）中间是just right。你可以想象一下上图中的右图是一个过拟合的神经网络（高方差）。下图右上角是我们的代价函数J 包含参数W，b。我们添加正则项，它可以避免数据权值矩阵过大，这就是弗罗贝尼乌斯范数，为什么压缩L2范式

2021-10-15 14:42:34 299

原创支持向量机

支持向量机什么是支持向量机？多类问题的支持向量机核化SVC(支持向量分类器)中的重要参数核化支持向量机的优点：核化支持向量机的缺点：什么是支持向量机？支持向量机，因其英文名为 Support Vector Machine，故一般简称 SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。支持向量机(SVM)是一种相对简单的方法。监督机器学习算法用于分类和/或回归。它更倾向于分类，但有时对回归也非常有用。

2021-09-19 12:55:45 1263 2

原创 BERT简介

BERT，是 Bidirectional Encoder Representations（双向编码器表示）的缩写，它从单词的两边（左边和右边）来考虑上下文。以前所有的努力方向，都是一次只考虑单词的一边，要么是左边，要么是右边。这种双向性有助于模型更好地理解使用单词的上下文。此外，BERT 的设计目标是能够进行多任务学习，也就是说，它可以同时执行不同的自然语言处理任务。BERT这个model实际上是一个transformer 的 Encodertransformer BERT一般用在NLP上，它的输入

2021-08-27 20:20:22 5691

原创 Transformer

Transformer 就是一个Sequence-to-sequence (Seq2seq) 的model。Sequence-to-sequence 的model就是 input是一个sequence，由机器自己决定output的长度有什么的应用是Seq2seq的model呢？举例来说一个很好的应用，就是语音辨识输入是声音讯号，输出是语音辨识的结果输入和输出的长度，当然是有一些关系，但是却没有绝对的关系，有机器自己决定要输出多少字。还有机器翻译，和语音翻译你可能会说，有了语音辨识和机器翻译

2021-08-11 12:54:36 752 2

原创 Deep Learning

Deep Learning 的前世今生step1：define a set of function定义一个function 这个function其实就是neural network每个Logistic Regression 的weights 和 biases 的参数合在一起就是Network parameter。我们可以用不同的方法来连接这些Neuron，这些是需要你手动设计的。最常见的连接方式：Fully Connect Feedforward Network你把你的Neuron 排成一

2021-08-08 19:59:55 165

原创为什么我们要Deep Learning？

为什么我们要deep learning？你可能很直接说，这个答案很简单啊。因为越deep，performance就越好。下面是一个很早年的一个实验(2011), Interspeech里面的某一篇paper你会发现越来越deep以后，它的performance ，error rate就越来越低。但是如果你稍微有一个ML的常识的话，这个结果并没有让你太surprise，因为本来model越多的parameter它cover的function set就越大，它的bias就越小，如果你今天有够多的tra

2021-08-04 09:52:17 803

原创一文搞懂RNN和LSTM

RNN和LSTMRNNRNN基本概念RNN的其它变形LSTM理论基础运行过程（硬核）最终模型RNN为了引入RNN ，我们要举的例子是Slot FillingSlot Filling：你的系统要自动的知道这边的的每一个词汇，它属于哪一个slot这个问题怎么解呢？这个问题当然也可以用一个Feedforward 的neural network来解。input就是一个词汇，把词汇丢到这个neural network里，需要先把它变成一个vector（方法有很多）。但是光这样是不够的，没有办法so

2021-08-03 13:06:46 480

原创 Word embedding

Word embedding视频链接Word embedding：词向量dimension reduction：维数缩减Word embedding 其实是 dimension reduction一个非常好、非常广为人知的应用。如果我们今天要你用一个vector 来表示一个Word，你会怎么做呢？最经典的做法叫做 1-of-N encoding每个word 对应的vector都不一样，但是从这个vector里面，你没有办法得到任何咨询。比如说 cat 和 dog 都是动物这件事。那怎么办

2021-08-01 11:32:25 307

原创 Logistic Regression

视频链接我们要做的：step 1：Function setStep 2: Goodness of a FunctionStep 3: Find the best function把两项分别代入：Logistic Regression VS Linear RegressionLogistic Regression + Square ErrorLogistic Regression + Square Error会出现距离目标很远很近的时候微分算出来都是 0 。如果选用Sq

2021-07-28 20:55:21 332

原创 6.Classification

接下来我们要进入一个新的主题：分类分类的input 是一个object x ，output 是这个object 属于哪一个class。需要用数字来表示一个宝可梦，才能够把它放到一个function里面；可以把它的特性数值化（生命值，攻击力，速度…）为了完成这个任务，我们要先收集data （例：input 皮卡丘 output点）那怎么解这个classification 的问题？如果classification 就当做Regression 的问题来硬解，这么做会遇到什么样的问题呢？如果

2021-07-25 17:45:01 281

原创如何优化Deep Learning？

首先回顾一下我们之前学过的：• SGD• SGD with momentum• Adagrad• RMSProp• AdamSome Notationsmt + 1 : 动量L(θt;x t) : 表示y 和 y^ 之间的差距What is Optimization about?optimization 要做些什么？• Find a ???? to get the lowest Σ???? ????(????; ????) !!• Or, Find a ???? to get th

2021-07-20 20:43:21 195 3

原创 4.Gradient Descent

李宏毅2021春机器学习笔记1.机器学习介绍2.Regression3.Bias and Variance4.Gradient DescentTip 1：Tuning your learning ratesAdagradTip 2：Stochastic Gradient DescentTip 3：Feature ScalingFeature scaling 常见做法：Gradient Descent Theory高能预警！！！Tip 1：Tuning your learning rates大

2021-07-14 17:31:56 123 1

原创 3.Bias and Variance

Bias and Variance判断依据：处理方式：Model SelectionCross Validation 交叉验证N-fold Cross Validation : N折交叉验证我们上一节有看到说，如果你选择不同的function set 你就选择不同的model ，你在testing data上也会得到不同的error。而且越复杂的model不见得会给你越低的error。本节讨论的问题，这些error来自什么地方？error 有两个来源：一个是来自bias一个是来自于varianc

2021-07-11 18:09:32 171 4

原创 2.Regression

训练过程（三个步骤）：先写出一个有未知数的function，这个未知数以后我们都用 θ 来代表一个model里面所有的未知函数定义一个loss，loss是一个function，这个loss的输入是一组参数，去判断这一组参数好还是不好解一个optimization的problem，你要去找一个 θ – 可以使loss的最小，最小的定义为θ*把θ* 用在测试资料上，也就是把 θ*带入fθ(x) 中未知的参数这个Loss function 他是一个function 的 functio

2021-07-11 18:06:33 149 2

原创李宏毅2021春机器学习笔记--1.机器学习介绍

1.机器学习介绍一、机器学习就是自动找函数二、寻找什么样子的函数式1. regression（回归）2. classification（分类）1）Binary Classification(二元分类):2）multi-class Classification(多层次分类):3. generation（生成)：产生有结构的复杂东西 (例如：文句、图片)三、怎么告诉机器想找什么样的函数式1.函数式的Loss：预测结果的出错率。损失函数（loss function）用来估量模型的

2021-07-05 19:35:07 436 2

原创前端数据校验

数据校验效果图代码注意事项当前端做一些表单时，通常涉及到一些数据校验，比如字符长度，是否非空，两次输入数据是否一致。这些功能完全可以通过脚本实现。效果图废话不多说，直接上代码。代码<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>数据校验</title>

2021-06-04 18:30:10 2768

原创 13.Self-Attention

讲完CNN以后，要介绍另一个常用的network架构 – Self-attention。到目前为止，我们的network的input都是一个向量，那如果输入是一排向量呢？而且向量的数目是会改变的呢？例如：输入的是一个句子，一段语音，一个图，一个分子。。。可能的输出：第一种：每一个向量都有一个对应的label（又叫Sequence Labeling）第二种：只有一个label第三种：机器自己决定要输出多少个label这种任务又叫做seq2seq（语音辨识，翻译就是seq2seq的任务，因为

2021-04-27 09:30:09 405

原创 12.卷积神经网络CNN

视频链接12.卷积神经网络CNNNetwork的一个架构 Convolutional Neural Network，专门被用在影像注：在下面的讨论中，我们都假设我们的模型输入的图片大小固定。模型的输入是一个图片，模型的目标是分类，输入是一个向量，向量的长度就觉得了你现在的模型可以辨识出多少不同种类的东西。接下来的问题是怎么把一个图像当做一个模型的输入呢？对电脑来说一张图片是一个三维的Tensor（维度大于2的矩阵就是Tensor）我们只要把图片变成一个向量，我们就可以把他当做是network

2021-04-24 20:31:18 196

原创 11.类神经网络训练不起来怎么办(四)批次标准化（Batch Normalization）

11(五)批次标准化（Batch Normalization）我们觉得说error surface 如果很崎岖的时候，它比较难train，我们能不能够直接把山铲平，让它比较好train呢？batch normalization就是其中一个把山铲平的想法。在一开始讲optimization 的时候，一开始就说不要小看optimization这个问题。有时候就是你的error surface 是confessed 的（比如一个碗状）都不见得很好train。那我们举的例子就是假设你的两个参数，他们对los

2021-04-13 22:10:44 458 1

原创 9.类神经网络训练不起来怎么办（三）Adaptive Learning Rate

9 类神经网络训练不起来怎么办(三)自动调整学习率自动调整学习速率：Adaptive Learning Ratecritical point 不一定是我们训练过程中最大的阻碍。往往在训练一个network时，我们会把它的loss记录下来，通常随着参数update的次数增加loss会减小，最后就卡住了，多数时候，大家就会猜说是不是走到了critical point，因为gradient = 0 ，没法更新参数。但你真的确认过，当loss无法在下降的时候，gradient 真的很小吗？下面这个例子，当

2021-04-12 20:27:37 355

transformer.py

BERT.py-pytorch实现

v4.0-Java面试突击版.pdf

2021年java面试题.pdf

数据结构和算法3.0.pdf

C语言C++常见面试题（含答案）.pdf

软件设计师中级历年真题.zip

杭电oj分类.docx

空空如也