Pytorch – pad_sequence、pack_padded_sequence、pack_sequence、pad_packed_sequence参数详解与使用
当采用 RNN 训练序列样本数据时,会面临序列样本数据长短不一的情况。比如做 NLP 任务、语音处理任务时,每个句子或语音序列的长度经常是不相同。难道要一个序列一个序列的喂给网络进行训练吗?这显然是行不通的。 为了更高效的进行 batch 处理,就需要对样本序列进行填充,保证各个样本长度相同,在 P…
- Pytorch
- 2022-07-21
深度学习 – 从矩阵运算的角度理解Transformer中的self-attention自注意力机制
转载自https://zhuanlan.zhihu.com/p/410776234 之前我对Transformer中的Self-Attention的机制也是看了很多遍论文,看了很多博文的解读,直到看到了这篇博文,让我醍醐灌顶,打通了任督二脉,果然将复杂问题讲复杂每个人都会,但是从基础的角度将复杂问题…
- Transformer
- 2022-07-20
深度学习 – Python实现CTC Decode解码算法Greedy Search Decode,Beam Search Decode,Prefix Beam Search Decode
在语音识别、OCR文字识别领域,我们在推理的最后一步就是从预测的概率矩阵中使用CTC解码算法找到可能性最大的序列。而常用的CTC解码算法一般有Greedy Search Decode(贪心搜索)、Beam Search Decode(束搜索)、Prefix Beam Search Decode(前缀…
- 深度学习
- 2022-07-19
深度学习 – 基础的Greedy Search和Beam Search算法的Python实现
假设当前词汇表中总共有5个词汇,现在有一个概率矩阵需要解码为词序列,词序列中包含10个词,以下通过Greedy Search Decoder和Beam Search Decoder对该词序列分别进行解码。 1 Greedy Search import numpy as np # greedy dec…
- 深度学习
- 2022-07-18
深度学习 – Transformer详解
转载自: 链接:https://wmathor.com/index.php/archives/1438/ 作者:wmathor Transformer 是谷歌大脑在2017年底发表的论文Attention Is All You Need中所提出的 seq2seq 模型。现在已经取得了大范围的应用和扩…
- Transformer
- 2022-07-16
深度学习 – Transformer详细注释
译自: https://nlp.seas.harvard.edu/2018/04/03/attention.html http://nlp.seas.harvard.edu/annotated-transformer/ 在过去的五年里,Transformer一直被很多多关注。本篇文章以逐行实现并详细…
- Transformer
- 2022-07-15
深度学习 – 通俗理解Beam Search Algorithm算法
1 Beam Search Algorithm 在本文中会尽量以通俗易懂的方式介绍Beam Search Algorithm的原理。 在机器翻译领域(Encoder-Decoder模型),将一种语言翻译成另外一种语言时,我们首先需要对源语言的单词序列进行编码,然后通过深度学习模型训练和推理得到中间输…
- 深度学习
- 2022-07-14
Pytorch – nn.Transformer、nn.TransformerEncoderLayer、nn.TransformerEncoder、nn.TransformerDecoder、nn.TransformerDecoder参数详解
1 nn.Transformer 1.1 nn.Transformer定义 1.函数形式 torch.nn.Transformer(d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=20…
- Pytorch
- 2022-07-13
Pytorch – .to()和.cuda()的区别
1 Pytorch中.to()和.cuda()的区别 如果需要指定的设备是GPU则.to()和.cuda()没有区别,如果设备是cpu,则不能使用.cuda()。也就是说.to()既可以指定CPU也可以指定GPU,而.cuda()只能指定GPU。 1.1 .cuda() 1.单GPU os.envi…
- Pytorch
- 2022-07-11
Pytorch – 模型保存与加载以及如何在已保存的模型的基础上继续训练模型
1 模型的保存和加载 1.1 保存与加载整个模型 保存网络的所有模块,代码量少。 但是这种方法缺点是保存模型的时候,序列化的数据被绑定到了特定的类和确切的目录。 这是因为pickle不保存模型类本身,而是保存这个类的路径, 并且在加载的时候会使用。因此, 当在其他项目里使用或者重构的时候,加载模型的…
- Pytorch
- 2022-07-09
深度学习 – 经典的卷积神经网络(CNN)模型结构
转载自:http://shiyanjun.cn/archives/1974.html 本文主要简单介绍在卷积神经网络发展过程中,一些经常用的改进模型,主要包括LeNet-5、AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet、ZFNet这7个模型。本文不会非常深入讲解各…
- 深度学习
- 2022-07-08
深度学习 – 卷积神经网络CNN简介
转载自:http://shiyanjun.cn/archives/1963.html 1 卷积神经网络CNN 卷积神经网络(Convolutional Neural Networks,CNN)是由纽约大学的Yann Lecun于1998年提出的,其本质是一个多层感知机,它是一类包含卷积计算且具有深度…
- 深度学习
- 2022-07-07