终于到变形金刚了,他的主要特征在于多头自注意力的使用,以及摒弃了rnn的操作。 目录 1.原理 2.多头注意力 3.逐位前馈网络FFN 4.层归一化 5.残...
1、本系列博客,主要是面向Java8的虚拟机。如有特殊说明,会进行标注。 2、本系列博客主要参考尚硅谷的JVM视频教程,整理不易,所...
这一章节与前面写好的function关联太大,建议看书P291. 这章节主要讲述了添加attention的seq2seq,且只在decoder里面添加,所以全文都在讲这个de...
本章节tensor处理操作也不少,逐个讲解下: 目录 1.mask_softmax 1.1探索源码d2l.sequence_mask 2.加性注意力 3.缩放注意力 1.mask_softmax ...
注意力机制里面的非参数注意力汇聚 目录 1.目标任务 2.数据生成 2.1构造原始数值 3.非参数注意力汇聚 4.对注意力机制的理解 1.目标任务 使用y_train(有噪声...
1时间复杂度计算 时间复杂度是什么? 一个函数,用大O表示,例如:O(1), O(N), O(logN). 定性描述算法的运行时间。 时间复杂度常见...
seq2seq难死了,卡了好久,好不容易有些头绪了。。。 目录 1.编码器与解码器 1.1原理 1.2实现 2.seq2seq 2.1构造编码器 2.2构造解码器 repeat与...
着重讲解一下机器翻译数据集的文件处理,以及最终返回了什么 目录 1.载入文件 2.文本预处理 3.词表 4.集成封装 5.总结返回值 1.载入文件 #@sav...
此二者的本质都是对rnn进行改良:关注当前多还是关注之前多。 在此详细讲一下。 目录 1.GRU门循环控制单元 1.1理论: 1.2初始化参数 1.3定义网...
详解一下该章的代码 目录 1.从零实现RNN 1.1加载数据 1.2One-hot独热向量 1.3初始化参数 1.4.1tuple补充 1.5封装一下上面的函数 1.6预测 1.6.1函数里面lamba...