d2|黑砂博客

d2l Transformer

终于到变形金刚了，他的主要特征在于多头自注意力的使用，以及摒弃了rnn的操作。目录 1.原理 2.多头注意力 3.逐位前馈网络FFN 4.层归一化 5.残...

d2 03-22 0 94 文章列表

1、本系列博客，主要是面向Java8的虚拟机。如有特殊说明，会进行标注。 2、本系列博客主要参考尚硅谷的JVM视频教程，整理不易，所...

d2 03-22 0 211 文章列表

这一章节与前面写好的function关联太大，建议看书P291. 这章节主要讲述了添加attention的seq2seq,且只在decoder里面添加，所以全文都在讲这个de...

d2 03-22 0 36 文章列表

本章节tensor处理操作也不少，逐个讲解下：目录 1.mask_softmax 1.1探索源码d2l.sequence_mask 2.加性注意力 3.缩放注意力 1.mask_softmax ...

d2 03-22 0 232 文章列表

注意力机制里面的非参数注意力汇聚目录 1.目标任务 2.数据生成 2.1构造原始数值 3.非参数注意力汇聚 4.对注意力机制的理解 1.目标任务使用y_train(有噪声...

d2 03-22 0 595 文章列表

1时间复杂度计算时间复杂度是什么？一个函数，用大O表示，例如：O(1), O(N), O(logN). 定性描述算法的运行时间。时间复杂度常见...

d2 03-22 0 183 文章列表

seq2seq难死了，卡了好久，好不容易有些头绪了。。。目录 1.编码器与解码器 1.1原理 1.2实现 2.seq2seq 2.1构造编码器 2.2构造解码器 repeat与...

d2 03-22 0 595 文章列表

着重讲解一下机器翻译数据集的文件处理，以及最终返回了什么目录 1.载入文件 2.文本预处理 3.词表 4.集成封装 5.总结返回值 1.载入文件 #@sav...

d2 03-22 0 653 文章列表

此二者的本质都是对rnn进行改良：关注当前多还是关注之前多。在此详细讲一下。目录 1.GRU门循环控制单元 1.1理论： 1.2初始化参数 1.3定义网...

d2 03-21 0 978 文章列表

详解一下该章的代码目录 1.从零实现RNN 1.1加载数据 1.2One-hot独热向量 1.3初始化参数 1.4.1tuple补充 1.5封装一下上面的函数 1.6预测 1.6.1函数里面lamba...

d2 03-21 0 870 文章列表