Java手搓简易Transfomer - Attention部分

Attension也是整个 Transformer 里最精髓的部分了, 也卡了我相当之久前向传播解析部分注意力公式如下, 很晦涩, 但我尽可能以简单的方式来解释这些问题$$ Attention(Q,K,V)=softmax\left(...

Java手搓简易Transfomer - Tokenizer部分

搭建一个简易的词表, 把每个符号转换为token, 因为这样最简单了😭 public Tokenizer(String dirName){ this.dirName = dirName; thi...

从噪点到收敛:一周内构建出了一套MC风格的文生图模型的记录

我想,这不会是一篇教程,也不是一篇非常成功的可借鉴的经验它是一份关于 我自己构建的模型,为什么一开始一定失败 的个人记录过去的接近一周的时间,我尝试训练一个能够生成 16*16像素的Minecraft 风格 文生图的AI模型这个目标并...