2026-03-31 技术杂货铺 Java手搓简易Transfomer - Attention部分 Attension也是整个 Transformer 里最精髓的部分了, 也卡了我相当之久前向传播解析部分注意力公式如下, 很晦涩, 但我尽可能以简单的方式来解释这些问题$$ Attention(Q,K,V)=softmax\left(...
2026-03-18 技术杂货铺 Java手搓简易Transfomer - Tokenizer部分 搭建一个简易的词表, 把每个符号转换为token, 因为这样最简单了😭 public Tokenizer(String dirName){ this.dirName = dirName; thi...
2025-12-26 技术杂货铺 从噪点到收敛:一周内构建出了一套MC风格的文生图模型的记录 我想,这不会是一篇教程,也不是一篇非常成功的可借鉴的经验它是一份关于 我自己构建的模型,为什么一开始一定失败 的个人记录过去的接近一周的时间,我尝试训练一个能够生成 16*16像素的Minecraft 风格 文生图的AI模型这个目标并...