据介绍,这款模型主打“推测解码”能力。其基本原理是使用小型草稿模型生成一组候选 token,然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token,而不会影响性能,从而显著减少 RAM 占用,实现效率提升。
AMD 表示,这款模型在四个 AMD Instinct MI250 节点训练了六天,其“编程专用版本”变体 AMD-Llama-135m-code 则额外耗费了四天时间进行微调。
2023-12-13
2024-03-11
2023-11-19
2023-12-25
微软资讯推荐
win10系统推荐
系统教程推荐