纯净基地 - 专注分享最好用的电脑系统

当前位置: 纯净基地 >  微软资讯 >  AMD推出自家首款小语言模型“Llama-135m”,助力深度学习发展

AMD推出自家首款小语言模型“Llama-135m”,助力深度学习发展

更新时间:2024-09-29 19:32:44作者:czlaby
9 月 29 日消息,AMD 在 Huggingface 平台公布了自家首款“小语言模型”AMD-Llama-135m,该模型具有推测解码功能,拥有 6700 亿个 token,采用 Apache 2.0 开源许可,附模型地址如下(点此访问)。

AMD推出自家首款小语言模型“Llama-135m”,助力深度学习发展

据介绍,这款模型主打“推测解码”能力。其基本原理是使用小型草稿模型生成一组候选 token,然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token,而不会影响性能,从而显著减少 RAM 占用,实现效率提升。

AMD 表示,这款模型在四个 AMD Instinct MI250 节点训练了六天,其“编程专用版本”变体 AMD-Llama-135m-code 则额外耗费了四天时间进行微调。

Copyright ©  2012-2024 纯净基地 版权声明 网站地图