世界杯(中国) AMD 推出 vLLM-ATOM 插件,加快 DeepSeek、Kimi 等 AI 推感性能

IT之家 5 月 12 日音书,科技媒体 Wccftech 昨日(5 月 11 日)发布博文,报谈称 AMD 推出 vLLM-ATOM 插件,在不变调现存 vLLM 号召、API 和使命流的前提下,提高 DeepSeek-R1、Kimi-K2 和 gpt-oss-120B 等谣言语模子推感性能。
IT之家注:vLLM 是面向谣言语模子部署的开源推理框架,要点优化高并发工作场景下的混沌和显存哄骗率。与一般“单次调用”推理器具不同,它更强调恳求颐养、KV 缓存和衔尾批不断,开云体育(中国)官方网站稳当企业把模子作念成永久在线工作。
AMD 本次推出的 vLLM 插件提供了一套更逼近 AMD Instinct GPU 的推理优化决议,尽量不改变建造者现存使用姿首,让用户继续使用原有 vLLM 号召、API 和端到端使命流,世界杯预选赛下单而插件会在后台承袭优化。

vLLM-ATOM 插件要点面向 Instinct MI350、MI400,以及 MI355X 等 GPU。从架构上看,vLLM-ATOM 分红 3 层:
对企业和建造者来说,这套决议的中枢价值不仅仅“更快”,还在于部署门槛更低。AMD 把它包装成“零学习本钱”,意味着现存基于 vLLM 的工作经过表面上不错平滑挪动到 AMD 后端。
开云体育(kaiyun)官网该插件营救多个模子,包括 Qwen3、DeepSeek、GLM、gpt-oss、Kimi 等,并隐蔽 MoE、夹杂 MoE、粘稠模子,以及文本加视觉的 VLM 场景。
该插件营救的代表模子包括 Qwen3-235B-A22B-Instruct-2507-FP8、DeepSeek-R1-0528、openai / gpt-oss-120b 和 amd / Kimi-K2.5-MXFP4世界杯(中国)。
声明:新浪网独家稿件,未经授权谢却转载。 -->