阿里巴巴推出了全新一代Qwen大语言模型,包括Qwen3和Qwen3-MoE两个版本,提供了一系列密集型和专家混合(MoE)模型。vLLM Ascend团队在v0.8.4rc2版本中完成了对Qwen3的适配,用户现在可以在昇腾设备上使用vLLM进行Qwen3的推理。文章详细介绍了如何快速体验Qwen3,包括确认固件/驱动安装、拉起vLLM Ascend容器镜像、使用ModelScope平台加速下载、部署在线推理服务以及进行离线推理的步骤。此外,还提供了example.py的示例代码,展示了如何使用vLLM + vLLM Ascend进行推理。最后,文章还分享了大模型学习路线图和资源,帮助读者更好地掌握大模型技术。
阿里巴巴近日推出全新一代Qwen大语言模型,该模型分为Qwen3和Qwen3-MoE两个版本,前者是密集型模型,后者是专家混合(MoE)模型。Qwen3在vLLM Ascend团队的v0.8.4rc2版本中得到了适配,从而使得用户可以在昇腾设备上使用vLLM进行Qwen3的推理。Qwen3能够为用户带来更高效的自然语言处理体验,对于需要处理大量文本数据的用户来说,具有重要意义。
在快速体验Qwen3的过程中,用户首先需要确认固件/驱动是否已经安装。然后,用户需要拉起vLLM Ascend容器镜像,这一步骤是启动vLLM Ascend环境的关键步骤。接着,用户可以使用ModelScope平台,这个平台可以加速Qwen3模型的下载。之后,用户需要部署在线推理服务,以及进行离线推理。在使用vLLM进行推理的过程中,用户可以参考示例代码example.py,该代码展示了如何使用vLLM和vLLM Ascend进行推理。
文章还为读者提供了大模型学习路线图和资源。学习路线图和资源的提供,有助于读者更好地掌握大模型技术,从而在处理自然语言处理任务时,能够更高效地利用Qwen3模型。
vLLM Ascend部署Qwen3指南[可运行源码]为用户提供了从安装固件/驱动到使用vLLM进行推理的全流程指导,同时提供了学习资源,这对于希望利用Qwen3进行自然语言处理的用户来说,具有很高的实用价值。
2026-03-03 16:07:54
6KB
软件开发
源码
1