【多模态大模型综述】
使用 gpt3.5 精细翻译,完美融合图片等内容
由微软7位华人研究员撰写,足足119页
它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:
- 视觉理解
- 视觉生成
- 统一视觉模型
- LLM加持的多模态大模型
- 多模态 agent
本报告一共7位作者。
发起人和整体负责人为 Chunyuan Li。
他是微软雷德蒙德首席研究员,博士毕业于杜克大学,最近研究兴趣为 CV 和 NLP 中的大规模预训练。
他负责了开头介绍和结尾总结以及“利用 LLM 训练的多模态大模型”这章的撰写。
核心作者一共 4位:
Zhe Gan
Zhengyuan Yang
Jianwei Yang
Linjie Li
他们分别负责了剩下四个主题章节的撰写。
1