文生图大模型

成果单位:
发布时间:2025/12/17
浏览量:8

研发团队

南京邮电大学计算机学院、软件学院、网络空间安全学院鲍秉坤教授

技术领域

人工智能

项目简介

所属领域为新一代人工智能,以跨模态语义解耦为核心,通过文本 - 图像多维度深度融合,构建 DF-GAN 框架并研发轻量级基座模型 GALIP。实现语言到视觉的细粒度语义增强,解决生成质量、速度、算力及数据需求痛点:单图生成 0.08 秒(较扩散模型快 60 倍),仅需 4.8% 训练数据、12% 参数,算力消耗为 8 块 A100 训练天数(对比扩散模型 256 块 A100×24 天),Z-FID 达 9.30(对比 12.63)。具备高性能、低成本、轻量部署和快速生成优势,市场价值较高,产业化前景较好;基于多粒度解耦架构,解决文本语义粗糙与细节重复生成问题,提升生成效率与准确性。对比 Stable Diffusion:生成速度 0.08 秒 / 图(快 60 倍),训练效率仅需 4.8% 训练数据、12% 参数,算力需求显著低于扩散模型,COCO 数据集零样本生成性能优于扩散模型;该成果部署于即绘平台,平台包含 AI 作画、AI 编辑两个功能,可支持多尺度、多样化多场景的动漫、食物、风景图像生成,同时支持图像超分、细节修复、线稿修复、图像上色、虚拟试衣等图像编辑功能。