文生图大模型-创新成果-全国高校区域技术转移转化中心(江苏)

创新成果

首页 - 高校成果 - 创新成果

研发团队	南京邮电大学计算机学院、软件学院、网络空间安全学院鲍秉坤教授
技术领域	人工智能
项目简介	所属领域为新一代人工智能，以跨模态语义解耦为核心，通过文本 - 图像多维度深度融合，构建 DF-GAN 框架并研发轻量级基座模型 GALIP。实现语言到视觉的细粒度语义增强，解决生成质量、速度、算力及数据需求痛点：单图生成 0.08 秒（较扩散模型快 60 倍），仅需 4.8% 训练数据、12% 参数，算力消耗为 8 块 A100 训练天数（对比扩散模型 256 块 A100×24 天），Z-FID 达 9.30（对比 12.63）。具备高性能、低成本、轻量部署和快速生成优势，市场价值较高，产业化前景较好；基于多粒度解耦架构，解决文本语义粗糙与细节重复生成问题，提升生成效率与准确性。对比 Stable Diffusion：生成速度 0.08 秒 / 图（快 60 倍），训练效率仅需 4.8% 训练数据、12% 参数，算力需求显著低于扩散模型，COCO 数据集零样本生成性能优于扩散模型；该成果部署于即绘平台，平台包含 AI 作画、AI 编辑两个功能，可支持多尺度、多样化多场景的动漫、食物、风景图像生成，同时支持图像超分、细节修复、线稿修复、图像上色、虚拟试衣等图像编辑功能。