近日,计算机学院首届硕士研究生陈泳财(导师:张磊)以第一作者身份在国际权威期刊Information Fusion(计算机科学Top期刊,中科院1区,影响因子15.7)上发表题为“PromptMix: LLM-Aided Prompt Learning for Generalizing Vision-Language Models”的研究论文。广东石油化工学院为第一作者单位,张磊教授为通讯作者。
该研究聚焦真实工业场景中数据稀缺与目标特征细微所带来的识别难题,提出一种基于大语言模型辅助的提示学习进化框架(PromptMix)。研究从语义提示学习、多模态信息融合以及预训练数据与领域数据对齐三个方面对模型进行系统优化,有效缓解了低数据条件下模型易过拟合及提示表达能力不足的问题。通过构建模态无关共享表示(MASR)、大语言模型辅助的提示进化机制(LAPE)以及跨注意力适配器(CAA)等关键组件,显著提升了模型的语义表达能力与多模态融合能力。相关实验在六个公开工业数据集以及私有数据集上开展,结果表明该方法能够有效增强视觉语言模型的领域适应能力,并在基类到新类别识别以及小样本学习任务中实现更加稳定的泛化性能。研究成果为解决数据受限条件下的智能工程应用问题提供了新的技术思路与方法支持。
本研究得到了国家自然科学基金、广东省自然科学基金的支持。

论文图片
(文/图 计算机学院)
撰稿:陈泳财 李业媚 初审:吴长虹 李宗宝 范忠烽 复审:蔡雯姬 终审:张海明 贺嫁姿