网站首页 > 文章精选 正文
IT之家 4 月 16 日消息,科技媒体 marktechpost 昨日(4 月 15 日)发布博文,报道称苹果工程师联合法国索邦大学,通过对比早期融合和后期融合模型,发现从头训练的早期融合模型在计算效率和扩展性上更具优势。
多模态 AI 现状与面临的挑战
IT之家援引博文介绍,多模态 AI 旨在同时处理图像、文本等多种数据类型,但整合这些异构数据仍是一大难题。当前技术多采用后期融合(late-fusion)策略,即组合使用预训练的单模态模型(如视觉编码器和语言模型)。
这种方法虽然操作简便,却难以实现真正的多模态理解,单模态预训练带来的固有偏差,可能限制模型捕捉跨模态依赖关系。
此外,随着系统规模扩大,各组件的参数、预训练需求和扩展特性差异显著,导致计算资源分配复杂,影响性能,尤其是在需要深度多模态推理的任务中。
早期融合与稀疏架构的突破
苹果联合团队挑战了传统架构选择,深入研究从头训练的原生多模态模型(NMMs)的扩展特性。
团队对比了早期融合(early-fusion)和后期融合模型,发现从头训练时,两者性能相当,但早期融合模型在低计算预算下更高效且易于扩展。
研究还探索了专家混合(MoE)稀疏架构,发现其能动态分配参数,针对不同模态进行专项优化,相较于稠密模型,可以显著提升性能,这点在小规模模型中优势明显。
分析显示,稀疏模型更倾向于优先扩展训练数据(training tokens)而非活跃参数(active parameters),这与稠密模型的扩展模式形成鲜明对比。
研究团队通过系统实验,训练了从 0.3 亿到 40 亿活跃参数的多模态模型,验证了早期融合和稀疏架构在多模态处理中的潜力。
结果表明,原生多模态模型的扩展规律与语言模型相似,但跨模态数据类型和训练组合会略微影响扩展系数。此外,稀疏模型在等效推理成本下持续优于密集模型,展现出处理异构数据的强大能力。
这些发现挑战了传统设计理念,表明统一早期融合架构结合动态参数分配,或将成为未来高效多模态 AI 系统的重要方向。
猜你喜欢
- 2025-05-11 全新旗舰系列,引爆顶级性能!索泰RTX 5090 D 32GB SOLID OC显卡测评
- 2025-05-11 环形导轨传动“三兄弟”,如何助力产线智能升级?
- 2025-05-11 MX550独显是智商税?如何看待2022年入门级移动显卡?
- 2025-05-11 cvpr 2024|适应长度偏移:用于轨迹预测的FlexiLength网络
- 2025-05-11 计算机组成原理 - 输入输出系统(2)
- 2025-05-11 新国标解读:起重机五大安全防线技术规范与维护指南
- 2025-05-11 用笔记本电脑摄像头录视频哪个软件比较好?
- 2025-05-11 美国罗克韦尔数控系统日常维修,确保设备高效运行!
- 2025-05-11 FANUC SP9031电机锁住或检测器断线故障分析
- 2025-05-11 罗宾斯静音床木工开榫机填数操作(罗宾斯静音床木工开榫机填数操作手册)
- 07-23第六章:DataFrame 的数据运算与分组操作
- 07-23嵌入式中浮点运算小技巧(嵌入式代码讲解)
- 07-23工程计算软件Mathcad技巧集锦(工程数学计算器)
- 07-23LLM量化背后的概念、方法、应用和原理
- 07-23浮点类型和定点类型(浮点和定点有什么组成)
- 07-23一文读懂pytorch基础语法(pytorch详解)
- 07-23js数字(Number)方法汇总(js number string)
- 07-23现场|伦敦放题展:挑战感官的盛夏之展
- 最近发表
- 标签列表
-
- newcoder (56)
- 字符串的长度是指 (45)
- drawcontours()参数说明 (60)
- unsignedshortint (59)
- postman并发请求 (47)
- python列表删除 (50)
- 左程云什么水平 (56)
- 编程题 (64)
- postgresql默认端口 (66)
- 数据库的概念模型独立于 (48)
- 产生系统死锁的原因可能是由于 (51)
- 数据库中只存放视图的 (62)
- 在vi中退出不保存的命令是 (53)
- 哪个命令可以将普通用户转换成超级用户 (49)
- noscript标签的作用 (48)
- 联合利华网申 (49)
- swagger和postman (46)
- 结构化程序设计主要强调 (53)
- 172.1 (57)
- apipostwebsocket (47)
- 唯品会后台 (61)
- 简历助手 (56)
- offshow (61)
- mysql数据库面试题 (57)
- fmt.println (52)