网站首页 > 文章精选 正文
环境:SpringBoot3.4.2
1. 简介
人类处理知识时,会同时通过多种数据输入模式进行。我们的学习方式、经验积累本质上都是多模态的。我们并非仅依赖视觉、仅依赖听觉或仅依赖文本,而是综合运用多种感官。
与之相反,传统机器学习往往专注于针对单一模态数据进行处理的专用模型。例如,我们开发了用于文本转语音或语音转文本任务的音频模型,以及用于目标检测和分类等任务的计算机视觉模型。
然而,新一轮的多模态大型语言模型浪潮正悄然兴起。例如,OpenAI 的 GPT-4o、谷歌的 Vertex AI Gemini 1.5、Anthropic 的 Claude3,以及开源模型 Llama3.2、LLaVA 和 BakLLaVA 等,均能够接受多种输入(包括文本、图像、音频和视频),并通过整合这些输入生成文本响应。
Spring AI 多模态能力
多模态(Multimodality)指模型能够同时理解并处理来自多种来源的信息,涵盖文本、图像、音频及其他数据格式。
Spring AI 的 Message API(消息接口) 为多模态大型语言模型(LLMs)提供了所有必要的抽象层支持,开发者可通过该接口实现跨模态数据的无缝整合与交互,无需底层适配即可构建支持文本、图像、音频等多输入源的AI应用。
说明:
UserMessage 的 content 字段 用于承载主要文本输入,而可选的 media 字段 则支持添加一种或多种跨模态附加内容(如图像、音频、视频等)。字段通过 MimeType 明确标识模态类型,以定义数据格式(如 image/jpeg、audio/mp3)。
接下来,我们将通过实例演示有关图片识别的实例。
2.实战案例
准备环境
<dependency>
<groupId>org.springframework.ai</groupId>
<artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>
配置文件
spring:
ai:
openai:
api-key: sk-xxxooo
base-url: https://api.xty.app
chat:
options:
model: gpt-4
2.1 图片分析
首先,我们准备如下的这张图片,我们对该图片进行分析,看看大模型能分析出什么内容来:
示例代码:
private final ChatClient chatClient ;
@GetMapping("/image")
public String image() {
return this.chatClient
.prompt()
.user(u -> u.text("你看到了什么?")
.media(MimeTypeUtils.IMAGE_PNG, new ClassPathResource("static/multimodal.test.png")))
.call()
.content() ;
}
输出结果
正确的分析出图片中的内容。
2.2 身份证识别
下面我们在准备一张身份证,看看是否能正确的读取出身份证中的内容信息。
示例代码:
@GetMapping("/sfz")
public String sfz() {
String text = """
输出该身份证中的姓名(name), 性别(sex), 民族(nation), 出生(birth), 住址(address), 身份证号码(idNo)。
最终以json格式输出。
""";
return this.chatClient
.prompt()
.user(u -> {
u.text(text)
.media(MimeTypeUtils.IMAGE_PNG, new ClassPathResource("static/sfz.jpg"));
})
.call()
.content() ;
}
输出结果
正确识别出身份证中的所有信息。
2.3 结构化输出
以下示例将演示通过上传汽车图片方式分析图片,并由系统以结构化 JSON 格式返回分析结果(例如各颜色,总数)。
定义数据模型
public record CarCount(List<CarColorCount> counts, int total) {
}
public record CarColorCount(String color, int count) {
}
接着,定义如下Service 发送图片到OpenAI进行分析
@Service
public class CarCountService {
private final ChatClient chatClient;
public CarCountService(ChatClient.Builder chatClientBuilder) {
this.chatClient = chatClientBuilder.build();
}
public CarCount getCarCount(InputStream imageInputStream, String contentType, String colors) {
String text = """
1.统计图像中不同颜色车辆的数量
2.用户通过提示词(prompt)提供图像,并指定需统计的颜色
3.仅统计用户提示词中明确指定的颜色(忽略其他颜色)
4.过滤用户提示词中的非颜色信息(如无关文本或无效描述)
5.若用户提示词中未指定任何颜色,直接返回总数为 0
""" ;
return chatClient.prompt()
.system(systemMessage -> systemMessage
.text(text))
.user(userMessage -> userMessage
.text(colors)
.media(MimeTypeUtils.parseMimeType(contentType), new InputStreamResource(imageInputStream)))
.call()
.entity(CarCount.class);
}
}
REST接口
@PostMapping("/count")
public ResponseEntity<?> getCarCounts(@RequestParam("colors") String colors,
@RequestParam("file") MultipartFile file) {
try (InputStream inputStream = file.getInputStream()) {
var carCount = carCountService.getCarCount(inputStream, file.getContentType(), colors);
return ResponseEntity.ok(carCount) ;
} catch (IOException e) {
return ResponseEntity.status(HttpStatus.INTERNAL_SERVER_ERROR).body("图片上传失败");
}
}
接下来,我们准备如下的图片
输出结果
猜你喜欢
- 2025-06-10 Spring Cloud Feign 总结问题,注意点,性能调优,切换okhttp3
- 2025-06-10 SpringBoot 数据验证与表单处理全面指南(史上最全)
- 2025-06-10 Spring Boot 3.x 新特性详解:从基础到高级实战
- 2025-06-10 SpringBoot与MinIO整合,实现大文件分片上传与分片合并功能
- 2025-06-10 PDF文件添加二维码水印(pdf怎么加二维码)
- 2025-06-10 Spring Boot超大文件上传的正确方式
- 2025-06-10 疯传阿里内网的SpringMVC笔记,被一个离职员工泄露,手慢无
- 2025-06-10 Java隐藏的10倍效率技巧!90%程序员不知道的魔法方法(附代码)
- 2025-06-10 Spring Boot | 整合 Minio 实现文件上传
- 2025-06-10 java轻松玩转Excel之EasyExcel(java版execute)
- 最近发表
- 标签列表
-
- newcoder (56)
- 字符串的长度是指 (45)
- drawcontours()参数说明 (60)
- unsignedshortint (59)
- postman并发请求 (47)
- python列表删除 (50)
- 左程云什么水平 (56)
- 计算机网络的拓扑结构是指() (45)
- 编程题 (64)
- postgresql默认端口 (66)
- 数据库的概念模型独立于 (48)
- 产生系统死锁的原因可能是由于 (51)
- 数据库中只存放视图的 (62)
- 在vi中退出不保存的命令是 (53)
- 哪个命令可以将普通用户转换成超级用户 (49)
- noscript标签的作用 (48)
- 联合利华网申 (49)
- swagger和postman (46)
- 结构化程序设计主要强调 (53)
- 172.1 (57)
- apipostwebsocket (47)
- 唯品会后台 (61)
- 简历助手 (56)
- offshow (61)
- mysql数据库面试题 (57)