网站首页 > 文章精选 正文
IT之家 12 月 17 日消息,微软在 GitHub 上发布了名为 MarkItDown 的开源 Python 库,可以将 Office 文档在内的多种文件格式,转换为 Markdown 格式。
用户通过该工具转换后,有助于文本索引、分析等多种应用场景,并支持开发者利用大型语言模型进行图像描述。
IT之家附上 MarkItDown 库当前支持的文件格式如下:
PDF (.pdf)
PowerPoint (.pptx)
Word (.docx)
Excel (.xlsx)
Images (EXIF metadata, and OCR)
Audio (EXIF metadata, and speech transcription)
HTML (special handling of Wikipedia, etc.)
其它各种文本格式 (csv, json, xml, etc.)
开发人员还可以配置 MarkItDown 库,使用大型语言模型来描述图像,需要将 mlm_client 和 mlm_model 参数设置为 MarkItDown 对象,如下所示:
from markitdown import MarkItDown from openai import OpenAI client = OpenAI() md = MarkItDown(mlm_client=client, mlm_model="gpt-4o") result = md.convert("example.jpg") print(result.text_content)
由于 MarkItDown 库在 MIT 开源许可下可用,因此开发人员可以自由使用、修改和分发它,唯一的要求是他们在分发时包含原始许可证和版权声明。
- 上一篇: 15种常用的在线工具网站清单「值得收藏」
- 下一篇: JUC整理笔记三之测试工具jcstress
猜你喜欢
- 2025-01-10 要想做好网店的一件代发,需修改MD5,图片秒变新品,你知道吗?
- 2025-01-10 视频MD5值怎么修改?
- 2025-01-10 夏普MD随身听大全篇目之Sharp MD-SS70
- 2025-01-10 你不可缺少的技能——Markdown编辑
- 2025-01-10 C# 13 和 .NET 9 全知道 :7 包装和分发 .NET 类型 (3)
- 2025-01-10 Visual Studio Code 和 Visual Studio 免费 Copilot 计划
- 2025-01-10 Gromacs基本模拟流程
- 2025-01-10 居家办公不用愁,这七款办公软件你值得拥有!
- 2025-01-10 [Eclipse篇]05.从菜鸟开始のSpket插件.md
- 2025-01-10 教大家怎么用GitHub免费搭建自己的博客网站
- 05-05MyBatis的三种分页方式,你学废了吗?
- 05-05如何写一个简单的分页(最简单的分页)
- 05-05详解如何使用Spring Data JPA进行数据的分页与排序
- 05-05手速太快引发分页翻车?前端竞态陷阱揭秘
- 05-05前端分页机制的具体实现(分页前端需要做什么)
- 05-05一个后勾腿动作,有效疏通血管,改善下肢发麻,促进全身燃脂
- 05-05大型调相机起动及并网研究(什么是调相机,与发电机区别)
- 05-05你们都是托:动态对比度其实是骗你的
- 最近发表
- 标签列表
-
- newcoder (56)
- 字符串的长度是指 (45)
- drawcontours()参数说明 (60)
- unsignedshortint (59)
- postman并发请求 (47)
- python列表删除 (50)
- 左程云什么水平 (56)
- 计算机网络的拓扑结构是指() (45)
- 稳压管的稳压区是工作在什么区 (45)
- 编程题 (64)
- postgresql默认端口 (66)
- 数据库的概念模型独立于 (48)
- 产生系统死锁的原因可能是由于 (51)
- 数据库中只存放视图的 (62)
- 在vi中退出不保存的命令是 (53)
- 哪个命令可以将普通用户转换成超级用户 (49)
- noscript标签的作用 (48)
- 联合利华网申 (49)
- swagger和postman (46)
- 结构化程序设计主要强调 (53)
- 172.1 (57)
- apipostwebsocket (47)
- 唯品会后台 (61)
- 简历助手 (56)
- offshow (61)