一周大数据行业消息速递
- 随着AI Agent逐步融入软件服务生态和改造升级其能力,数据库将在3个方面加速进化:
- AI工作流适配:集成非结构化数据处理与全面的数据治理能力,如文本、音视频文件的存储、检索与分析,完整的数据清洗、标签、特征提取、质量监控等功能,为AI工作流提供高质量AI-ready数据基础。
- 实时性与高并发处理能力增强:相较于当前遵循固定逻辑的软件应用,AI Agent 动态生成的交互请求在数量上激增且具有更高的随机性,要求数据库进一步提升实时处理和高并发能力,以满足 AI Agent 的海量随机数据交互需求。
- 安全性升级:AI Agent引入数据留痕、模型窃取等特有风险,加之复杂系统带来攻击面扩大和响应处理困难,使得数据库面临更高安全挑战,需从多维度升级系统安全性。
- Snowflake数据库内核版本v9.0发布,针对安全性进行一系列更新:
- 全面支持 Tri-Secret Secure (TSS) 与 AWS 外部密钥存储的集成,以便在 AWS 之外安全地存储和管理客户管理密钥 (CMK)。Snowflake 目前仅测试和支持 Thales HSM 和 Thales CCKM 数据加密产品。
- 私有端点(Pinning private endpoints) -GA。用户在通过 AWS PrivateLink 或 Azure Private Link 进行入站流量配置后,可将流量限制在受信任的私有端点,从而缩小网络攻击面并强化安全态势。(src:Pinning private endpoints — General availability)
- Databrick 发布了一系列产品更新
- 宣布在 AWS 和 Azure 上为 Databricks 无服务器和 Mosaic AI 模型服务工作负载提供出口控制的公共预览版本,可以直接在Unity Catalog中定义,允许集中管理跨多个产品和工作区的出站访问,帮助降低未经授权或意外数据传输的风险,同时可以减少潜在的额外网络成本。具体工作细节:
- 配置细粒度出口策略:用户可通过账户控制台创建或更新网络策略对象,定义工作负载的宏观出口状态以及受限访问时可访问的FQDN和云存储资源列表。
- 集中管理出口态势:每个用户有default-policy对象定义默认网络策略,可更新该对象或创建额外网络策略对象覆盖默认策略,实现不同环境策略的集中管理。
- 审计调试违规行为:策略建立连接时强制执行,拒绝事件记录在system.access架构内的outbound_network系统表中。
- 支持强制模式与试运行模式,可在正式实施前测试策略并避免对现有生产环境造成影响。此外,通过限制数据仅传输至授权目的地,该机制也有助于减少潜在的额外网络成本,并满足高合规行业对于数据安全和治理的要求。(src: 宣布推出针对无服务器和模型服务工作负载的出口控制)
- 在 Databricks Runtime 16.1 公共预览版中提供了对排序规则的支持,让数据库可以按照不同语言和上下文正确地进行文本比较和排序。
- 多语言支持:该功能允许为超过 100 种语言选择相应的排序规则,确保能够按照用户的期望处理文本,如在德语中正确排序带分音符的字符,或将法语中的“?”视为“c”等.
- 丰富的比较功能:可执行诸如不区分大小写的比较来查找英文名称、非英文字母排序以及不区分重音的搜索等任务,简化了多语言文本数据集的排序、搜索和合并操作。
- 性能提升:与传统方法相比,使用排序规则执行不区分大小写的结果查询时,查询执行速度可提高22倍,大幅提升了数据处理的效率。
- 与Spark和SQL的深度集成:排序规则与超过100个Spark和SQL表达式兼容,能够与连接、排序、聚合、聚类等各种数据操作无缝配合,大多数字符串表达式都支持排序规则,如CONTAINS、STARTSWITH、REPLACE、TRIM等。
- 后续版本将支持在更细粒度的层面(如目录、架构或表)设置排序规则,并添加对 RTRIM 的更广泛支持。(src: Introducing Collations to Databricks)
- Oracle 推出Exadata X11M,它是最新一代 Exadata 数据库云平台。
- 可用于多种云部署方式,包括Oracle云、多云部署、专用区域(DRCC)、Oracle Alloy,以及通过Exadata Cloud@Customer在本地数据中心部署。
- 硬件优化:采用最新一代AMD EPYC?处理器,加速Oracle数据库工作负载,实现更快的AI向量查询、IOPS、存储访问和分析扫描。
- 数据缓存与扫描:与Exadata X10M一样,Exadata X11M将最热数据缓存在Exadata RDMA内存(XRMEM)中。得益于软件增强,Exadata 可以在闪存和XRMEM中扫描数据,每个存储服务器可达到高达500 GB/秒的分析吞吐量,64个存储服务器的云系统数据扫描速率可达31 TB/秒。
- 兼容性:Exadata X11M云部署与本地部署完全兼容,使用相同的处理器、内存DIMM、XRMEM、闪存存储和磁盘驱动器,并提供标准化配置。
- 性能一致性:Exadata X11M的性能优势同样适用于本地和云部署。(src: Introducing Exadata X11M for Exadata Database Service and Autonomous Database)
- PG社区针对数据库插件进行了一系列产品更新:
- Powa-archivist 版本v5.0.1发布。powa-archivist 5.0.1 版本主要解决了两项关键问题,包括修复在 pg_dump 操作中对 powa_module_config 的错误,以及修正了在安装 pg_track_settings 扩展时 powa_delete_and_purge_server 函数的异常行为。
- PoWA(PostgreSQL Workload Analyzer)是一款针对 PostgreSQL 的性能分析工具,兼容所有受支持的 PostgreSQL 版本。其核心扩展 powa-archivist 负责收集和汇总多个实例的性能数据,并支持通过实时图表和优化建议(如全局或单查询的索引建议)来帮助用户监控和调优数据库性能。本次更新进一步提升了工具的稳定性和易用性,为用户提供了更可靠的性能分析支持。 (src:powa-archivist 5.0.1 is out!)
- pgspot 0.9.0 发布:升级解析器,修复关键问题。本次更新切换至 PostgreSQL 17 解析器,并修复了一些关键问题:升级底层解析库 pglast 至 7.2,以全面支持 PostgreSQL 17 的语法解析。改进对 PL/pgSQL 中 RETURN QUERY EXECUTE 语句的处理 pgspot 0.9.0 released
- Crunchy Data宣布推出pg_partman版本v5.2.4,其作为 PostgreSQL 分区管理的核心扩展,此版本重点更新包括:支持 UUIDv7 及其他基于时间的自定义编码分区方法,使得文本类型分区列在可编码为时间值的前提下能够被支持。安装时取消超级用户权限的要求,提升安全性与便捷性。提升维护性能,优化分区管理效率。修复了在使用 LIST 分区时与 BIGINT 数据类型相关的问题。(src:pg_partman 5.2.4 released)
- Dalibo 宣布推出 PostgreSQL Anonymizer 2.0。新版本引入了全面的数据匿名化功能,并通过全新的代码架构显著提升了性能和安全性。核心功能更新有:
- 五大匿名化策略:动态掩码(Dynamic Masking)、静态掩码(Static Masking)、匿名导出(Anonymous Dumps)、掩码视图(Masking Views)、掩码数据包装器(Masking Data Wrappers)。
- 增强掩码函数:支持替换(Substitution)、随机化(Randomization)、伪造(Faking)、假名化(Pseudonymization)、部分扰乱(Partial Scrambling)、洗牌(Shuffling)、添加噪声(Noise Addition)及泛化(Generalization)。
- 新增高级伪数据生成器:生成更加逼真的虚拟数据。
- 支持基于角色的透明动态掩码:实现灵活的权限控制。
- 支持多重掩码策略:满足复杂场景需求。
- 支持无缝匿名化导出:通过 pg_dump 提供简单高效的匿名化数据导出。 (src:PostgreSQL Anonymizer 2.0: Better, Faster, Safer,SQLPage v0.32: build web apps in SQL, now with more style !)
- PG社区针对 异构数据库同步工具(SynchDB)、Kubernetes 原生 PostgreSQL 运维工具(CloudNativePG) 和 Oracle 兼容性增强工具(IvorySQL),进行了一系列更新:
- lvorySQL 版本v4.0发布。IvorySQL 4.0 是基于 PostgreSQL 17.0 构建的开源数据库项目,专注于增强 Oracle 兼容性。本次更新的特性有:引入隐形列支持、PL/SQL 包管理、函数定义增强等功能,提升数据库的兼容性和性能,同时优化安装与设置体验。IvorySQL 是一个集成了 PostgreSQL 的性能与可靠性以及 Oracle 数据库功能的解决方案,特别适合从 Oracle 数据库迁移的用户。本次更新通过更强的 Oracle 特性支持和简化迁移流程,为用户提供了更加高效、灵活且成本优化的数据库选择,满足多样化的应用场景需求。(src: [ANNOUNCE] IvorySQL 4.0 Released - Enhanced Oracle Compatibility with PostgreSQL 17.0 Foundation)
- SynchDB 版本v1.0发布。SynchDB 1.0 是 Hornetlabs Technology Inc 发布的 PostgreSQL 插件,旨在实现多源异构数据库(如 MySQL、MS SQL Server)与 PostgreSQL 的实时数据同步。本次更新的是提供无中间件的高效解决方案,用于实时数据复制和集成,解决 1.0 beta1 版本中存在的性能和资源问题,并引入多项新工具以优化插件的性能和灵活性。作为一个 PostgreSQL 插件,SynchDB 通过原生方式支持高性能的数据同步,提供了数据缓存、批量事务处理、JVM 内存控制等性能提升功能,同时新增了多种调试函数、统计视图以及性能调优参数配置。本次更新显著提升了数据库同步效率,为异构数据库的整合提供了更强大的实时解决方案,同时进一步增强了插件的可配置性和稳定性。(src: [ANNOUNCE] SynchDB 1.0 Released - PostgreSQL Extension for Real-Time Database Synchronization)
- CloudNativePG 社区发布了 CloudNativePG Operator 版本 v1.25.0 和 v1.24.2,同时发布了 1.23.x 系列的最终补丁版本 1.23.6,以确保旧版本用户的平稳过渡。本次更新旨在简化 PostgreSQL 的生命周期管理,并增强数据持久性和插件性。CloudNativePG 是一款专为 PostgreSQL 工作负载设计的开源 Kubernetes Operator,提供从集群引导、配置到高可用性、连接路由和灾难恢复的全生命周期管理,支持基于 Kubernetes 的无缝插件。
- 1.25.0 版本引入了数据库自定义资源定义(CRD)实现声明式数据库管理,新增了支持逻辑复制的发布和订阅 CRD,以及同步复制的 dataDurability 配置选项。同时,推出实验性 CloudNativePG Interface(CNPG-I),允许用户通过外部插件插件功能,例如 Barman Cloud 插件展示了备份和恢复插件的独立开发潜力。其他增强功能包括改进的 pg_dump 和 pg_restore 控制、并行集群操作提升效率等。此次更新不仅强化了数据管理和操作效率,还开辟了插件化定制的广阔前景,推动 PostgreSQL 在 Kubernetes 环境中的创新发展。 (src: CloudNativePG 1.25.0 and 1.24.2 Released)
- BCG与QED Investor联合发布《2024年全球金融科技报告》。重点摘录如下:
- 金融科技市场规模:由于全球仍有数十亿人没有银行账户或未充分享受银行服务,以及GenAI带来的效率提升,金融科技行业仍有巨大发展潜力。预计到2030年,全球金融科技市场规模将从目前的3200亿美元增至1.5万亿美元
- 金融科技行业现状:融资和估值双降,但营收增势迅猛
- 金融科技细分赛道营收增速差距显著:
- 挑战者银行是利用金融科技提供创新金融服务的新型银行,专注于传统银行服务不足的细分市场,通过高度数字化和个性化服务吸引客户。它们主要通过互联网和移动应用提供服务,无需线下网点。例如,英国的Monzo和Starling Bank,美国的Chime和Varo,这些银行通过提供电子信用卡、数字储蓄账户、在线贷款等服务,以及个性化的金融工具,如消费预算和行为分析,来提升客户体验。
- 金融科技四大发展主题:
- 嵌入式金融将在2030年无处不在
- 嵌入式金融:将金融服务整合到非金融平台中,使用户在使用非金融应用时能无缝获得金融服务,如支付、借贷、保险等,提升用户体验和企业收入。如支付宝和微信支付。
- 估计到2030年嵌入式金融市场营收规模将超过3200亿美元,其中面向消费者1200亿美元、面向中小企业1500亿美元、面向大企业500亿美元。
- 互联商务蓄势起飞
- 互联商务:银行开展广告业务。利用其海量的客户需求和行为数据,通过数据分析和挖掘,为客户提供个性化的购物推荐和优惠信息。银行可以也建立自己的商务平台,整合各类商家的产品和服务,为客户提供一站式的购物体验。例如,摩根大通的Chase Media Solutions、第一资本的Capital One Shopping及花旗银行的Citi Shop。
- 开放银行带来的新影响
- 开放银行:一种金融服务模式,通过使用开放API等技术手段,允许银行和其他金融机构共享客户数据和金融服务。目前全球有超过65个国家在一定程度上实施了开放银行,预计这趋势将持续。
- 给银行业的影响:影响不大,不太可能改变银行业的基本竞争格局,在开放银行已发展十几年的国家并未出现“杀手级"应用场景,用户渗透率不高。
- 给广告业影响:预计在传统的银行应用场景之外,开发交易层面的数据访问将对广告和互联商务产生更广泛的影响。
- GenAI的变革
- 主要场景:客户支持、监管申报、数字营销、软件的编程、测试和建档。(src:https://web-assets.bcg.com/b9/d4/93b92619496d82b01bbaa9f5361a/2024%E5%B9%B4%E5%85%A8%E7%90%83%E9%87%91%E8%9E%8D%E7%A7%91%E6%8A%80%E6%8A%A5%E5%91%8A-%E5%AE%A1%E6%85%8E%E7%BB%8F%E8%90%A5-%E7%9B%88%E5%88%A9%E6%8F%90%E5%8D%87-%E7%A8%B3%E5%81%A5%E5%A2%9E%E9%95%BF.pdf)
- 中央机关集采数据库,发布《2024 年度事务型数据库软件框架协议联合征集采购项目》征集公告。
- 采购中心:中央国家机关政府采购中心、北京市公共资源交易中心、广东省政府采购中心、安徽省政府采购中心、云南省政府采购和出让中心、吉林省公共资源交易中心(吉林省政府采购中心)
- 中标结果:
- 第1包(通过安全可靠测评的集中式数据库):共11家响应人参与响应,全部响应人通过初审。阿里云、优炫、万里数据库、虚谷伟业、海量数据、南大通用、东方国信、腾讯云中标,瀚高、神舟通用、金仓被淘汰。
- 报价最低:阿里云3.7万元/套
- 第2包(未通过安全可靠测评的集中式数据库):共15家响应人参与响应,全部响应人通过初审,科蓝、天翼云、新华三、航天紫光、移动云、达梦、万里数据库、博阳世通、科源众力、中兴、甲骨文、快立方12家中标,深圳计算科学研究院、太阳塔、星瑞格3家按20%的淘汰率被淘汰。
- 报价最低:科蓝报价0.95万元/套;其次为天翼云2万元/套。
- 第3包(通过安全可靠测评的分布式数据库):共9家响应人参与响应,全部响应人通过初审。阿里云、神舟、中兴、达梦、南大通用、金仓、OceanBase,腾讯云、PingCAP被淘汰。
- 报价最低:阿里云3.7万元/套
- 第4包(未通过安全可靠测评的分布式数据库):共13家响应人参与响应,全部响应人通过初审。科蓝、天翼云、万里数据库、达梦、博阳世通、东方金信、星环、中兴、自然原数、南大通用中标,航天紫光、快立方、爱可生被淘汰。其中:科蓝报价最低9500 元;其次为天翼云2 万元。
- 报价最低:科蓝报价0.95万元/套;其次为天翼云2万元/套
- (src:https://mp.weixin.qq.com/s/tQjgBnix0UsHdGs6ct7mww,https://mp.weixin.qq.com/s/e2h9Yfz_4AbsnmraPzYtSg)
- 国家发展改革委、国家数据局、工业和信息化部联合印发《国家数据基础设施建设指引》。
- 《指引》提出,国家数据基础设施将总体实现“汇通海量数据、惠及千行百业、慧见数字未来”的美好愿景。具体推进路径分为三大阶段:
- 阶段一为2024-2026年,重点完成三项工作,一是开展数据基础设施技术路线试点试验;二是制定统一目录标识、统一身份登记、统一接口要求的标准规范;三是完成国家数据基础设施建设顶层设计,明确国家数据基础设施建设的技术路线和实践路径。
- 阶段二为2027-2028年,将基本形成跨层级、跨地域、跨系统、跨部门、跨业务的规模化数据可信流通利用格局,实现全国大中型城市基本覆盖。
- 阶段三到2029年,基本建成国家数据基础设施主体结构,初步形成国家数据基础设施基本格局,构建数据流通利用体系,形成产业生态,建设和运营体制机制基本建立。
- 国家数据基础设施总体具备四大功能:
- 开放普惠的数据流通。打造低成本、高效率、可信赖的流通环境,实现数据在不同组织、行业之间安全有序流动,面向典型场景创新融合数据应用。
- 多元异构的算力协同。建立多元异构算力统筹调度的能力,实现算力最优配置与动态调整。
- 高效弹性的数据传输网络。显著提升数据交换性能,降低数据传输成本,为数据大规模共享流通提供高质量通道。
- 动态全面的安全保障。构建标准化、多层次、全方位的安全防护框架,系统保障数据基础设施相关的网络、算力、数据、应用安全。
- 《指引》针对国家数据基础设施在数据流通利用、算力、网络、安全等方面,部署了具体建设任务。
- 数据流通利用设施方面,分别建设数据流通利用设施底座、数据高效供给体系、数据可信流通体系、数据便捷交付体系等。
- 算力底座方面,将重点推进算力资源科学布局;东中西部算力协同;算力与数据、算法创新融合;算力发展与安全保障协同。
- 网络支撑方面,主要围绕建设高速数据传输网和推动传统网络设施优化升级展开。
- 安全防护方面,分别面向国家数据基础设施安全保障和数据流通利用安全保障,提出了方向指引。(src:https://mp.weixin.qq.com/s/aNRdWKr8zredPNbuqrP-zQ,https://mp.weixin.qq.com/s/-MOi6CCWYod_R6OertuVUQ)
- 美联储理事会成员 Lisa D. Cook 做了有关2024年美国“经济和金融稳定性评估”的演讲。具体包含以下方面:
- 经济活动:美国经济在2024年表现强劲,GDP在第三季度年化增长3.1%,第四季度预计增长2.5%。劳动力供应的增加(包括25至54岁劳动参与率的恢复和移民的增加)以及劳动生产率的提升(疫情后年均增长1.8%)是主要推动力。此外,家庭支出的强劲表现得益于工资增长。
- 通货膨胀:通胀水平显著下降,2024年11月核心PCE通胀率为2.8%,较2022年6月的7.2%峰值大幅回落。尽管租金和住房服务通胀仍然较高,但其增速已放缓,预计2025年将进一步改善。核心商品价格下降和工资增速放缓对通胀的回落起到重要作用,但未来通胀路径可能仍然不平稳。
- 劳动力市场:劳动力市场总体稳定,但逐渐降温。11月失业率为4.2%,较2023年4月的3.4%有所上升,同时职位空缺与失业人数比已从2022年的2.0降至1.1。自愿离职率和跳槽工资溢价下降,表明劳动力市场趋于平衡,不再对通胀形成显著压力。
- 货币政策:美联储在2024年自9月起累计降息100个基点,当前利率政策的限制性有所减弱。未来货币政策将更为谨慎,进一步降息的时机和幅度将依据通胀和劳动力市场数据。政策目标仍是通过稳定价格和维持最大就业来实现最佳经济结果。
- 重点关注领域:美联储重点关注私人信贷、稳定币、网络安全和生成式AI的潜在金融风险。私人信贷的快速增长可能带来杠杆风险,稳定币缺乏全面监管易导致挤兑风险,网络攻击对金融系统依赖性较强的机构构成威胁,而AI在金融中的集中化应用可能引发系统性风险。对这些新兴领域的监测和风险管理将成为未来的重点工作方向。(src:https://www.federalreserve.gov/newsevents/speech/cook20250106a.htm)
- IDC发布《中国数据仓库软件市场跟踪报告, 2024年上半年》
- 市场规模:2024年上半年中国数据仓库软件市场规模为4.7亿美元,同比增长6.9%。其中本地部署规模2.2亿美元,同比增长4.6%;公有云规模2.5亿美元,同比增长9.1%。预测到2028年,中国数仓软件市场规模将达到21.5亿美元,2023-2028的CAGR为17.9%
- 主要厂商市场份额:
- 本地部署模式:
- 公有云模式:
(src:https://mp.weixin.qq.com/s/qAezRESiUik3n4RDy9oXfg)
- 微软CEO Satya Nadella 预测:AI Agent 将替代所有的SaaS,软件开发迎来新方向。
- 观点:SaaS应用程序本质上只是数据库之上的一层薄薄的用户界面和业务逻辑。
- 未来预测:
- 新软件模式:今后的软件将会由底层数据库和直接与数据库交互的智能代理组成,不再需要传统的硬编码业务逻辑。所有的业务逻辑都会转移到智能代理身上,AI Agent根据用户的需求自动完成任务,如生成按收入排名的前五大客户图表,即使像Excel这样的工具,也可能因AI的发展而变得不再必要。
- 部分软件转型:成为 AI Agent 的代理,AI Agent成为核心层,调用各类工具。如Excel和Word可以被视为Copilot的代理。
- 数据库选型:未来的后端数据库并不重要,Agent并不针对特定类型的数据库。关键是要构建一个与代理配合最有效、最便宜、最适合特定用例的数据库。(src:https://mp.weixin.qq.com/s/BD6jbJLAi7xWeMSHDyTLIw)
- CES 2025于1月7日至10日重返拉斯维加斯,参展单位数量超过4500 家,其中包括约1400家初创公司,还有1100位演讲者将在300多场会议中发言。参会者将见证从AI和数字健康,到先进移动出行、智能社区、可持续发展和无障碍技术等领域的最新发展。
- 【CES 2025】NVIDIA发布了一系列基于全新Blackwell架构的产品,展现了其在图形处理和人工智能领域的最新进展。
- GeForce RTX 50系列显卡,包括RTX 5070、RTX 5070 Ti、RTX 5080和旗舰级的RTX 5090。这些显卡采用Blackwell架构。架构与性能:Blackwell架构集成920亿个晶体管,AI算力达到4000 TOPS,光线追踪性能为280 TFLOPS,着色器性能为125 TFLOPS,显存带宽为1.8 TB/s。DLSS 4技术:新一代深度学习超级采样(DLSS 4)引入多帧生成技术,通过人工智能预测并生成多个未来帧,提升渲染效率,实现高达8倍的性能提升。价格与上市时间:RTX 5070定价549美元,RTX 5070 Ti为749美元,RTX 5080为999美元,RTX 5090为1999美元。这些显卡将于1月下旬至2月初上市。
- Project Digits:个人AI超级计算机。这是全球最小的个人AI超级计算机,搭载全新的GB10超级芯片,基于Grace Blackwell架构。性能:在FP4精度下,GB10芯片提供高达1千万亿次浮点运算的AI性能,支持运行多达2000亿参数的AI模型。 配置:配备128GB统一内存和最高4TB的NVMe存储,使用标准电源即可运行。价格:起价为3000美元。
- NVIDIA Cosmos世界模型,旨在让AI理解物理世界的因果关系、空间结构和力学原理。该模型的特点包括:训练数据:基于2000万小时的驾驶和机器人视频数据进行训练。版本:分为Nano、Super和Ultra三个版本,参数规模从40亿到140亿不等,适用于不同应用场景。开源策略:以开放模型许可的方式发布,开发者可通过NVIDIA API目录或Hugging Face下载模型,进行微调和部署。
- 【CES 2025】AMD发布了一系列新产品,涵盖台式机处理器、笔记本电脑处理器、图形处理单元(GPU)以及专为游戏掌机设计的处理器,展现了其在高性能计算和人工智能领域的最新进展。
- 锐龙(Ryzen)99950X3D和9900X3D台式机处理器。AMD推出了旗舰级台式机处理器锐龙9 9950X3D和锐龙9 9900X3D,均基于Zen 5架构,采用第二代AMD 3D V-Cache技术。锐龙9 9950X3D:拥有16核心32线程,最高加速频率可达5.7GHz,配备144MB总缓存(16MB二级缓存、64MB三级缓存和64MB 3D V-Cache缓存),TDP为170W。锐龙9 9900X3D:具备12核心24线程,最高加速频率为5.5GHz,拥有140MB总缓存,TDP为120W。根据AMD官方数据,锐龙9 9950X3D在1080P高画质下的游戏性能相比前代锐龙9 7950X3D平均提升约8%,相比竞争对手酷睿Ultra 9 285K则有约20%的优势。
- 锐龙AI MAX系列移动处理器。AMD发布了全新的锐龙AI MAX系列移动处理器,旨在为笔记本电脑提供更强大的AI和图形性能。锐龙AI MAX+ 395:配备16个Zen 5核心,最高加速频率5.1GHz,80MB缓存,集成50 TOPS算力的XDNA2架构NPU,以及40单元的RDNA 3.5架构核显,显存带宽达256GB/s。官方数据显示,锐龙AI MAX+ 395在多项渲染测试中相比竞争对手酷睿Ultra 9 288V平均有2.6倍的速度优势,在图形性能测试中也有约1.4倍的领先。
- Radeon RX 9000系列显卡。搭载RDNA 4架构 包括Radeon RX 9070 XT和Radeon RX 9070。采用台积电4纳米制程,内置第二代AI加速器、第三代光线追踪加速器和第二代AMD Radiance Display引擎。FSR 4:全新的FidelityFX Super Resolution 4基于机器学习,专为RDNA 4打造,支持更高质量的4K游戏画面和更高性能的帧生成,以及通过第二代游戏延迟技术Anti-LAG 2实现更低的延迟。
- 【CES 2025】Intel 发布了第二代酷睿Ultra处理器系列。新增支持:英特尔Wi-Fi 7(5 Gig);Thunderbolt 5 & 5;英特尔连接性能套件(利用AI优化网络连接);高保真、低功耗的英特尔蓝牙低功耗音频等技术。酷睿Ultra 200V系列:面向商业办公领域,基于英特尔vPro平台,集成AI能力。酷睿Ultra 200HX和200H系列:针对创作者和游戏玩家,200HX系列拥有多达24个核心(8个性能核和16个能效核),集成NPU(神经网络处理单元),多线程性能相比上一代提升了41%。200H系列配备多达8个英特尔Xe核心的锐炫显卡,并集成英特尔矩阵引擎,游戏性能较上一代提升了22%。酷睿Ultra 200U系列:面向主流移动用户,配备多达2个性能核和8个能效核,集成英特尔Xe LPG架构显卡,具备最高可达24 TOPS的AI算力。酷睿Ultra 200S系列:用于台式机,新增了12款65W和35W产品,最多可搭载8个性能核和16个能效核,适用于游戏、专业创作和日常办公等多种应用场景。
- 恩智浦半导体(NXP Semiconductors)于1月7日宣布,将以6.25亿美元现金收购奥地利汽车软件开发商TTTech Auto,以强化其汽车业务,特别是软硬件生态系统。 恩智浦是全球领先的汽车芯片制造商,而TTTech Auto总部位于维也纳,专注于开发安全关键型中间件软件,促进汽车硬件平台、操作系统和应用程序的集成,并确保在推出重大软件更新时关键功能不受影响。 恩智浦汽车嵌入式系统总经理延斯·辛里希森表示,此次收购将恩智浦的汽车硬件产品组合与全球领先的安全软件解决方案提供商相结合,旨在满足汽车制造商对软硬件集成的需求。 交易完成后,TTTech Auto的管理层和约1100名员工将并入恩智浦的汽车部门。 (src: https://www.reuters.com/markets/deals/chipmaker-nxp-buy-austrias-tttech-auto-625-mln-2025-01-07/?utm_source=chatgpt.com)
- SK集团会长崔泰源近日在2025年国际消费电子展(CES 2025)上表示,SK海力士的高带宽内存(HBM)开发速度已超越英伟达的要求,暗示双方合作将进一步深化。崔泰源透露,SK海力士正向英伟达独家供应HBM产品。 此前,英伟达CEO黄仁勋曾要求SK海力士将下一代HBM4芯片的供货时间提前六个月,以满足市场对人工智能芯片日益增长的需求。 SK海力士在HBM领域的领先地位,使其在与英伟达的合作中占据优势。 随着人工智能技术的快速发展,双方计划在更广泛的领域展开合作,包括将人工智能应用于物理领域。 (src: https://finance.sina.com.cn/tech/discovery/2025-01-11/doc-ineentrv6067992.shtml?utm_source=chatgpt.com)
- 人工智能初创公司Anthropic正进行新一轮融资,计划筹集20亿美元,估值将达到600亿美元,较一年前的估值增长逾三倍。 本轮融资由Lightspeed Venture Partners领投。 此前,亚马逊于2024年11月追加了40亿美元投资,使其对Anthropic的总投资额达到80亿美元,成为该公司的最大投资者。 Anthropic由前OpenAI研究高管创立,致力于开发以安全为核心的人工智能技术,其主要产品是AI聊天机器人Claude。 此次融资将使Anthropic跻身美国估值最高的初创公司之列,仅次于SpaceX、OpenAI、Stripe和Databricks。 (src: https://www.marketwatch.com/story/anthropics-60-billion-valuation-obscures-a-stark-reality-in-ai-e640347d?utm_source=chatgpt.com)
- 苹果加快扩展新闻平台。苹果公司正加速推展其Apple News新闻应用程式的计划。英国《金融时报》引述知情人士称,苹果计划将Apple News推广至更多国家,并拟在英国开设本地新闻报道。Apple News覆盖美国、加拿大、英国和澳洲约1.25亿用户。苹果希望透过规模扩张及提升广告效益,进一步强化其作为出版业关键收入来源的角色。(src: https://www.cnbeta.com.tw/articles/tech/1469282.htm)
- 美国候任总统唐纳德·特朗普于1月7日宣布,阿联酋亿万富翁侯赛因·萨吉瓦尼(Hussain Sajwani)计划投资200亿美元,在美国建设大型数据中心。这项投资将支持在美国中西部、南部和西南部的“阳光地带”建设新的数据中心,旨在维持美国在技术领域的领先地位。 特朗普表示,人工智能的发展在很大程度上依赖于数据中心的支持,未来几年这一领域将变得非常热门。 侯赛因·萨吉瓦尼是迪拜房地产开发公司达马克(DAMAC Properties)的董事长,该公司拥有中东地区唯一的特朗普品牌高尔夫球场。 他表示,计划投资200亿美元,甚至更多,具体取决于市场机会。(src:https://www.reuters.com/world/us/trump-announces-20-bln-investment-us-data-centers-2025-01-07/?utm_source=chatgpt.com )
- 腾讯微信被移除美国贸易恶名市场名单。美国贸易代表办公室(USTR)发布所谓《2024年假冒和盗版恶名市场清单》。美方称,该清单旨在曝光据称助长大规模盗版及商标假冒行为的线上和实体市场行为体。腾讯微信曾在2022年和2023年两次被列入名单,但今年被移除。腾讯曾强烈反对被列入该名单,并向美国贸易代表办公室强调,腾讯长期以来在知识产权方面投入巨大,并且在全球范围内开展合作以推动知识产权保护。然而,包括淘宝、拼多多、百度网盘等在内的多个中国网络平台仍在此次名单中,抖音商城则首次被列入。(src: https://finance.sina.com.cn/tech/digi/2025-01-09/doc-ineeixuz6473736.shtml?utm_source=chatgpt.com)
- 美股大盘:本周股市收盘下跌。市场利率上升是本周股市走势的一大驱动因素,反映出市场对通胀持续上升以及美联储可能长期维持高利率的担忧。本周10年期国债收益率飙升18个基点至4.78%,2年期国债收益率较上周五上涨12个基点至4.40%。这一价格走势是对本周经济数据发布的回应(未来一年和长期通胀预期上升)。
- 12月份ADP就业变化报告低于预期(122,000;共识131,000)。
- 每周初申请失业金人数意外下降(201,000;共识218,000;前值211,000)。
- 12月份就业报告显示非农就业人数增加 25.6万人,失业率从4.2%降至 4.1%。1月份密歇根大学消费者信心指数初值显示,未来一年和长期通胀预期也显著上升。
- 12月17-18 日FOMC会议纪要,该纪要与美联储主席鲍威尔在会后新闻发布会上的讲话相呼应。纪要传达出这样一种信号:美联储应该推迟再次降息,直到它对通胀回归2%目标更有信心和/或对劳动力市场以更明显的方式恶化更加担忧。
- 美债:
- 美国国债本周收跌,受强劲的12月就业报告影响(新增就业25.6万,高于预期的15.4万和前值的21.2万),降息预期降温。短期债券在开盘小幅下跌后,因就业数据意外加速且失业率降至4.1%(前值4.2%),抛售压力加剧。2年期债券收益率突破200日均线(4.344%),创7月底以来新低,长期债券收益率则降至2023年11月以来最低
- 芝加哥商品交易所FedWatch工具显示,5月降息可能性从55.3%降至38.0%,6月降息概率为56.3%。美联储理事鲍曼表示12月降息是“调整阶段的最后一次”,美国银行也预计FOMC不会进一步放松政策。本周,2年期美债表现优于其他期限,2年期-10年期利差扩大6个基点至38个基点。原油突破200日均线(75.50),达10月以来高点;美元指数涨0.4%至109.65,周涨0.7%。
- 2年期:+13 个基点至4.40% (本周+12个基点)
- 3年期:+14个基点至4.48%(本周+16个基点)
- 5年期:+13个基点至4.59%(本周+18个基点)
- 10年期:+9个基点至4.78%(本周+18个基点)
- 30年期:+4个基点至4.97%(本周+16个基点)
- 商品:
- WTI原油:上涨3.6%至每桶 76.63美元
- 黄金:+0.8%至每盎司2713.70美元
- 铜:下跌0.2%至4.30美元/磅
- 企业财报
- LG电子2024年营业利润同比减少6.1%。LG电子披露的初步核实数据显示,按合并财务报表口径计算的公司2024年全年营业利润同比减少6.1%,为3.4304万亿韩元(约26.4亿美元)。销售额同比增长6.7%,为87.7442万亿韩元(约675亿美元)。第四季度营业利润同比减少53.3%,为1461亿韩元(约1.1亿美元)。销售额同比增长0.2%,为22.7775万亿韩元(约175亿美元)。
- 三星电子第四季度营业利润同比增长130.5%。三星电子发布的未经审计的初步业绩显示,第四季度营业利润同比增长130.5%,达到6.5万亿韩元(约50亿美元),但仍远低于市场预期。与第三季度的9.18万亿韩元(约70.6亿美元)相比,三星电子第四季度营业利润下降了29.19%。营收增长10.7%,达到75万亿韩元(约577亿美元)。2024年全年营业利润为32.72万亿韩元(约252亿美元),同比增长398.2%。营收300.08万亿韩元(约2,309亿美元),增加了15.9%。
- Unstructured.io 是一家专注于非结构化数据处理的公司,提供开源数据转换平台,帮助企业和组织将非结构化数据转换为 LLM 可以直接使用的格式,于2022年7月在美国旧金山成立。
- 创始团队:核心人员均来自初创公司 Primer.ai。该公司利用NLP和ML技术提供信息分析和报告生成服务,其产品在数据组织、实时威胁检测、多源数据处理等方面有一定优势,尤其是在国家安全和情报分析领域。公司曾在2023年6月完成6900万美元D轮融资。
- CEO Brian Raymond,曾在美国中央情报局(CIA)担任情报官员,后来在白宫负责伊拉克和 ISIS 的外交政策,曾为Primer.ai Vice President
- Matt Robinson 曾为 US Government Data Scientist、 Capital One Data Science Manager、Primer.ai Director
- 核心产品/服务:开源的 Python 库:提供用于提取和预处理图像和文本文档(如 PDF、HTML、Word 文档等)的开源组件。SaaS API:提供基于云的非结构化数据提取和预处理服务。适合需要单批次处理的中小企业或个人用户。目前已有超过 1000 个付费用户。Serverless API:提供无服务器的 API 服务,提高性能和灵活性。Marketplace API:由客户自行托管在 AWS 或 Azure 等云平台上,完全在公司内部基础设施内处理数据。
- 企业级平台:提供可视化的用户界面,让用户可以在不编写代码的情况下创建完整的 ETL 工作流。
- 支持从 10 个数据源提取文档内容(如 Azure Blob Storage、S3、Google Drive 等)。
- 标准化输出传送到 10 个目标数据源(如 Pinecone、Weaviate、S3、Postgres 等)。
- 通过 workflow 连接源和目标,支持运行和调度工作流。
- 营收和融资:暂无具体营收数据。目前累计6500 万美元的投资,投资方包括 AI 生态上层公司 LangChain、Databricks、Madrona、Bain Capital Ventures、M12 Ventures、Mango Capital、MongoDB Ventures、Shield Capital 等。(src:https://unstructured.io/enterprise,https://news.qq.com/rain/a/20240904A08THK00)
- Datology AI 是一家专注于AI训练数据集管理的服务商,于2023年9月在美国加利福利亚州创立。
- 创始团队:CEO Ari Morcos 曾在 DeepMind 任 Research Scientist、在 Meta 任 Senior Staff Research Scientist;CTO Bogdan Gaza 曾任 Twitter Senior Engineering Manager;首席科学家 Matthew Leavitt 曾为 MosaicML 数据研究研究主管。
- 核心产品:暂无实际可用产品,“We're still building!”。它正在构建自动化数据管理工具,旨在提供以下功能:
- 识别复杂概念:识别数据集中最复杂的概念,确保使用高质量样本进行训练。
- 数据集扩充建议:建议如何通过添加新数据来扩充现有数据集。
- 优化数据批处理:将数据分割成易于训练的块。
- 识别有害数据:识别可能导致模型异常行为的有害数据。
- 多模态数据支持:支持文本、视频、图像、音频、表格、基因组和地理空间等任何格式的数据,并将优化后的数据集部署到AI训练基础设施中。
- 融资情况:截至2024年5月,完成种子轮和A轮,共计5760万美元,投资者包括Amplify Partners、亚马逊Alexa基金等。(src:https://news.qq.com/rain/a/20240509A09R4B00)
- Chroma
- 项目简介: Chroma是一个开源的嵌入式向量数据库。Chroma 通过使知识 (knowledge) 、事实 (facts) 和技能 (skills) 可插拔,从而简化了 LLM 应用程序的构建。它以高效存储、高性能检索和灵活集成为目标,为开发者提供处理高维向量数据的解决方案。该项目由位于旧金山的 Chroma 公司于 2022 年 5 月开展,github star数17k。
- 开发者:Jeff Huber:Chroma 的联合创始人兼 CEO。他是一名连续创业者,入选福布斯30 Under 30精英榜,他的上一家企业获得了YC投资,做的是低成本的假肢制造。Anton Troynikov:Chroma 的联合创始人。他也是连续创业者,曾经担任过 Nuro 和 Meta 的计算机视觉工程师。
- 特点与功能:
- 高效存储和检索:采用高维向量索引技术(如 HNSW 和 Annoy)支持数百万条数据的高效检索。
- 内置数据管理:支持版本控制和元数据管理,确保数据可追溯性。同时,提供增量更新、自动备份和分布式存储能力。
- 高可靠性和容错性:通过分布式架构提供高可靠性,支持数据副本存储和容灾机制。可在大规模集群环境下高效运行,满足企业级需求。
- 支持嵌入优化:可处理文本、图像和多模态数据嵌入,适用于多种 AI 应用场景。
- 工作流程:
- 应用场景:自然语言处理:Chroma 可存储并检索经过嵌入模型(如 Sentence-BERT)处理的文本向量,用于问答系统、文本匹配、智能搜索引擎等场景。推荐系统:通过存储用户行为数据的嵌入向量,Chroma 可提供实时个性化推荐。图像检索:结合图像嵌入模型(如 CLIP),Chroma 可实现基于图像特征的相似图像检索。智能客服:Chroma 支持多模态数据整合,可以在文本和语音数据之间高效检索。(src:https://github.com/chroma-core/chroma,https://docs.trychroma.com/docs/overview/introduction,https://www.36kr.com/p/2231993573224327)
- OpenHands
- 项目简介:OpenHands是一款 AI 编程工具,支持多智能体协作提高开发效率,减少开发者的编码工作量。OpenHands 基于编写代码、与命令行交互和浏览网页等方式实现与环境的互动。该项目由位于美国波士顿的 ALL Hand AI 公司于 2024 年 3 月开展,github star数43k,并有超过150名贡献者。
- 开发者:Robert Brennan:ALL Hand 的联合创始人兼 CEO。他曾在Google从事自然语言处理和搜索功能方面的 Senior Software Engineer,后在初创公司Rho AI(量化和预测气候技术、产品、服务和投资对环境影响)、初创公司Fairwinds(提供Kubernetes服务)工作。Graham Neubig:ALL Hand 的联合创始人兼首席科学家。他是卡内基梅隆大学语言技术研究所副教授,研究主要集中在 ML 和自然语言处理(NLP)领域,特别是大语言模型的基础研究和应用,包括问答、代码生成、多语言处理和评估/可解释性等方面。Xingyao Wang:ALL Hand 的联合创始人兼首席 AI 官。他本科毕业后直博 UIUC,研究主要集中在由基础模型驱动的交互式语言代理,攻读博士期间选择暂停学业创办 All Hands AI。
- 功能:该代理几乎能够执行人类开发人员可以执行的任何操作,如修改代码、运行命令、浏览网页、调用API,甚至从StackOverflow复制代码片段。
- 技术原理:
- 事件流架构:基于事件流管理代理与环境的交互,包括代理的动作和环境的观察结果。状态结构封装了代理执行所需的所有相关信息,如事件流、LLM调用成本等。
- 运行时环境:Docker 沙箱:为每个任务会话启动一个安全隔离的 Docker 容器沙箱,所有动作都在沙箱中执行。动作执行 API:API服务器在 Docker 沙箱中运行,处理命令执行、Python 代码执行和网页浏览等动作。任意 Docker 镜像支持:支持代理在任意操作系统和软件环境中运行,基于任意 Docker 镜像的运行时实现。
- 代理技能:Agentskils 库提供一些基本工具无法实现的实用功能,如文件编辑、文档阅读等,方便社区贡献和代理使用。
- 多代理委托:支持一个代理将特定子任务委托给另一个代理执行,实现多代理之间的协作。(src:https://github.com/All-Hands-AI/OpenHands,https://ai-bot.cn/openhands/,https://ai7.pro/p/1568,https://www.all-hands.dev/about)
- CHASE: A Native Relational Database for Hybrid Queries on Structured and Unstructured Data
- 主要作者:Kai Zhang:复旦大学计算机学院副教授。主要研究方向包括面向大模型的检索生成增强、向量数据库;大规模推荐系统;基于GPU异构硬件的数据处理。Zhenying He:复旦大学计算机学院教授。主要研究方向是大数据管理与分析。他在哈尔滨工业大学获得学士、硕士和博士学位。
- 核心问题:随着数据分析和推荐系统的发展,对结构化和非结构化数据进行混合查询已成为一种新的范式。现有的数据库系统通常将向量搜索作为关系查询引擎的插件来实现,试图利用近似最近邻搜索(ANN)索引来提升性能。然而,这种设计可能错失了一些潜在的优化机会,导致某些查询性能欠佳。
- 解决方案:提出了CHASE,这是一个原生设计用于支持结构化和图像非结构化数据高效混合查询的查询引擎。CHASE通过在查询处理的多个阶段进行特定设计和优化来实现这一目标,具体包括:
- 逻辑计划重写:
- 语义分析:系统解析SQL查询,识别混合查询类型,并重写逻辑计划以减少计算开销。例如,引入映射操作符将ANN索引扫描得到的相似性分数映射到临时列,避免重复计算。
- 优化KNN类查询:将排序操作符与窗口操作符分离,插入限制操作符,使扫描、排序和限制操作符组成一个单独的流水线,优化物理操作符的选择,利用ANN索引高效检索结果。
- 优化类别驱动的VKNN-SF查询:引入updateState操作符动态跟踪查询执行状态,减少不必要的范围扩展和冗余计算。
- 物理操作符优化:
- KNN类查询的映射操作符:修改索引扫描操作符的输出,返回计算的相似性分数,并传递给映射操作符,避免重复计算。
- DR-SF查询的索引扫描操作符:采用基于ANN的范围搜索算法,从查询向量的邻近节点开始扩展搜索,减少不必要的比较。
- 类别驱动的VKNN-SF查询的updateState操作符:动态维护每个类别的状态信息,评估是否需要扩展搜索范围,减少计算开销。
- 基于LingoDB的代码生成:将SQL查询解析为高级MLIR模块,通过一系列优化传递将中间表示转换为低级LLVM IR,最终生成机器代码。CHASE扩展了LingoDB的方言和传递,引入新的操作符和优化技术,减少解释开销,提升查询性能。
- 最终结果:通过使用真实世界的数据集进行广泛的评估,结果表明CHASE与现有系统相比取得了显著的性能提升,速度提升从13%到7500倍不等。具体来说:对于top-k查询,CHASE实现了高达33%的性能提升;对于基于距离的范围查询,CHASE实现了24%到33%的性能提升;对于距离连接查询,CHASE大约实现了64%的性能提升;对于KNN连接查询,CHASE实现了7500倍的性能提升。(src:https://arxiv.org/pdf/2501.05006)
- LEAP: LLM-powered End-to-end Automatic Library for Processing Social Science Queries on Unstructured Data
- 主要作者:Chuxuan Hu:伊利诺伊大学厄巴纳-香槟分校(UIUC)大三学生。研究兴趣包括社会计算、网络分析、数据挖掘和机器学习。Austin Peters:芝加哥大学的教员和法学讲师。他的研究使用人工智能、机器学习和其他数据科学工具来研究民事诉讼和法规解释中的各种主题。Daniel Kang:UIUC 计算机科学系和 ECE 的助理教授。研究重点是使科学家和分析师能够轻松使用机器学习进行分析。
- 核心问题:社会科学家越来越关注分析非结构化数据(例如推文)中的语义信息(例如情感),这些信息在数据中并非原生存在。以成本效益高的方式执行此分析需要使用机器学习(ML)模型来提取语义信息,然后分析结构化数据。然而,这一过程对领域专家来说仍具挑战性,主要体现在:
- ML模型的选择与应用:需要选择正确的ML函数并掌握其接口,同时确定适当的函数执行顺序。
- 自然语言查询的转换:将自然语言问题转换为实际查询(如SQL、数据框库或统计库)困难重重,因为这涉及到复杂的分析操作,需要高级编程技能,且自然语言往往模糊不清。
- 解决方案:提出了LEAP,一个端到端的库,能够用ML回答社会科学的自然语言查询。其主要功能包括:过滤模糊查询:确保答案的确定性。选择ML函数:从内部支持和用户定义的ML函数中选择,将非结构化数据扩展为带有必要注释的结构化表格。生成和执行代码:响应自然语言查询。
- 技术实现:
- LEAP的技术实现主要包括以下几个关键部分:
- 前向规划过滤器(Forward Planning Filter):识别模糊查询,终止库执行,并建议具体替代方案,成功率达到96%。
- 阶段选择器(Stage Selector):自动选择表格生成、代码生成、代码执行和结果展示等阶段。
- 表格生成(Table Generation):通过ML函数扩展当前表格,确保包含足够的信息来回答查询。
- 代码生成(Code Generation):将自然语言查询转换为可执行代码。
- 代码执行和结果展示(Code Execution and Result Display):执行生成的代码并展示结果。
- 此外,LEAP还采用了以下创新结构来提高效率和准确性:
- 函数树(Function Tree):将函数列表组织成树结构,仅将目标叶节点的函数作为候选函数,减少了查询成本。
- 双向链表(Doubly Linked Lists):连接具有相互依赖关系的函数,提高了查询的准确性。
- 别名检查块(Alias Check Blocks):在执行每个函数之前检查是否已存在匹配的列,避免重复执行ML函数,节省查询成本。
- 最终结果:
- 通过率:在QUIET-ML的120个查询中,LEAP实现了100%的@3通过率和92%的@1通过率。
- 成本效率:平均每个查询的成本为1.06美元,其中代码生成成本仅为0.02美元。与使用专业标注服务(如Scale)或雇佣研究助理(RAs)等传统社会科学研究方法相比,LEAP的成本不到传统方法的0.1%。(src:https://arxiv.org/abs/2501.03892)
- End-To-End Causal Effect Estimation from Unstructured Natural Language Data (NeurIPS 2024)
- 主要作者:
- Nikita Dhawan:University of Toronto and Vector Institute的在读博士,曾在Meta和Google做实习Researcher,研究方向是ML和Healthcare
- Rahul G. Krishnan:现任University of Toronto 的 Assistant Professor,MIT的ML博士,曾在微软研究院担任高级研究员,研究方向是ML和Healthcare
- Chris Maddison:现任University of Toronto 的 Assistant Professor,牛津的statistics博士,曾在DeepMind担任高级研究科学家,研究统计机器学习的方法论。
- 解决的问题:
- 传统因果效应估计的局限:非结构化自然语言数据(如在线论坛、社交媒体、临床报告等)中蕴含着丰富的因果信息,但传统因果效应估计方法依赖手动收集和结构化数据,成本高昂且耗时,限制了其应用范围。
- 解决方法:
- 理论基础与假设:NATURAL 方法拓展自平均治疗效应(ATE)的经典估计方法(如逆倾向得分加权 IPW 和结果插补 OI),将其应用于非结构化自然语言数据领域。除传统因果推断假设(强可忽略性、正性假设)外,NATURAL 还额外引入自然语言报告数据假设(目标人群的数据生成与文本报告相关)和真实观测条件访问假设,确保从自然语言数据中合理估计因果效应。
- NATURAL 估计器:
- NATURAL Full:理论上的理想版本,基于报告的条件分布进行蒙特卡洛估计,这意味着需要对报告中所涉及的变量的各种可能组合进行概率估计,以计算因果效应。这种方法计算复杂度非常高,尤其对于高维协变量的数据,会导致计算量剧增。
- NATURAL IPW 和 NATURAL OI:通过采样减少计算量,提高可行性和效率。NATURAL IPW:从报告中采样协变量,然后结合条件概率计算逆倾向得分加权估计值。例如,对于一份医疗报告,它会从报告中提取相关协变量信息,如患者的年龄、性别、症状等,再根据这些信息计算该患者接受某种治疗的倾向得分,进而对因果效应进行加权估计。NATURAL OI:从报告中采样协变量和治疗变量,用于结果插补估计。比如在研究药物疗效时,从大量的患者报告中抽取所需信息,通过插补的方式估计出不同治疗方案下可能的结果,从而计算因果效应。
- NATURAL Monte Carlo:进一步扩展了采样的范围,不仅采样协变量和治疗变量,还可能涉及更多的变量,将非结构化文本信息转化为结构化表格数据集,以应用传统 ATE 估计方法。
- 利用 LLM 实现估计器:
- 数据筛选与预处理:
- 初始过滤:首先使用确定性规则对大量的原始文本报告进行初步筛选,去除一些明显无信息或不相关的报告,缩小数据范围。
- 相关性过滤:利用 LLM 判断报告的相关性,筛选出与研究主题相关的报告。例如,在研究某种药物的疗效时,LLM 可以根据报告内容判断其是否涉及该药物的使用和相应的效果描述。
- 治疗 - 结果过滤:利用 LLM 从筛选后的报告中提取治疗和结果信息,将不包含治疗和结果信息的报告进一步排除。
- 纳入标准过滤:LLM 根据具体的研究纳入标准,对报告和协变量进行最终筛选,确保数据符合要求,具代表性和可靠性。
- 条件概率提取与计算:LLM 从筛选报告提取已知(如患者基本信息)和未知(需文本分析挖掘)协变量,如从临床报告提取家族病史、生活习惯等。推断给定报告和协变量下治疗和结果的条件概率分布。根据纳入标准计算报告权重,为 ATE 估计做准备。
- 实验结果
- 合成数据集结果:基于 Hillstrom 和 Retail Hero 合成数据集,NATURAL 方法性能良好。随报告数量增加,NATURAL Full 估计的联合分布和倾向得分与真实分布的 KL 散度减小,ATE 的 均方根误差(RMSE) 降低,结果更可靠;NATURAL IPW 的 RMSE 低至 0.15,而基线方法约 0.3,体现 NATURAL 处理合成数据的高效性和准确性。
- 真实数据集结果:在 Reddit 的四个真实数据集(糖尿病药物 Semaglutide、偏头痛治疗)上,NATURAL 估计器预测 ATE 与真实临床试验 ATE 方向一致,误差在 3% 以内,表明能有效提取真实世界非结构化文本数据中的因果信息,为实际应用提供有力支持。
- 关键步骤影响:消融研究表明,纳入标准过滤和预训练 LLM 的插补对 NATURAL 性能关键;条件概率计算时,模型规模大、数据量多可提升性能;LLAMA2 估计的倾向得分比均匀分布更能平衡协变量,证明 NATURAL 方法的有效性。(src:https://arxiv.org/pdf/2407.07018)
- Pinning private endpoints — General availability - https://docs.snowflake.com/en/release-notes/2025/9_00.html#pinning-private-endpoints-general-availability
- 宣布推出针对无服务器和模型服务工作负载的出口控制 - https://www.databricks.com/blog/announcing-egress-control-serverless-and-model-serving-workloads
- Introducing Collations to Databricks - https://www.databricks.com/blog/introducing-collations-databricks
- Introducing Exadata X11M for Exadata Database Service and Autonomous Database - https://blogs.oracle.com/database/post/introducing-exadata-x11m-for-cloud
- powa-archivist 5.0.1 is out! - https://www.postgresql.org/about/news/powa-archivist-501-is-out-2992/
- pgspot 0.9.0 released - https://www.postgresql.org/about/news/pgspot-090-released-2994/
- pg_partman 5.2.4 released - https://www.postgresql.org/about/news/pg_partman-524-released-2995/
- PostgreSQL Anonymizer 2.0: Better, Faster, Safer - https://www.postgresql.org/about/news/postgresql-anonymizer-20-better-faster-safer-2993/
- SQLPage v0.32: build web apps in SQL, now with more style ! - https://www.postgresql.org/about/news/sqlpage-v032-build-web-apps-in-sql-now-with-more-style-2989/