产品 Oct 24, 2025

白鹿模型基准测试结果

以下是 BAILU 系列模型在 8 大权威基准：AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ²-Bench 模型评估中的表现数据，涵盖多个维度的评估指标，展现了模型在代码理解、生成、推理等方面的卓越能力。

数据时效说明：本页展示的基准测试结果截止至 2025 年 10 月，仅涵盖该日期前发布的 BAILU 系列模型。此后发布的新模型（包括 BAILU 2.7 系列及后续版本）的基准评测数据未包含在内。最新模型性能请参阅对应的产品发布页面。

AIME 25 - 高级数学推理能力

BrowseComp - 网页浏览与信息理解能力

GPQA - 研究生级别问答能力

HLE - 人类级别综合评估

LiveCodeBench V6 - 实时代码生成能力

τ²-Bench - 工具使用与多步推理能力

Terminal-Bench - 终端命令与系统操作能力

SWE-bench Verified - 软件工程实际问题解决能力