白鹿模型基准测试结果

以下是 BAILU 系列模型在在 8 大权威基准：AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2-Bench 模型评估中的表现数据，涵盖多个维度的评估指标，展现了模型在代码理解、生成、推理等方面的卓越能力。

AIME 25 - 高级数学推理能力

BrowseComp - 网页浏览与信息理解能力

GPQA - 研究生级别问答能力

HLE - 人类级别综合评估

LiveCodeBench V6 - 实时代码生成能力

τ2-Bench - 工具使用与多步推理能力

Terminal-Bench - 终端命令与系统操作能力

SWE-bench Verified - 软件工程实际问题解决能力