4 亿参数，看懂世界：BAILU 2.7 VL 0.4B 边缘端视觉智能

我们如何走到这里

早在 2025 年 9 月，随着我们首款纯文本模型 BAILU-2.5-TEXT-ONLY 的发布，团队便开始探索面向边缘端的模型方案。

2025 年 10 月 24 日，我们在内部完成了首个面向边缘端的稠密架构（Dense）模型——BAILU-2.5-0.43B，参数量仅 430M（0.43B）。它极其轻量，甚至能在刷入 Debian 系统的电视机顶盒上完成推理——我们也确实在这类硬件上成功运行了它。然而，当我们尝试将其接入实际业务时，很快意识到：纯文本模态的小模型除翻译与摘要外几乎无能为力。它缺乏思维链（Chain-of-Thought）推理能力，也不具备工具调用（Tool Calling）的支持。

这一认知并未让我们止步。随后，我们在 MoE 与 Dense 两条路线并行推进：MoE 方向相继推出 BAILU 2.6、BAILU 2.7 及其思考增强与强化学习衍生版本；Dense 方向则发布 BAILU EDGE 与 BAILU APEX 两大系列。

不再 YOLO 与 OpenCV

在与众多视觉需求客户的深入交流中，我们发现一个高度一致的需求：客户需要的并非又一条依赖 YOLO 或 OpenCV 的检测管线，而是一个具备自主语义判断能力的模型，其无需依赖庞大的标注数据集，也能理解场景、遵循指令，并在数百乃至上千路并发任务中稳定运行。

当前，视觉检测任务通常依赖 8B 甚至更大参数量的多模态模型（如 Qwen3-VL 系列、GLM-V 系列）。然而，我们认识到，仅完成图像 OCR 或泛化概述远远不够。在真实的边缘部署场景中，模型必须能够实时将图像流转化为结构化、可操作的输出。例如：

无人机基于实时视觉流进行航线规划与行为决策
具身智能体依托视觉感知理解环境并执行动作
安全巡检系统实时分析视频流并精准判断环境隐患
...

以上场景均要求模型同时具备基础视觉理解、指令遵循以及整体推理的可靠性。在实际部署中，视觉语言模型（VLM）处理实时摄像头与图像输入时，必须在严格的延迟预算内完成推理与决策。

与此同时，我们还需要模型具备高效的领域微调能力，能够通过少量数据快速适配为垂直领域的专有模型；具备多语言图像理解能力，在跨语言场景下保持一致的视觉推理表现；并且在边界框预测（以 RefCOCO-M 为基准）与文本函数调用（以 BFCLv4 为基准）上达到媲美 YOLO 与 OpenCV 的检测精度。

边缘视觉智能

现在，BAILU-2.7-VL-0.4B 正式解决了上述问题。

更令人振奋的是，在整个训练过程中，我们采用了一套模型自主驱动的训练范式：上一代模型 BAILU-2.6-THINKING 全面接管了 BAILU-2.5-0.43B 的后训练框架，并由 2.6 模型自主制定后训练策略，包括偏好优化（Preference Optimization）与强化学习（Reinforcement Learning）的实施路径。每一次训练迭代中，BAILU 2.6 都会在沙盒环境生成一份详尽的有效性报告，系统阐释参数调整的逻辑，以及这些调整如何改进视觉语言任务中的指令遵循能力。借助这一流程，我们的团队成功将预训练规模从 8.5T tokens 扩展至 35T tokens.

核心能力

BAILU-2.7-VL-0.4B 的边界框预测精度可与 YOLO 和 OpenCV 媲美，能够在连续图像流中准确识别目标并实现精确定位。

在测试手机（2025 年 7 月发售机型）上，模型对 512×512 图像的单帧推理延迟低于 180ms。这意味着它足以处理每秒 5 帧的视频流，实现完整的视觉语言理解，而非简单检测。在消费级移动芯片上，对于更低的输入分辨率，推理延迟仍可控制在 0.8 秒以内，确保交互体验流畅响应。

基准评测

我们在涵盖核心视觉理解、目标检测与语言推理的多项基准上，对模型进行了系统性评估。

所有评估均在未进行垂直领域微调的情况下完成。

在视觉问答（VQA）任务中，BAILU-2.7-VL-0.4B 的表现持续逼近，甚至超越同参数量级的竞品模型；在目标检测与定位基准 RefCOCO-M 上，其边界框预测精度与传统 YOLO 管线不相上下；在文本函数调用基准 BFCLv4 上，模型展现出超出预期的指令解析与结构化输出能力。此外，我们还在多语言 OCR、图表理解（ChartQA）及文档版面分析等任务中观察到了稳健的泛化表现，进一步验证了模型在通用视觉语言理解上的综合竞争力。

实战评测

在实际测试中，我们将模型部署于消防安全环境巡检场景，在严格的延迟与算力限制下数分钟内处理了超过万张现场环境图像，每一张图像都经过了模型的全面分析，并给出了结构化的安全判断结果。

到底有多快？

示意图 · 单帧低于 180ms （每张图片为512x512格式）

消防安全检测任务的核心挑战在于：

安全隐患往往并非来自某个单一物体的“有无”，而是涉及物体之间的空间关系、状态异常以及上下文语义的综合性判断。

例如，灭火器是否被遮挡、安全出口标识是否清晰可辨、消防通道是否被堆物占用、电气线路是否存在裸露或老化迹象等。这些都需要模型具备综合视觉感知的推理能力才能准确判断。

这类依赖综合语义推理的判断，在传统 YOLO 或 OpenCV 框架中很难仅通过目标检测与分类规则解决：它们擅长识别“有什么”，却难以理解“意味着什么”。BAILU-2.7-VL-0.4B 凭借其视觉语言融合理解能力，能够在边缘硬件上直接输出结构化的安全判断结果，有效弥合传统检测管线与真实安全巡检需求之间的鸿沟。

垂直领域快速适配

该模型对显式约束与用户指令表现出显著的敏感性，这赋予了它在垂直领域拓展中的天然优势。

得益于训练阶段对指令遵循能力的充分优化，BAILU-2.7-VL-0.4B 在接收到领域特定的提示词或约束条件时，能够更准确地理解并执行，从而显著降低领域适配过程中的对齐成本。在实践中，仅需数百至数千条标注样本进行低样本微调（Low-shot Fine-tuning），即可将模型快速调校至垂直领域的生产级应用水准，无论是工业质检、医疗影像辅助判读，还是特定行业的落地应用，均可在数小时内完成适配部署。

适用场景

BAILU-2.7-VL-0.4B 专为边缘端设计，让智能真正走到客户身边。

该模型适用于对低延迟、紧凑结构化输出和高效语义推理有严格要求的实际部署场景。其极低的资源占用使其成为在计算资源、功耗或吞吐量受限环境中的理想选择，同样适用于需要离线运行或设备端本地处理以保障数据隐私的部署方案。

典型应用场景涵盖工业自动化中的产线质检与设备监测、安防与消防领域的环境巡检与隐患预警、零售电商中的商品识别与货架合规检测、可穿戴设备与具身智能的实时环境感知，以及无人机与自主系统的视觉导航与态势理解。

立即体验

我们正在加紧完成云端配置工作，将于近期上线白鹿 API 平台，届时欢迎您第一时间接入测试。