Bailu Transcribe：以声速转录的 3.5B 高性能语音模型

概述

今天，我们发布 Bailu Transcribe，BAILU AI 首款语音转文本模型，在转录质量、说话人分离和超低延迟三个维度同时达到业界领先水平。Bailu Transcribe 是基于 统一的 3.5B 参数模型，提供两种运行模式：

批量转录模式：面向离线音频文件，具备最优的词错误率与性价比。
实时转录模式（Realtime）：专为实时应用构建的流式推理模式，延迟可配置至亚 200ms，商业权重支持本地私有化部署。

同时，我们在 Bailu Transcribe 中上线了全新的音频试验场，支持即时测试转录、说话人分离与时间戳功能，方便您快速测试模型能力与规划业务融合。

核心亮点

优异转录精度

Bailu Transcribe 在内部 FLEURS 基准测试中平均词错误率约 4%，以极高的性价比实现领先的转录质量。

亚 200ms 实时转录

Bailu Realtime 模式采用原生流式架构，延迟可配置低至 200ms 以下，在 2.4s 延迟下精度对齐批量模式。

高精度说话人分离

在内部多语言基准测试中平均分离错误率领先，准确标注"谁在什么时间说了什么"。

极致性价比

同一 3.5B 模型覆盖批量与实时两种模式，参数体量精简而转录精度领先同规模模型。

商业权重 · 本地部署

Bailu Transcribe 提供商业授权的模型权重，支持企业在本地或私有云环境中自主部署，数据不出域。

20 语言原生支持

覆盖中文、英文、日语、韩语、西班牙语、法语、德语、葡萄牙语、俄语、阿拉伯语、印地语、意大利语、荷兰语等。

Bailu Realtime：为延迟敏感型应用而生

与将离线模型适配分块处理的传统方案不同，Bailu Realtime 采用了一种全新的原生流式架构，音频在到达时即被逐帧处理，无需等待完整语段。转录延迟可从亚 200ms 一直配置到 2.4s，开发者可以根据具体场景在速度与精度之间找到最优平衡点。

亚 200ms 延迟模式

词错误率仅比离线模式高 1–2%，适用于语音助手、语音指令解析等需要即时反馈的场景。

2.4s 延迟模式

精度完全对齐批量转录模式，适合字幕生成、会议纪要等容许轻微延迟的高精度场景。

流式架构设计

Bailu Realtime 的核心创新在于其因果注意力流式 Transformer 架构。与传统的"录制-切块-转录"流水线不同，模型在前向推理过程中持续消耗音频帧，并以可配置的目标延迟输出文本 token：

因果注意力掩码：每个时间步仅关注当前及之前的音频帧与文本 token，确保模型可以在音频到达时立即进行推理，无需缓存未来帧。
可变延迟窗口：通过 target_streaming_delay_ms 参数控制模型在输出前等待的额外上下文量。更长的窗口允许模型看到更多后续音频，从而提升精度；更短的窗口则牺牲少量精度换取更低延迟。
增量文本发射：模型以 transcription.text.delta 事件流的形式逐步输出文本片段，客户端可以在每个 delta 到达时立即更新显示，无需等待完整句子。

这一设计使得 Bailu Realtime 在 3.5B 参数体量下，能够在边缘设备上以极低的计算开销运行，同时保持与批量模式相当的转录质量。

双流架构：速度与精度的融合

在实际部署中，我们推荐采用双流并行转录架构（Dual-Delay Transcription），同时运行两个 Bailu Realtime 实例：

快速流（Fast Stream, 240ms）：以极低延迟提供即时反馈，文本以半透明样式显示为"临时文本"，让用户感知到系统正在实时聆听。
确认流（Slow Stream, 2400ms）：以更高精度输出最终确认文本，延迟约 2.4 秒后将临时文本替换为高精度版本。

客户端使用基于最长公共子序列（LCS）的文本对齐算法，将两个流的输出实时合并：快速流中已被确认流覆盖的部分标记为"已确认"，尚未被覆盖的尾部则标记为"临时"。这种设计在视觉上类似于输入法的候选与确认机制，用户始终能看到最新识别结果，同时确认文本逐步替换临时文本，过渡自然流畅。

内部基准测试：Bailu Transcribe Alpha 对比

在正式发布前，我们对 Bailu Transcribe 进行了系统性的内部基准测试，并与早期内部原型 Bailu Transcribe Alpha 进行了全面对比，验证了架构改进与训练优化带来的显著提升。

内部 FLEURS 基准词错误率（越低越好）

Bailu Transcribe

~4.0%

Bailu Transcribe Alpha

~7.1%

Whisper Large V3

~5.5%

Faster Whisper

~6.0%

图 1：内部 FLEURS 基准前 10 种语言的平均词错误率对比。Bailu Transcribe 相较 Alpha 原型实现了约 44% 的 WER 降幅，并在同参数规模下显著优于开源基线。

内部说话人分离错误率（越低越好）

Bailu Transcribe

领先

Bailu Transcribe Alpha

基线

PyAnnote 3.1

中等

图 2：在内部多语言说话人分离基准（英文、中文、日语混合数据集）上的平均分离错误率对比。正式版相较 Alpha 原型在分离精度上提升约 50%。

模型能力矩阵

说话人分离

生成带有说话人标签与精确起止时间的转录文本，适用于会议转录、访谈分析与多方通话处理。对于重叠语音，模型通常转录其中一位说话人。

上下文偏置

提供至多 100 个词或短语引导模型正确拼写人名、技术术语或领域特定词汇。该功能针对英文深度优化，其他语言处于实验阶段。

词级时间戳

为每个词生成精确的起止时间戳，支持字幕生成、音频搜索与内容对齐等下游应用。

噪声鲁棒性

在工厂车间、繁忙呼叫中心、户外录音等高噪声环境中维持转录精度，无需额外的降噪前处理。

长音频支持

单次请求可处理最长 3 小时的录音文件，无需手动切分。

扩展语言支持

原生支持 13 种语言，非英文语言的性能显著领先同类竞品，支持自动语言检测。

架构深度解析

Bailu Transcribe 的批量与实时两种模式基于同一套 3.5B 模型权重，共享经过深度优化的 Transformer 编码-解码架构，仅在训练目标与推理策略上针对各自场景做了差异化设计。

模型架构对比

维度	批量转录模式	实时转录模式（Realtime）
参数规模	3.5B	3.5B（共享权重）
架构类型	编码器-解码器 Transformer	因果流式 Transformer
注意力机制	双向全注意力（编码器）+ 因果注意力（解码器）	因果注意力（全程单向）
音频前端	80-bin log-Mel 频谱 + 卷积下采样	80-bin log-Mel 频谱 + 流式卷积
输入格式	PCM S16LE, 16 kHz, 单声道	PCM S16LE, 16 kHz, 单声道
最大输入	3 小时音频	无限制（流式）
延迟特性	批量（非实时）	可配置 200ms – 2400ms
说话人分离	支持	不支持（与实时流不兼容）
授权方式	API 服务 / 商业本地部署	API 服务 / 商业本地部署

音频前端：从波形到语义表示

两种模式的音频前端均基于 80-bin log-Mel 频谱提取，以 16 kHz 采样率、25ms 窗长、10ms 步长将原始 PCM 波形转换为频谱序列。随后通过多层卷积模块进行时间维度下采样（通常 4× 或 8×），在保留关键声学特征的同时大幅压缩序列长度，降低后续 Transformer 层的计算开销。

编码器内部采用 Conformer 架构，将卷积神经网络（CNN）与自注意力机制（Self-Attention）相融合：卷积分支负责捕获局部声学特征（如音素边界、共振峰变化），自注意力分支则建立长距离的上下文依赖关系（如跨句的语义连贯性与说话人特征）。这种混合架构相较纯 Transformer 编码器在语音识别任务上具有更高的参数效率和更优的收敛性能。每一层 Conformer 块包含前馈模块、多头自注意力模块、深度可分离卷积模块与残差连接，确保梯度在深层网络中的稳定传播。

实时模式的卷积模块额外采用了因果卷积设计，每个卷积核仅覆盖当前和过去的帧，不依赖未来帧。这确保了整个前端-Transformer 流水线可以在音频到达时逐帧推理，无需缓冲完整语段。

降噪处理

两种模式在频谱提取阶段均集成可选的降噪前处理模块，针对环境噪声、混响与信道失真进行抑制。批量模式可采用非因果的谱增强（如维纳滤波、谱减法），利用整段音频的上下文以最大化降噪效果；实时模式则使用因果降噪，仅依赖当前及过往帧，保证流式场景下无额外延迟。降噪参数可根据输入质量自适应调节，在高 SNR 录音中近乎透传，在嘈杂场景下显著提升转录鲁棒性。

训练范式：多阶段联合优化

Bailu Transcribe 的训练流程包含三个核心阶段：

大规模预训练：在数十万小时的多语言标注语音数据上进行编码器-解码器联合预训练，建立跨语言的声学-语言映射基础。训练数据覆盖广泛的口音、方言、语速变化与录音环境，确保模型具备泛化能力。
多任务微调：在预训练基础上，同时针对转录、说话人分离、时间戳对齐、语言识别等多个下游任务进行联合微调。多任务训练使模型内部的共享表示更为丰富，单一模型即可支撑多种功能。
延迟感知强化（仅 Realtime）：Bailu Realtime 在微调后额外引入了延迟感知的强化学习阶段，模型在不同 target_streaming_delay_ms 设定下进行训练，学习在给定延迟约束内最大化转录质量。这使得模型能够在部署时动态适应不同延迟配置，而非在固定延迟下训练。

CTC 辅助解码与注意力解码的协同

Bailu Transcribe 的解码器采用混合 CTC/Attention 架构。编码器顶部附加一层连接主义时序分类（Connectionist Temporal Classification, CTC）分支，提供与输入帧对齐的逐帧标签预测；注意力解码器则通过交叉注意力机制在编码器表示上执行自回归生成。训练阶段，两个分支的损失以加权求和方式联合优化，CTC 损失提供单调对齐约束以加速收敛，注意力损失则优化全局序列级质量。推理阶段，CTC 前缀得分可用于约束 beam search 的搜索空间，在不显著增加计算开销的情况下提升解码精度并缩短推理时间。

解码策略：Speculative Emission

Bailu Realtime 的另一项架构创新是推测性文本发射（Speculative Emission）机制。传统的流式 ASR 系统通常在检测到语段边界后才输出文本，导致句中长停顿或连续语音时出现"突发式"输出。Bailu Realtime 的解码器在每个时间步都评估一个发射置信度得分：

当置信度超过动态阈值时，模型立即发射当前累积的文本 token，无需等待语段结束。
阈值根据 target_streaming_delay_ms 自适应调整：低延迟模式下阈值更低（更激进地发射），高延迟模式下阈值更高（等待更多上下文后再发射）。

这一机制使得输出文本的流动更加均匀自然，避免了传统系统中"等待-爆发"的交互体验。

应用场景

Bailu Transcribe 在多个行业和场景中为语音工作流提供支撑：

会议智能

转录多语言录音并通过说话人分离清晰标注"谁在何时说了什么"，以极低成本批量处理大量会议内容。

语音助手

基于亚 200ms 延迟构建对话式 AI。将 Bailu Realtime 接入 LLM 与 TTS 流水线，实现自然流畅的语音交互体验。

呼叫中心自动化

实时转录通话内容，使 AI 系统在对话进行中即可分析情感、建议回复并填充 CRM 字段。说话人分离确保座席与客户的清晰归属。

媒体与广播

以极低延迟生成多语言实时字幕。上下文偏置功能处理通用系统容易误识的专有名词与技术术语。

合规与文档

监控并转录交互内容以满足合规要求。说话人分离提供清晰的归属，时间戳支持精确的审计追踪。

开发者工具

在 IDE 中集成语音输入，通过语音描述需求并实时转录为文本，结合代码模型实现"说话即编程"。

典型部署架构

在实际业务集成中，Bailu Transcribe 通常作为语音工作流的核心引擎，与上下游系统协同运作。典型的全链路架构包含以下环节：

音频采集层：通过 WebSocket 或 WebRTC 实时接收终端音频流，或从对象存储批量拉取录音文件，统一转换为 PCM S16LE 16 kHz 格式送入模型。
转录引擎层：Bailu Transcribe 执行语音识别、说话人分离与时间戳对齐，以结构化 JSON 输出转录结果。
语义处理层：转录文本送入大语言模型进行摘要生成、情感分析、关键词提取或意图分类，实现从"听到"到"理解"的闭环。
业务应用层：经过语义处理的结果写入 CRM、知识库、合规系统或推送至实时仪表盘，支撑具体业务决策。

这一分层架构使各环节可独立扩缩容，转录引擎层按音频流量弹性伸缩，语义处理层按文本吞吐量独立调度，互不干扰。

模型支持通过安全的本地或私有云部署满足 GDPR 与 HIPAA 合规要求。

本地部署方案

Bailu Transcribe 以商业授权方式提供模型权重，支持企业在完全隔离的网络环境中自主部署，确保语音数据不出域。以下是我们推荐的典型部署配置：

开发者工作站

适合个人开发者与小型团队的快速验证与日常使用。

GPU：单张 RTX 4060 / 4070 / 4090（8–24 GB 显存）即可承载推理服务
内存：16 GB 系统内存起
量化：支持 INT8 / INT4 量化，在 8 GB 显存显卡上亦可运行
场景：IDE 语音输入、本地会议转录、个人笔记

企业内网服务器

适合中型团队的共享转录服务，通过内网 API 统一接入。

GPU：1–2 × A10 / L4 / RTX 4090，或 1 × A100 40GB
并发：单卡可同时服务 5–10 路实时转录流
部署：提供 Docker 容器镜像与 Kubernetes Helm Chart，支持 OpenAI 兼容 API 协议
场景：内部会议系统、客服质检、合规录音转录

数据中心级部署

适合大规模呼叫中心、实时字幕与高并发场景。

GPU：A100 / H100 80GB，单卡可同时服务数十路并发流
弹性扩缩：支持基于流量的自动扩缩容，配合负载均衡实现高可用
监控：提供 Prometheus 指标端点与 Grafana 看板模板
场景：大规模呼叫中心、直播实时字幕、全量录音合规审计

嵌入式与边缘设备

适合离线与隐私优先的边缘场景。

硬件：Jetson Orin Nano / AGX Orin、树莓派 5（带 AI HAT+）
量化：INT4 量化后模型体积约 2 GB，可在 8 GB 内存设备上运行
场景：工业现场离线转录、车载语音、嵌入式终端

授权说明：Bailu Transcribe 的本地部署权重通过商业授权获取。授权包含模型权重、推理运行时、容器镜像及技术支持。如需了解授权细节与定价，请通过 bailucode.com 联系我们的商务团队。

开始使用

Bailu Transcribe 统一 3.5B 模型现已通过 API 提供测试，支持批量转录与实时转录（Bailu Realtime）两种模式。前往 Bailu Studio 音频试验场即可在线体验，或通过白鹿对话直接使用。商业权重支持本地私有化部署。

完整的 API 文档与 SDK 指南请参阅 BAILU API 平台。