返回博客

Bailu Transcribe:以声速转录的 3.5B 高性能语音模型

高精度说话人分离、亚 200ms 实时转录、商业权重支持本地部署,Bailu Transcribe 将语音识别推向精度与延迟的新边界。

概述

今天,我们发布 Bailu Transcribe,BAILU AI 首款语音转文本模型,在转录质量、说话人分离和超低延迟三个维度同时达到业界领先水平。Bailu Transcribe 是基于 统一的 3.5B 参数模型,提供两种运行模式:

  • 批量转录模式:面向离线音频文件,具备最优的词错误率与性价比。
  • 实时转录模式(Realtime):专为实时应用构建的流式推理模式,延迟可配置至亚 200ms,商业权重支持本地私有化部署。

同时,我们在 Bailu Transcribe 中上线了全新的音频试验场,支持即时测试转录、说话人分离与时间戳功能,方便您快速测试模型能力与规划业务融合。

核心亮点

优异转录精度

Bailu Transcribe 在内部 FLEURS 基准测试中平均词错误率约 4%,以极高的性价比实现领先的转录质量。

亚 200ms 实时转录

Bailu Realtime 模式采用原生流式架构,延迟可配置低至 200ms 以下,在 2.4s 延迟下精度对齐批量模式。

高精度说话人分离

在内部多语言基准测试中平均分离错误率领先,准确标注"谁在什么时间说了什么"。

极致性价比

同一 3.5B 模型覆盖批量与实时两种模式,参数体量精简而转录精度领先同规模模型。

商业权重 · 本地部署

Bailu Transcribe 提供商业授权的模型权重,支持企业在本地或私有云环境中自主部署,数据不出域。

20 语言原生支持

覆盖中文、英文、日语、韩语、西班牙语、法语、德语、葡萄牙语、俄语、阿拉伯语、印地语、意大利语、荷兰语等。

Bailu Realtime:为延迟敏感型应用而生

与将离线模型适配分块处理的传统方案不同,Bailu Realtime 采用了一种全新的原生流式架构,音频在到达时即被逐帧处理,无需等待完整语段。转录延迟可从亚 200ms 一直配置到 2.4s,开发者可以根据具体场景在速度与精度之间找到最优平衡点。

亚 200ms 延迟模式

词错误率仅比离线模式高 1–2%,适用于语音助手、语音指令解析等需要即时反馈的场景。

2.4s 延迟模式

精度完全对齐批量转录模式,适合字幕生成、会议纪要等容许轻微延迟的高精度场景。

流式架构设计

Bailu Realtime 的核心创新在于其因果注意力流式 Transformer 架构。与传统的"录制-切块-转录"流水线不同,模型在前向推理过程中持续消耗音频帧,并以可配置的目标延迟输出文本 token:

  • 因果注意力掩码:每个时间步仅关注当前及之前的音频帧与文本 token,确保模型可以在音频到达时立即进行推理,无需缓存未来帧。
  • 可变延迟窗口:通过 target_streaming_delay_ms 参数控制模型在输出前等待的额外上下文量。更长的窗口允许模型看到更多后续音频,从而提升精度;更短的窗口则牺牲少量精度换取更低延迟。
  • 增量文本发射:模型以 transcription.text.delta 事件流的形式逐步输出文本片段,客户端可以在每个 delta 到达时立即更新显示,无需等待完整句子。

这一设计使得 Bailu Realtime 在 3.5B 参数体量下,能够在边缘设备上以极低的计算开销运行,同时保持与批量模式相当的转录质量。

双流架构:速度与精度的融合

在实际部署中,我们推荐采用双流并行转录架构(Dual-Delay Transcription),同时运行两个 Bailu Realtime 实例:

  • 快速流(Fast Stream, 240ms):以极低延迟提供即时反馈,文本以半透明样式显示为"临时文本",让用户感知到系统正在实时聆听。
  • 确认流(Slow Stream, 2400ms):以更高精度输出最终确认文本,延迟约 2.4 秒后将临时文本替换为高精度版本。

客户端使用基于最长公共子序列(LCS)的文本对齐算法,将两个流的输出实时合并:快速流中已被确认流覆盖的部分标记为"已确认",尚未被覆盖的尾部则标记为"临时"。这种设计在视觉上类似于输入法的候选与确认机制 —— 用户始终能看到最新识别结果,同时确认文本逐步替换临时文本,过渡自然流畅。

内部基准测试:Bailu Transcribe Alpha 对比

在正式发布前,我们对 Bailu Transcribe 进行了系统性的内部基准测试,并与早期内部原型 Bailu Transcribe Alpha 进行了全面对比,验证了架构改进与训练优化带来的显著提升。

内部 FLEURS 基准词错误率(越低越好)

Bailu Transcribe
~4.0%
Bailu Transcribe Alpha
~7.1%
Whisper Large V3
~5.5%
Faster Whisper
~6.0%

图 1:内部 FLEURS 基准前 10 种语言的平均词错误率对比。Bailu Transcribe 相较 Alpha 原型实现了约 44% 的 WER 降幅,并在同参数规模下显著优于开源基线。

内部说话人分离错误率(越低越好)

Bailu Transcribe
领先
Bailu Transcribe Alpha
基线
PyAnnote 3.1
中等

图 2:在内部多语言说话人分离基准(英文、中文、日语混合数据集)上的平均分离错误率对比。正式版相较 Alpha 原型在分离精度上提升约 50%。

模型能力矩阵

说话人分离

生成带有说话人标签与精确起止时间的转录文本,适用于会议转录、访谈分析与多方通话处理。对于重叠语音,模型通常转录其中一位说话人。

上下文偏置

提供至多 100 个词或短语引导模型正确拼写人名、技术术语或领域特定词汇。该功能针对英文深度优化,其他语言处于实验阶段。

词级时间戳

为每个词生成精确的起止时间戳,支持字幕生成、音频搜索与内容对齐等下游应用。

噪声鲁棒性

在工厂车间、繁忙呼叫中心、户外录音等高噪声环境中维持转录精度,无需额外的降噪前处理。

长音频支持

单次请求可处理最长 3 小时的录音文件,无需手动切分。

扩展语言支持

原生支持 13 种语言,非英文语言的性能显著领先同类竞品,支持自动语言检测。

架构深度解析

Bailu Transcribe 的批量与实时两种模式基于同一套 3.5B 模型权重,共享经过深度优化的 Transformer 编码-解码架构,仅在训练目标与推理策略上针对各自场景做了差异化设计。

模型架构对比

维度 批量转录模式 实时转录模式(Realtime)
参数规模 3.5B 3.5B(共享权重)
架构类型 编码器-解码器 Transformer 因果流式 Transformer
注意力机制 双向全注意力(编码器)+ 因果注意力(解码器) 因果注意力(全程单向)
音频前端 80-bin log-Mel 频谱 + 卷积下采样 80-bin log-Mel 频谱 + 流式卷积
输入格式 PCM S16LE, 16 kHz, 单声道 PCM S16LE, 16 kHz, 单声道
最大输入 3 小时音频 无限制(流式)
延迟特性 批量(非实时) 可配置 200ms – 2400ms
说话人分离 支持 不支持(与实时流不兼容)
授权方式 API 服务 / 商业本地部署 API 服务 / 商业本地部署

音频前端:从波形到语义表示

两种模式的音频前端均基于 80-bin log-Mel 频谱提取,以 16 kHz 采样率、25ms 窗长、10ms 步长将原始 PCM 波形转换为频谱序列。随后通过多层卷积模块进行时间维度下采样(通常 4× 或 8×),在保留关键声学特征的同时大幅压缩序列长度,降低后续 Transformer 层的计算开销。

实时模式的卷积模块额外采用了因果卷积设计 —— 每个卷积核仅覆盖当前和过去的帧,不依赖未来帧。这确保了整个前端-Transformer 流水线可以在音频到达时逐帧推理,无需缓冲完整语段。

降噪处理

两种模式在频谱提取阶段均集成可选的降噪前处理模块,针对环境噪声、混响与信道失真进行抑制。批量模式可采用非因果的谱增强(如维纳滤波、谱减法),利用整段音频的上下文以最大化降噪效果;实时模式则使用因果降噪,仅依赖当前及过往帧,保证流式场景下无额外延迟。降噪参数可根据输入质量自适应调节,在高 SNR 录音中近乎透传,在嘈杂场景下显著提升转录鲁棒性。

训练范式:多阶段联合优化

Bailu Transcribe 的训练流程包含三个核心阶段:

  1. 大规模预训练:在数十万小时的多语言标注语音数据上进行编码器-解码器联合预训练,建立跨语言的声学-语言映射基础。训练数据覆盖广泛的口音、方言、语速变化与录音环境,确保模型具备泛化能力。
  2. 多任务微调:在预训练基础上,同时针对转录、说话人分离、时间戳对齐、语言识别等多个下游任务进行联合微调。多任务训练使模型内部的共享表示更为丰富,单一模型即可支撑多种功能。
  3. 延迟感知强化(仅 Realtime):Bailu Realtime 在微调后额外引入了延迟感知的强化学习阶段,模型在不同 target_streaming_delay_ms 设定下进行训练,学习在给定延迟约束内最大化转录质量。这使得模型能够在部署时动态适应不同延迟配置,而非在固定延迟下训练。

解码策略:Speculative Emission

Bailu Realtime 的另一项架构创新是推测性文本发射(Speculative Emission)机制。传统的流式 ASR 系统通常在检测到语段边界后才输出文本,导致句中长停顿或连续语音时出现"突发式"输出。Bailu Realtime 的解码器在每个时间步都评估一个发射置信度得分:

  • 当置信度超过动态阈值时,模型立即发射当前累积的文本 token,无需等待语段结束。
  • 阈值根据 target_streaming_delay_ms 自适应调整:低延迟模式下阈值更低(更激进地发射),高延迟模式下阈值更高(等待更多上下文后再发射)。

这一机制使得输出文本的流动更加均匀自然,避免了传统系统中"等待-爆发"的交互体验。

应用场景

Bailu Transcribe 在多个行业和场景中为语音工作流提供支撑:

会议智能

转录多语言录音并通过说话人分离清晰标注"谁在何时说了什么",以极低成本批量处理大量会议内容。

语音助手

基于亚 200ms 延迟构建对话式 AI。将 Bailu Realtime 接入 LLM 与 TTS 流水线,实现自然流畅的语音交互体验。

呼叫中心自动化

实时转录通话内容,使 AI 系统在对话进行中即可分析情感、建议回复并填充 CRM 字段。说话人分离确保座席与客户的清晰归属。

媒体与广播

以极低延迟生成多语言实时字幕。上下文偏置功能处理通用系统容易误识的专有名词与技术术语。

合规与文档

监控并转录交互内容以满足合规要求。说话人分离提供清晰的归属,时间戳支持精确的审计追踪。

开发者工具

在 IDE 中集成语音输入,通过语音描述需求并实时转录为文本,结合代码模型实现"说话即编程"。

模型支持通过安全的本地或私有云部署满足 GDPR 与 HIPAA 合规要求。

本地部署方案

Bailu Transcribe 以商业授权方式提供模型权重,支持企业在完全隔离的网络环境中自主部署,确保语音数据不出域。以下是我们推荐的典型部署配置:

开发者工作站

适合个人开发者与小型团队的快速验证与日常使用。

  • GPU:单张 RTX 4060 / 4070 / 4090(8–24 GB 显存)即可承载推理服务
  • 内存:16 GB 系统内存起
  • 量化:支持 INT8 / INT4 量化,在 8 GB 显存显卡上亦可运行
  • 场景:IDE 语音输入、本地会议转录、个人笔记

企业内网服务器

适合中型团队的共享转录服务,通过内网 API 统一接入。

  • GPU:1–2 × A10 / L4 / RTX 4090,或 1 × A100 40GB
  • 并发:单卡可同时服务 5–10 路实时转录流
  • 部署:提供 Docker 容器镜像与 Kubernetes Helm Chart,支持 OpenAI 兼容 API 协议
  • 场景:内部会议系统、客服质检、合规录音转录

数据中心级部署

适合大规模呼叫中心、实时字幕与高并发场景。

  • GPU:A100 / H100 80GB,单卡可同时服务数十路并发流
  • 弹性扩缩:支持基于流量的自动扩缩容,配合负载均衡实现高可用
  • 监控:提供 Prometheus 指标端点与 Grafana 看板模板
  • 场景:大规模呼叫中心、直播实时字幕、全量录音合规审计

嵌入式与边缘设备

适合离线与隐私优先的边缘场景。

  • 硬件:Jetson Orin Nano / AGX Orin、树莓派 5(带 AI HAT+)
  • 量化:INT4 量化后模型体积约 2 GB,可在 8 GB 内存设备上运行
  • 场景:工业现场离线转录、车载语音、嵌入式终端

授权说明:Bailu Transcribe 的本地部署权重通过商业授权获取。授权包含模型权重、推理运行时、容器镜像及技术支持。如需了解授权细节与定价,请通过 bailucode.com 联系我们的商务团队。

开始使用

Bailu Transcribe 统一 3.5B 模型现已通过 API 提供测试,支持批量转录实时转录(Bailu Realtime)两种模式。前往 Bailu Studio 音频试验场 即可在线体验,或通过 白鹿对话 直接使用。商业权重支持本地私有化部署。

完整的 API 文档与 SDK 指南请参阅 BAILU API 平台