概述
今天,我们发布 Bailu Transcribe,BAILU AI 首款语音转文本模型,在转录质量、说话人分离和超低延迟三个维度同时达到业界领先水平。Bailu Transcribe 是基于 统一的 3.5B 参数模型,提供两种运行模式:
- 批量转录模式:面向离线音频文件,具备最优的词错误率与性价比。
- 实时转录模式(Realtime):专为实时应用构建的流式推理模式,延迟可配置至亚 200ms,商业权重支持本地私有化部署。
同时,我们在 Bailu Transcribe 中上线了全新的音频试验场,支持即时测试转录、说话人分离与时间戳功能,方便您快速测试模型能力与规划业务融合。
核心亮点
优异转录精度
Bailu Transcribe 在内部 FLEURS 基准测试中平均词错误率约 4%,以极高的性价比实现领先的转录质量。
亚 200ms 实时转录
Bailu Realtime 模式采用原生流式架构,延迟可配置低至 200ms 以下,在 2.4s 延迟下精度对齐批量模式。
高精度说话人分离
在内部多语言基准测试中平均分离错误率领先,准确标注"谁在什么时间说了什么"。
极致性价比
同一 3.5B 模型覆盖批量与实时两种模式,参数体量精简而转录精度领先同规模模型。
商业权重 · 本地部署
Bailu Transcribe 提供商业授权的模型权重,支持企业在本地或私有云环境中自主部署,数据不出域。
20 语言原生支持
覆盖中文、英文、日语、韩语、西班牙语、法语、德语、葡萄牙语、俄语、阿拉伯语、印地语、意大利语、荷兰语等。
Bailu Realtime:为延迟敏感型应用而生
与将离线模型适配分块处理的传统方案不同,Bailu Realtime 采用了一种全新的原生流式架构,音频在到达时即被逐帧处理,无需等待完整语段。转录延迟可从亚 200ms 一直配置到 2.4s,开发者可以根据具体场景在速度与精度之间找到最优平衡点。
亚 200ms 延迟模式
词错误率仅比离线模式高 1–2%,适用于语音助手、语音指令解析等需要即时反馈的场景。
2.4s 延迟模式
精度完全对齐批量转录模式,适合字幕生成、会议纪要等容许轻微延迟的高精度场景。
流式架构设计
Bailu Realtime 的核心创新在于其因果注意力流式 Transformer 架构。与传统的"录制-切块-转录"流水线不同,模型在前向推理过程中持续消耗音频帧,并以可配置的目标延迟输出文本 token:
- 因果注意力掩码:每个时间步仅关注当前及之前的音频帧与文本 token,确保模型可以在音频到达时立即进行推理,无需缓存未来帧。
- 可变延迟窗口:通过
target_streaming_delay_ms参数控制模型在输出前等待的额外上下文量。更长的窗口允许模型看到更多后续音频,从而提升精度;更短的窗口则牺牲少量精度换取更低延迟。 - 增量文本发射:模型以
transcription.text.delta事件流的形式逐步输出文本片段,客户端可以在每个 delta 到达时立即更新显示,无需等待完整句子。
这一设计使得 Bailu Realtime 在 3.5B 参数体量下,能够在边缘设备上以极低的计算开销运行,同时保持与批量模式相当的转录质量。
双流架构:速度与精度的融合
在实际部署中,我们推荐采用双流并行转录架构(Dual-Delay Transcription),同时运行两个 Bailu Realtime 实例:
- 快速流(Fast Stream, 240ms):以极低延迟提供即时反馈,文本以半透明样式显示为"临时文本",让用户感知到系统正在实时聆听。
- 确认流(Slow Stream, 2400ms):以更高精度输出最终确认文本,延迟约 2.4 秒后将临时文本替换为高精度版本。
客户端使用基于最长公共子序列(LCS)的文本对齐算法,将两个流的输出实时合并:快速流中已被确认流覆盖的部分标记为"已确认",尚未被覆盖的尾部则标记为"临时"。这种设计在视觉上类似于输入法的候选与确认机制 —— 用户始终能看到最新识别结果,同时确认文本逐步替换临时文本,过渡自然流畅。
内部基准测试:Bailu Transcribe Alpha 对比
在正式发布前,我们对 Bailu Transcribe 进行了系统性的内部基准测试,并与早期内部原型 Bailu Transcribe Alpha 进行了全面对比,验证了架构改进与训练优化带来的显著提升。
内部 FLEURS 基准词错误率(越低越好)
图 1:内部 FLEURS 基准前 10 种语言的平均词错误率对比。Bailu Transcribe 相较 Alpha 原型实现了约 44% 的 WER 降幅,并在同参数规模下显著优于开源基线。
内部说话人分离错误率(越低越好)
图 2:在内部多语言说话人分离基准(英文、中文、日语混合数据集)上的平均分离错误率对比。正式版相较 Alpha 原型在分离精度上提升约 50%。
模型能力矩阵
说话人分离
生成带有说话人标签与精确起止时间的转录文本,适用于会议转录、访谈分析与多方通话处理。对于重叠语音,模型通常转录其中一位说话人。
上下文偏置
提供至多 100 个词或短语引导模型正确拼写人名、技术术语或领域特定词汇。该功能针对英文深度优化,其他语言处于实验阶段。
词级时间戳
为每个词生成精确的起止时间戳,支持字幕生成、音频搜索与内容对齐等下游应用。
噪声鲁棒性
在工厂车间、繁忙呼叫中心、户外录音等高噪声环境中维持转录精度,无需额外的降噪前处理。
长音频支持
单次请求可处理最长 3 小时的录音文件,无需手动切分。
扩展语言支持
原生支持 13 种语言,非英文语言的性能显著领先同类竞品,支持自动语言检测。
架构深度解析
Bailu Transcribe 的批量与实时两种模式基于同一套 3.5B 模型权重,共享经过深度优化的 Transformer 编码-解码架构,仅在训练目标与推理策略上针对各自场景做了差异化设计。
模型架构对比
| 维度 | 批量转录模式 | 实时转录模式(Realtime) |
|---|---|---|
| 参数规模 | 3.5B | 3.5B(共享权重) |
| 架构类型 | 编码器-解码器 Transformer | 因果流式 Transformer |
| 注意力机制 | 双向全注意力(编码器)+ 因果注意力(解码器) | 因果注意力(全程单向) |
| 音频前端 | 80-bin log-Mel 频谱 + 卷积下采样 | 80-bin log-Mel 频谱 + 流式卷积 |
| 输入格式 | PCM S16LE, 16 kHz, 单声道 | PCM S16LE, 16 kHz, 单声道 |
| 最大输入 | 3 小时音频 | 无限制(流式) |
| 延迟特性 | 批量(非实时) | 可配置 200ms – 2400ms |
| 说话人分离 | 支持 | 不支持(与实时流不兼容) |
| 授权方式 | API 服务 / 商业本地部署 | API 服务 / 商业本地部署 |
音频前端:从波形到语义表示
两种模式的音频前端均基于 80-bin log-Mel 频谱提取,以 16 kHz 采样率、25ms 窗长、10ms 步长将原始 PCM 波形转换为频谱序列。随后通过多层卷积模块进行时间维度下采样(通常 4× 或 8×),在保留关键声学特征的同时大幅压缩序列长度,降低后续 Transformer 层的计算开销。
实时模式的卷积模块额外采用了因果卷积设计 —— 每个卷积核仅覆盖当前和过去的帧,不依赖未来帧。这确保了整个前端-Transformer 流水线可以在音频到达时逐帧推理,无需缓冲完整语段。
降噪处理
两种模式在频谱提取阶段均集成可选的降噪前处理模块,针对环境噪声、混响与信道失真进行抑制。批量模式可采用非因果的谱增强(如维纳滤波、谱减法),利用整段音频的上下文以最大化降噪效果;实时模式则使用因果降噪,仅依赖当前及过往帧,保证流式场景下无额外延迟。降噪参数可根据输入质量自适应调节,在高 SNR 录音中近乎透传,在嘈杂场景下显著提升转录鲁棒性。
训练范式:多阶段联合优化
Bailu Transcribe 的训练流程包含三个核心阶段:
- 大规模预训练:在数十万小时的多语言标注语音数据上进行编码器-解码器联合预训练,建立跨语言的声学-语言映射基础。训练数据覆盖广泛的口音、方言、语速变化与录音环境,确保模型具备泛化能力。
- 多任务微调:在预训练基础上,同时针对转录、说话人分离、时间戳对齐、语言识别等多个下游任务进行联合微调。多任务训练使模型内部的共享表示更为丰富,单一模型即可支撑多种功能。
- 延迟感知强化(仅 Realtime):Bailu Realtime 在微调后额外引入了延迟感知的强化学习阶段,模型在不同
target_streaming_delay_ms设定下进行训练,学习在给定延迟约束内最大化转录质量。这使得模型能够在部署时动态适应不同延迟配置,而非在固定延迟下训练。
解码策略:Speculative Emission
Bailu Realtime 的另一项架构创新是推测性文本发射(Speculative Emission)机制。传统的流式 ASR 系统通常在检测到语段边界后才输出文本,导致句中长停顿或连续语音时出现"突发式"输出。Bailu Realtime 的解码器在每个时间步都评估一个发射置信度得分:
- 当置信度超过动态阈值时,模型立即发射当前累积的文本 token,无需等待语段结束。
- 阈值根据
target_streaming_delay_ms自适应调整:低延迟模式下阈值更低(更激进地发射),高延迟模式下阈值更高(等待更多上下文后再发射)。
这一机制使得输出文本的流动更加均匀自然,避免了传统系统中"等待-爆发"的交互体验。
应用场景
Bailu Transcribe 在多个行业和场景中为语音工作流提供支撑:
会议智能
转录多语言录音并通过说话人分离清晰标注"谁在何时说了什么",以极低成本批量处理大量会议内容。
语音助手
基于亚 200ms 延迟构建对话式 AI。将 Bailu Realtime 接入 LLM 与 TTS 流水线,实现自然流畅的语音交互体验。
呼叫中心自动化
实时转录通话内容,使 AI 系统在对话进行中即可分析情感、建议回复并填充 CRM 字段。说话人分离确保座席与客户的清晰归属。
媒体与广播
以极低延迟生成多语言实时字幕。上下文偏置功能处理通用系统容易误识的专有名词与技术术语。
合规与文档
监控并转录交互内容以满足合规要求。说话人分离提供清晰的归属,时间戳支持精确的审计追踪。
开发者工具
在 IDE 中集成语音输入,通过语音描述需求并实时转录为文本,结合代码模型实现"说话即编程"。
模型支持通过安全的本地或私有云部署满足 GDPR 与 HIPAA 合规要求。
本地部署方案
Bailu Transcribe 以商业授权方式提供模型权重,支持企业在完全隔离的网络环境中自主部署,确保语音数据不出域。以下是我们推荐的典型部署配置:
开发者工作站
适合个人开发者与小型团队的快速验证与日常使用。
- GPU:单张 RTX 4060 / 4070 / 4090(8–24 GB 显存)即可承载推理服务
- 内存:16 GB 系统内存起
- 量化:支持 INT8 / INT4 量化,在 8 GB 显存显卡上亦可运行
- 场景:IDE 语音输入、本地会议转录、个人笔记
企业内网服务器
适合中型团队的共享转录服务,通过内网 API 统一接入。
- GPU:1–2 × A10 / L4 / RTX 4090,或 1 × A100 40GB
- 并发:单卡可同时服务 5–10 路实时转录流
- 部署:提供 Docker 容器镜像与 Kubernetes Helm Chart,支持 OpenAI 兼容 API 协议
- 场景:内部会议系统、客服质检、合规录音转录
数据中心级部署
适合大规模呼叫中心、实时字幕与高并发场景。
- GPU:A100 / H100 80GB,单卡可同时服务数十路并发流
- 弹性扩缩:支持基于流量的自动扩缩容,配合负载均衡实现高可用
- 监控:提供 Prometheus 指标端点与 Grafana 看板模板
- 场景:大规模呼叫中心、直播实时字幕、全量录音合规审计
嵌入式与边缘设备
适合离线与隐私优先的边缘场景。
- 硬件:Jetson Orin Nano / AGX Orin、树莓派 5(带 AI HAT+)
- 量化:INT4 量化后模型体积约 2 GB,可在 8 GB 内存设备上运行
- 场景:工业现场离线转录、车载语音、嵌入式终端
授权说明:Bailu Transcribe 的本地部署权重通过商业授权获取。授权包含模型权重、推理运行时、容器镜像及技术支持。如需了解授权细节与定价,请通过 bailucode.com 联系我们的商务团队。
开始使用
Bailu Transcribe 统一 3.5B 模型现已通过 API 提供测试,支持批量转录与实时转录(Bailu Realtime)两种模式。前往 Bailu Studio 音频试验场 即可在线体验,或通过 白鹿对话 直接使用。商业权重支持本地私有化部署。
完整的 API 文档与 SDK 指南请参阅 BAILU API 平台。