BAILU-Music：高表现力的 3.8B 音乐生成模型

概述

我们正式发布 BAILU-Music，这是由 BAILU AI 独立打造的 3.8B 参数音乐生成模型，在音色塑造、段落结构与动态控制方面实现了全面升级。模型采用「多尺度潜空间 + 条件扩散 + Transformer 控制器」的分层范式：秒级节奏由事件序列建模，分钟级情绪由长程结构规划器生成蓝图，再交由多轨声学解码器回放，使作曲家、声音设计师以及游戏与影视音乐团队在数秒内获得具备真实演奏细节的曲目草稿。

经过对推理管线的深度优化，BAILU-Music 在 A100 上可低至 2 秒完成整曲渲染，在 RTX 3090 上约 9.6 秒完成单曲生成。仅需 4GB VRAM 即可运行的轻量配置使其成为真正意义上可本地部署的音乐基础模型。

BAILU-Music 已通过 Bailu Music Playground 开放测试，支持旋律提示上传、文本标签、MIDI 片段与音频示例的多源条件组合。开发者可以在相同平台上体验实时编排、片段重写、分轨导出以及“从一句歌词生成整曲”式的规划式交互。

关键亮点

超写实音色栈

64 通道谱面重建网络将鼓、弦、合成器与人声分轨建模，保留真实演奏的力度与空间感。

多尺度结构控制

Transformer-Perceiver 混合架构同时理解秒级节奏与分钟级段落，自动生成前奏、主歌、桥段与尾声。

多模态条件

文本标签、和弦走向、MIDI、参考音频可并行注入，实时调节情绪、风格、拍速与配器密度。

真实演奏感

引入演奏符号解码器，对滑音、勾弦、延音踏板与人声气息进行显式渲染，减少“合成味”。

轻量个性化

支持少量曲目即可训练 LoRA，捕捉个人风格并注入推理循环，让创作者快速构建专属音色。

架构与训练创新

BAILU-Music 采用模块化模型库设计，包含 DiT（扩散 Transformer）与 LM（语言模型）两大组件，支持灵活组合以平衡质量、速度与功能完整性。所有模型均基于 BF16 精度训练，提供 safetensors 格式，兼容 diffusers 与 PyTorch 生态。

模型库概览

模型名称	预训练	SFT	RL	CFG	步数	功能覆盖	质量	多样性
bailu-music-base	是	否	否	是	50	全功能	中	高
bailu-music-sft	是	是	否	是	50	核心	高	中
bailu-music-turbo	是	是	否	否	8	核心	极高	中
bailu-music-turbo-rl	是	是	是	否	8	核心	极高	中

语言模型组件

LM 模型	基座	预训练	SFT	RL	CoT 元数据	查询重写	音频理解	作曲能力
bailu-lm-0.6B	Qwen3-0.6B	是	是	是	是	是	中	中
bailu-lm-1.7B	Qwen3-1.7B	是	是	是	是	是	中	中
bailu-lm-4B	Qwen3-4B	是	是	是	是	是	强	强

核心架构创新

模块	设计	收益
多尺度潜空间	音频被压缩到 12×、48× 两层潜空间，结合扩散 + Transformer 解码	兼顾长时结构与瞬态细节，减少伪影
条件交叉注意力	文本、MIDI、音频特征通过共享键值对齐音高与节奏	跨模态信息融合，提升对齐度
表现力监督	引入力度、力度曲线、演奏技巧标签作为辅助预测	让模型学会渐强/渐弱、呼吸与演奏张力
可控推理栈	Streaming Diffusion + Speculative Decoder	8 秒预热即可实时试听，便于现场编曲
规划器-解码器协同	语言模型充当“乐曲策划者”，生成蓝图与歌词，再驱动扩散 Transformer	从一句提示扩展到 10 分钟长曲，同时保持主题一致性

扩散过程与音频潜空间

BAILU-Music 的声学生成核心建立在高效的潜空间扩散框架之上。原始音频波形首先通过音频编解码器（Audio Codec）压缩至紧凑的潜空间表示，将高维时域信号映射为低维连续向量序列。这一压缩不仅大幅降低了扩散过程的计算复杂度，还保留了关键的频谱特征与时序结构，为后续的条件生成提供了高效的操作空间。

在扩散采样策略上，模型采用整流流匹配（Rectified Flow Matching）替代传统的去噪扩散概率模型（DDPM）。与 DDPM 需要数百步迭代去噪不同，整流流匹配通过学习从噪声到数据的近似直线传输路径，显著提升了采样效率。这意味着模型可以在更少的推理步数下达到高质量输出，为 Turbo 系列仅需 8 步即完成生成奠定了理论基础。

在推理阶段，分类器自由引导（Classifier-Free Guidance, CFG）进一步增强了条件控制的精度。该技术同时训练有条件与无条件两种预测路径，推理时通过二者的线性外推来放大条件信号的影响。当引导强度适当提升时，生成结果在风格一致性、音色准确度与文本语义对齐方面均表现出显著改善，使用户的创作意图能够更精确地映射到最终音频输出中。

训练数据体系

授权数据：专业授权音乐曲目，确保商业可用
免版税/无版权数据：海量公有领域与免版税音乐
合成数据：通过先进 MIDI-to-Audio 转换生成的高质量音频
规模：110K 首多轨录音 + 32K 首授权 MIDI
覆盖：14 种音乐风格、9 种拍速区间
标注：演奏符号标签（guitar techniques、vocal articulations 等）

训练管线

分阶段预训练：文本-谱面、MIDI-谱面、音频-谱面
多目标微调：FAD、CLAP、结构一致性三重损失
强化阶段：以内在机制奖励对齐，避免外部偏好偏差
内在奖励：节奏平衡、旋律连贯、歌词可唱性等内部指标
CoT 推理：通过 Chain-of-Thought 生成详细注释与元数据

表现评估（内部基准）

我们在多个维度对 BAILU-Music 进行了系统评估，涵盖音质、多样性、功能覆盖与推理效率。以下为内部基准测试结果：

FAD / MOS 对比

BAILU-Music Turbo

MOS 4.63

BAILU-Music SFT

MOS 4.41

BAILU-Music Base

MOS 4.15

MusicGen Large

MOS 3.98

注：MOS 为 5 分制主观听感评分，FAD 分数亦同步下降 0.7，音乐质感显著提升。

生成效率

实时流 (RTX 4090)

0.47× RT

批量渲染 (A100)

0.31× RT

工作站 (RTX 3090)

~9.6s / song

轻量形态 (4GB VRAM)

单曲 < 30s

0.47× RT 表示生成 10 秒音乐仅需约 4.7 秒推理，满足现场迭代需求。

功能覆盖度

Text2Music

全模型支持

Cover 生成

Base/SFT

Repaint 编辑

Base/SFT

Extract 分轨

Base/SFT

Lego 续写

Base/SFT

Turbo 系列专注速度与质量，Base/SFT 提供完整编辑与分轨能力。

步数与质量的权衡

扩散模型的采样步数是影响生成质量与推理速度的关键参数。在 BAILU-Music 的模型体系中，Base 模型默认采用 50 步扩散采样，每一步都在潜空间中逐步精细化音频表示，更多的迭代次数允许模型在采样过程中探索更广泛的分布空间，因此 Base 模型在多样性指标上表现突出，适合需要大量创意候选的场景。

Turbo 系列则通过蒸馏（Distillation）技术将 50 步扩散过程压缩至仅 8 步。蒸馏过程中，教师模型（50 步 SFT 模型）的完整采样轨迹被提炼为学生模型（Turbo）的 8 步跳跃式路径。为保证压缩后的音质不出现退化，训练引入了损失重加权策略，对频谱关键区域（如基频、谐波与瞬态攻击）赋予更高权重；同时，教师与学生之间采用对抗训练目标，使学生模型在压缩步数的同时学习到教师在关键去噪节点上的决策模式。

一个值得关注的现象是：Turbo 模型在更少的步数下反而实现了更高的整体音质评分（MOS 4.63 vs. Base 的 4.15）。这是因为蒸馏过程本质上将教师模型的采样分布集中化，去除了多步采样中低概率区域的噪声波动，使每一步都沿着高质量输出的方向演进。更集中的分布采样虽然牺牲了部分多样性，却在平均音质上带来了显著提升，这一特性使 Turbo 系列成为对延迟敏感的生产环境的首选。

规划-解码双体系统

BAILU-Music 的核心创新在于让语言模型承担“全能策划者”角色：它将用户简短提示转化为包含 BPM、调式、结构段落、情绪轨迹、歌词与音色说明的蓝图，并以 Chain-of-Thought 形式生成详尽注释。该蓝图不仅约束扩散 Transformer 的采样，还驱动歌词-配器-音色三条控制通道同步演化。

这一过程通过内在强化学习完成：模型在自我博弈中以“节奏平衡”“旋律连贯”“歌词可唱性”等内部指标作为奖励，无需人工偏好或外部判别器即可对齐生成目标，避免第三方奖励模型带来的偏差。

歌词与音乐的精确对齐

在含人声的音乐生成场景中，歌词与旋律的对齐质量直接决定了最终作品的可听性。BAILU-Music 的语言模型组件通过音素级对齐（Phoneme-Level Alignment）机制，确保生成的人声段落在节拍、重音与韵律上与音乐结构精确匹配。具体而言，模型在规划阶段将歌词文本拆解为音素序列，并为每个音素分配与乐曲节拍网格对齐的时间锚点，从而避免常见的"抢拍"或"拖拍"问题。

此外，模型对歌词韵律（Prosody）进行了显式建模，联合预测三个关键维度：音节时长（Duration）控制每个音素的持续长度以匹配旋律节奏；音高轮廓（Pitch Contour）刻画人声在乐句中的旋律走向与音程跳跃；力度包络（Energy Envelope）则模拟演唱者在不同乐段中的气息强弱变化。三者的联合预测使生成的人声不仅在时序上与伴奏吻合，在表现力层面也具备接近真实演唱的自然感与情感张力。

最终的 Diffusion Transformer 负责在多尺度潜空间内重建完整波形：它从策划蓝图抽取局部约束，在 64 通道谱面上执行条件采样，并允许中途注入“repaint”“vocal-to-BGM”等编辑指令，实现无缝的续写与修补体验。

工作流与可控性

多模态条件上传： 支持上传最多 4 条 MIDI、1 段参考音频与 512 字符文本提示，自动对齐节拍。
动态结构编辑： 在 Playground 中可拖拽段落、锁定旋律或鼓组，让模型只重写选定部分。
分轨导出： 所有生成内容可导出为 Stems、MIDI、DAW Project（Ableton Live / Logic 模板）。
实时 API： OpenAI 兼容接口可直接返回 44.1 kHz WAV、MIDI 与控制参数，方便游戏引擎或互动装置调用。
多语种提示保持力： 规划器-解码器链路在 50+ 语言提示下保持节奏、语义与押韵一致，适合全球内容团队。
精准编辑工具链： 原位“repaint”用于替换局部乐器，cover/vocal-to-BGM 工具可从单轨人声推理出全新伴奏但保留声线情绪。

应用场景

影视配乐

快速生成多段灵感草稿，并根据镜头节奏调节高潮与留白。

互动游戏

利用实时 API 根据玩家状态连续生成自适应背景音乐。

沉浸式体验

为 XR 艺术、装置演出提供长时无循环的生成音乐。

品牌与空间

商业空间背景音乐、品牌音乐识别、可调情绪的导览配乐。

音乐制作人

将模型作为合作者，用文本描述想法并导出 MIDI 继续编曲。

内容创作者平台

为短视频、电商、播客平台提供批量化生成、再编辑与版权管理统一的音乐生产能力。

本地部署概述

BAILU-Music 支持从个人工作站到企业集群、再到边缘节点的全栈部署形态，可根据算力条件灵活选择推理配置。无论是单人创作、团队协同制作，还是大规模内容生产与线下场景播放，都可以通过同一套模型体系与 API 接口平滑打通。

创作工作站

在单张 RTX 4090/5090（24GB）上即可稳定运行约 0.5× RT 的实时流，支持与主流 DAW 深度集成，通过插件或 VST Bridge 直接在工程内生成、编辑与落盘素材。

企业音乐中台

2 × L40S 或 1 × A100 40GB 即可支撑约 10 路并发服务，配套提供 Docker/K8s 部署模版、自动扩缩容与负载均衡脚本，并内置 Prometheus 指标上报与兼容 OpenAPI 的统一服务网关。

私有化方案

以加密权重形式交付，支持数据本地驻留、物理或逻辑隔离网络、多租户音色库与操作审计，满足影视、游戏、文旅及政企客户对合规与安全的严苛要求。

边缘渲染节点

在 8GB Orin 或工业级 PC 上运行量化推理版本，可为线下展览、装置艺术、沉浸式场馆等场景提供低延迟本地生成，弱网络或离线环境同样可以实现稳定播放与按需编排。

立即体验

访问 Bailu Music Playground 即可体验最新模型，或通过企业邮箱联系我们获取 BAILU-Music 的私有化部署方案（支持 Docker/K8s、一键推理栈与算力调度）。