Step-Audio-EditX: 像编辑文稿一样编辑音频

🎧 沉浸式模型演示

体验文本驱动的音频编辑，即时生成所需效果。

例如，用户有一段语调平淡的旁白，希望使之更生动。通过 Step Audio EditX，只需在文本指令中加入情绪标签（如添加 [Happy] 表示快乐），模型便能将声音调整得充满喜悦的情感。如果再叠加笑声等副语言效果，语音将更加贴近真人对话。用户还可以多次迭代应用不同指令，逐步强化目标效果，让最终音频契合预期。

示例/主题

原始音频/内容

用户指令

编辑后音频/内容

情绪转换

（主题概述）

原始音频：

“我总觉得，有人在跟着我，我能听到奇怪的脚步声。”

用户指令：

转换成恐惧的语气。

编辑后：

“我总觉得，有人在跟着我，我能听到奇怪的脚步声。” (恐惧)

说话风格转变

（主题概述）

原始音频：

“你到底想怎么着，上学的时候懒得学，工作的时候没时间学。”

用户指令：

变成咆哮说话风格。

编辑后：

“你到底想怎么着，上学的时候懒得学，工作的时候没时间学。”

副语言编辑

（主题概述）

原始音频：

“Wait, you're telling me you finished the entire book in one day? That's incredible!”

用户指令：

加入惊讶副语言。

编辑后：

Wait, you're telling me you finished the entire book in one day? [Surprise-oh] That's incredible!

扩展

（主题概述）

原始音频：

“就是说你比如说我一共在这次看病我一共花了一百块钱，其中呢医生的这个劳动价值占了三十块钱。 ”

用户指令：

静音修建

编辑后：

“就是说你比如说我一共在这次看病我一共花了一百块钱，其中呢医生的这个劳动价值占了三十块钱。”

✨ 模型能力

Step Audio EditX 拥有丰富的音频编辑能力，能够满足各种语音处理需求：

🔁

零样本语音克隆与多语言支持

无需额外训练即可模仿任意说话人的声音朗读文本；支持普通话、英语以及四川话、粤语等多种语言，实现跨语言音频创作。

🎭

情感与风格编辑

支持对语音的情绪（愤怒、喜悦等）和说话风格（严肃、耳语等）进行精准调整，让同一句话呈现不同的表达效果。

🫧

副语言效果

能够插入呼吸、笑声、叹息等细节，使合成语音更加贴近真人交流、富有表现力。

🔄

迭代编辑

支持多步连续编辑，用户可逐次强化目标情绪或效果，控制音频输出。

🌍 使用场景

Step Audio EditX 的功能适用于广泛的应用场景：

🎬

媒体内容创作

短视频博主可一键切换不同角色的声音（如活力少女）；有声书作者也能独自完成多角色对话配音，使作品更具感染力。

🤖

智能语音助手

借助 Step Audio EditX，可为虚拟客服或助理动态调整语气（如友善、关切），并加入呼吸等细节，让声音更自然生动。

🌐

配音与本地化

影视和游戏配音可利用 Step Audio EditX 零样本克隆配音演员的声音，并微调情绪以符合场景；还可将对白转换为不同语言或方言，降低本地化成本。

🧠 模型结构与性能

Step-Audio-EditX 基于大型语言模型，实现了跨模态的统一编辑。它轻量高效，模型参数精简至 30 亿，可在单张 GPU 上运行，方便集成到各类应用中。

核心参数量

3 Billion

训练数据类型

多语言情绪语音

关键指标提升

MOS 评分 4.3 / BLEU 提升 17%

🚀 快速部署与体验

立即开始使用 Step-Audio-EditX。

🤖

Hugging Face Space

一键在线试玩，无需配置环境。

💻

GitHub 本地部署

下载源码，在本地 GPU 环境中运行。