Step-Audio-EditX

像编辑文稿一样编辑音频

Step Audio EditX是一款开创性的 AI 音频编辑模型,实现了“用自然语言指令编辑语音”的革命性体验。Step Audio EditX 让语音编辑如修改文档般直观、高效,用户只需输入简单文本指令,即可精准控制音频的情感、风格和细节效果。

立即试用

🎧 沉浸式模型演示

体验文本驱动的音频编辑,即时生成所需效果。

例如,用户有一段语调平淡的旁白,希望使之更生动。通过 Step Audio EditX,只需在文本指令中加入情绪标签(如添加 [Happy] 表示快乐),模型便能将声音调整得充满喜悦的情感。如果再叠加笑声等副语言效果,语音将更加贴近真人对话。用户还可以多次迭代应用不同指令,逐步强化目标效果,让最终音频契合预期。

情绪转换

原始音频:

“我总觉得,有人在跟着我,我能听到奇怪的脚步声。”

用户指令:

转换成恐惧的语气。

编辑后:

“我总觉得,有人在跟着我,我能听到奇怪的脚步声。” (恐惧)

说话风格转变

原始音频:

“你到底想怎么着,上学的时候懒得学,工作的时候没时间学。”

用户指令:

变成咆哮说话风格。

编辑后:

“你到底想怎么着,上学的时候懒得学,工作的时候没时间学。”

副语言编辑

原始音频:

“Wait, you're telling me you finished the entire book in one day? That's incredible!”

用户指令:

加入惊讶副语言。

编辑后:

Wait, you're telling me you finished the entire book in one day? [Surprise-oh] That's incredible!

扩展

原始音频:

“就是说你比如说我一共在这次看病我一共花了一百块钱,其中呢医生的这个劳动价值占了三十块钱。 ”

用户指令:

静音修建

编辑后:

“就是说你比如说我一共在这次看病我一共花了一百块钱,其中呢医生的这个劳动价值占了三十块钱。”

✨ 模型能力

Step Audio EditX 拥有丰富的音频编辑能力,能够满足各种语音处理需求:

🔁

零样本语音克隆与多语言支持

无需额外训练即可模仿任意说话人的声音朗读文本;支持普通话、英语以及四川话、粤语等多种语言,实现跨语言音频创作。

🎭

情感与风格编辑

支持对语音的情绪(愤怒、喜悦等)和说话风格(严肃、耳语等)进行精准调整,让同一句话呈现不同的表达效果。

🫧

副语言效果

能够插入呼吸、笑声、叹息等细节,使合成语音更加贴近真人交流、富有表现力。

🔄

迭代编辑

支持多步连续编辑,用户可逐次强化目标情绪或效果,控制音频输出。

🌍 使用场景

Step Audio EditX 的功能适用于广泛的应用场景:

🎬

媒体内容创作

短视频博主可一键切换不同角色的声音(如活力少女);有声书作者也能独自完成多角色对话配音,使作品更具感染力。

🤖

智能语音助手

借助 Step Audio EditX,可为虚拟客服或助理动态调整语气(如友善、关切),并加入呼吸等细节,让声音更自然生动。

🌐

配音与本地化

影视和游戏配音可利用 Step Audio EditX 零样本克隆配音演员的声音,并微调情绪以符合场景;还可将对白转换为不同语言或方言,降低本地化成本。

🧠 模型结构与性能

Step-Audio-EditX 基于大型语言模型,实现了跨模态的统一编辑。它轻量高效,模型参数精简至 30 亿,可在单张 GPU 上运行,方便集成到各类应用中。

核心参数量

3 Billion

训练数据类型

多语言情绪语音

关键指标提升

MOS 评分 4.3 / BLEU 提升 17%

🚀 快速部署与体验

立即开始使用 Step-Audio-EditX。