Step Audio EditX是一款开创性的 AI 音频编辑模型,实现了“用自然语言指令编辑语音”的革命性体验。Step Audio EditX 让语音编辑如修改文档般直观、高效,用户只需输入简单文本指令,即可精准控制音频的情感、风格和细节效果。
立即试用体验文本驱动的音频编辑,即时生成所需效果。
例如,用户有一段语调平淡的旁白,希望使之更生动。通过 Step Audio EditX,只需在文本指令中加入情绪标签(如添加 [Happy] 表示快乐),模型便能将声音调整得充满喜悦的情感。如果再叠加笑声等副语言效果,语音将更加贴近真人对话。用户还可以多次迭代应用不同指令,逐步强化目标效果,让最终音频契合预期。
原始音频:
“我总觉得,有人在跟着我,我能听到奇怪的脚步声。”
用户指令:
转换成恐惧的语气。
编辑后:
“我总觉得,有人在跟着我,我能听到奇怪的脚步声。” (恐惧)
原始音频:
“你到底想怎么着,上学的时候懒得学,工作的时候没时间学。”
用户指令:
变成咆哮说话风格。
编辑后:
“你到底想怎么着,上学的时候懒得学,工作的时候没时间学。”
原始音频:
“Wait, you're telling me you finished the entire book in one day? That's incredible!”
用户指令:
加入惊讶副语言。
编辑后:
Wait, you're telling me you finished the entire book in one day? [Surprise-oh] That's incredible!
原始音频:
“就是说你比如说我一共在这次看病我一共花了一百块钱,其中呢医生的这个劳动价值占了三十块钱。 ”
用户指令:
静音修建
编辑后:
“就是说你比如说我一共在这次看病我一共花了一百块钱,其中呢医生的这个劳动价值占了三十块钱。”
Step Audio EditX 拥有丰富的音频编辑能力,能够满足各种语音处理需求:
无需额外训练即可模仿任意说话人的声音朗读文本;支持普通话、英语以及四川话、粤语等多种语言,实现跨语言音频创作。
支持对语音的情绪(愤怒、喜悦等)和说话风格(严肃、耳语等)进行精准调整,让同一句话呈现不同的表达效果。
能够插入呼吸、笑声、叹息等细节,使合成语音更加贴近真人交流、富有表现力。
支持多步连续编辑,用户可逐次强化目标情绪或效果,控制音频输出。
Step Audio EditX 的功能适用于广泛的应用场景:
短视频博主可一键切换不同角色的声音(如活力少女);有声书作者也能独自完成多角色对话配音,使作品更具感染力。
借助 Step Audio EditX,可为虚拟客服或助理动态调整语气(如友善、关切),并加入呼吸等细节,让声音更自然生动。
影视和游戏配音可利用 Step Audio EditX 零样本克隆配音演员的声音,并微调情绪以符合场景;还可将对白转换为不同语言或方言,降低本地化成本。
Step-Audio-EditX 基于大型语言模型,实现了跨模态的统一编辑。它轻量高效,模型参数精简至 30 亿,可在单张 GPU 上运行,方便集成到各类应用中。
核心参数量
3 Billion
训练数据类型
多语言情绪语音
关键指标提升
MOS 评分 4.3 / BLEU 提升 17%
立即开始使用 Step-Audio-EditX。