不止5秒复刻，大模型驱动火山引擎语音合成技术全面升级

自2022年起，生成式AI的爆发助推语音技术快速升级。语音作为高频的交互形式，在多个领域的需求颇为强烈，尤其是在追求高自然度语音合成上，业界与学术界均投入诸多研发资源。

火山引擎语音团队曾于2023年推出zero-shot(零样本学习)的极速版声音克隆。近期火山语音再一次升级，推出大模型版超自然语音合成和5s极速声音克隆升级版。致力于多个语音场景的深耕，为陪伴式AI交互、沉浸式听书、跨语种内容生产、企业客户服务等场景的企业级客户提供超自然的声音体验。

火山引擎语音合成大模型全面升级

超自然的大模型精品声音

火山引擎正式推出了基于大模型的精品音色语音合成技术。相较于传统小模型的语音合成，大模型语音合成能够支持依照上下文，洞悉文本中隐含的情绪、说话人角色等信息，进而给出情绪更有表现力、韵律更为自然的精准表达。

5秒极速声音克隆升级版

火山引擎语音团队曾在2023年发布了 MegaTTS 声音克隆技术，此次升级后的超自然克隆，在多个维度均有显著提升：

音色的相似度提升：尤其是在高表现力、口音的输入上做到高度还原。

声音的自然度提升：讲话的音调、韵律、节奏、情感等更接近真人表现。

多语种表现力提升：在英文等外语的发音上更标准，讲话韵律上更接近当地人的表达。

典型应用场景新探索

自2023年起，火山引擎与合作伙伴围绕语音合成技术的4个典型场景展开应用探索，通过小规模的部署测试与迭代，对新一代语音引擎在各行各业的广泛应用有了更多实践与经验积累：

陪伴式 AI 交互场景

在陪伴式 AI 交互场景中，客户希望构建更为智能化的语音对话交互系统。用户可以使用自然语言作为输入，系统会以多种模态输出的方式予以应答。在这个链路中，上一代的语音合成效果在口语化、情感变化等方面的表现还不够出色。基于大模型版本的语音合成，可以提供超自然、媲美真人的语音播报效果，并允许用户自定义声音，实现更具个性化的呈现方式。火山引擎提供的语音能力已经在豆包等场景中落地应用。

沉浸式听书场景

传统的 AI 听书一般是由单一音色进行播讲，其播报风格总体较为平淡，毫无变化，难以依据文本语义呈现出不同的情感演绎，长时间听书易使人感到枯燥乏味。相较而言，火山引擎依托大模型构建的音色矩阵，AI 主播不光能“哭”而且会“笑”，犹如专业配音演员那样表达“深刻的人类情感”，满足用户“沉浸式阅读”的需求。此外，火山引擎也正在推进“大模型多角色演播方案”的构建，融合角色分明、声情并茂的音色矩阵，为用户提供如同真人有声剧一般的高品质听书体验。

跨语种内容生产场景

升级后的大模型声音克隆，不但能够维持在本语言上的高度还原，还支持跨语种的配音。即使用户仅会说中文，也可借助跨语言克隆技术，完成地道的英语、日语、印尼语等语种表述。这种能力便于用户进行跨国交流，助力翻译视频、播客等内容，让创作者和企业能够用自己的声音触达到更多全球各地的受众。

企业客户服务场景在客户服务场景中，火山引擎可以实现高度拟人化的 AI 声音，复刻的 AI 音色与人工客服本人一致，毫无违和感。机器人外呼时，坐席可以听到客户对话，分析当前客户情绪以及经营潜力，并在适当时机无缝接入，达到智能化协呼效果。这不仅提高了客户体验，同时也降低了纯 AI 外呼的客诉率。

语音合成技术的部署与应用，须有严密的语音认证授权和安全防护机制，来保障技术的安全运用。火山引擎已施行了一系列安全举措，包括数据收集、使用及存储等方面，确保用户本人在完全知晓并完成授权的状况下达成声音克隆，其音色只应用于授权范围内的应用场景，最大限度地降低语音合成技术被滥用的风险。

目前，火山引擎语音大模型能力已经在豆包、剪映、抖音、番茄小说等多款内部产品展开应用，并逐渐向企业开放用以拓展更多 AI 语音应用场景。

火山引擎作为字节跳动旗下的云服务平台，将在 AI 及数据方向深度探索，在语音方面，将更多地采用大模型等先进技术，达成更为优质的交互和互动，帮助企业做好用户体验的创新工作，推动行业的智能化发展。