自2022年起,生成式AI的爆发助推语音技术快速升级。语音作为高频的交互形式,在多个领域的需求颇为强烈,尤其是在追求高自然度语音合成上,业界与学术界均投入诸多研发资源。
火山引擎语音团队曾于2023年推出zero-shot(零样本学习)的极速版声音克隆。近期火山语音再一次升级,推出大模型版超自然语音合成和5s极速声音克隆升级版。致力于多个语音场景的深耕,为陪伴式AI交互、沉浸式听书、跨语种内容生产、企业客户服务等场景的企业级客户提供超自然的声音体验。
火山引擎语音合成大模型全面升级
超自然的大模型精品声音
火山引擎正式推出了基于大模型的精品音色语音合成技术。相较于传统小模型的语音合成,大模型语音合成能够支持依照上下文,洞悉文本中隐含的情绪、说话人角色等信息,进而给出情绪更有表现力、韵律更为自然的精准表达。
5秒极速声音克隆升级版
火山引擎语音团队曾在2023年发布了 MegaTTS 声音克隆技术,此次升级后的超自然克隆,在多个维度均有显著提升:
音色的相似度提升:尤其是在高表现力、口音的输入上做到高度还原。
声音的自然度提升:讲话的音调、韵律、节奏、情感等更接近真人表现。
多语种表现力提升:在英文等外语的发音上更标准,讲话韵律上更接近当地人的表达。
典型应用场景新探索
自2023年起,火山引擎与合作伙伴围绕语音合成技术的4个典型场景展开应用探索,通过小规模的部署测试与迭代,对新一代语音引擎在各行各业的广泛应用有了更多实践与经验积累:
陪伴式 AI 交互场景
在陪伴式 AI 交互场景中,客户希望构建更为智能化的语音对话交互系统。用户可以使用自然语言作为输入,系统会以多种模态输出的方式予以应答。在这个链路中,上一代的语音合成效果在口语化、情感变化等方面的表现还不够出色。基于大模型版本的语音合成,可以提供超自然、媲美真人的语音播报效果,并允许用户自定义声音,实现更具个性化的呈现方式。火山引擎提供的语音能力已经在豆包等场景中落地应用。
沉浸式听书场景
传统的 AI 听书一般是由单一音色进行播讲,其播报风格总体较为平淡,毫无变化,难以依据文本语义呈现出不同的情感演绎,长时间听书易使人感到枯燥乏味。相较而言,火山引擎依托大模型构建的音色矩阵,AI 主播不光能“哭”而且会“笑”,犹如专业配音演员那样表达“深刻的人类情感”,满足用户“沉浸式阅读”的需求。此外,火山引擎也正在推进“大模型多角色演播方案”的构建,融合角色分明、声情并茂的音色矩阵,为用户提供如同真人有声剧一般的高品质听书体验。
跨语种内容生产场景
升级后的大模型声音克隆,不但能够维持在本语言上的高度还原,还支持跨语种的配音。即使用户仅会说中文,也可借助跨语言克隆技术,完成地道的英语、日语、印尼语等语种表述。这种能力便于用户进行跨国交流,助力翻译视频、播客等内容,让创作者和企业能够用自己的声音触达到更多全球各地的受众。
企业客户服务场景在客户服务场景中,火山引擎可以实现高度拟人化的 AI 声音,复刻的 AI 音色与人工客服本人一致,毫无违和感。机器人外呼时,坐席可以听到客户对话,分析当前客户情绪以及经营潜力,并在适当时机无缝接入,达到智能化协呼效果。这不仅提高了客户体验,同时也降低了纯 AI 外呼的客诉率。
语音合成技术的部署与应用,须有严密的语音认证授权和安全防护机制,来保障技术的安全运用。火山引擎已施行了一系列安全举措,包括数据收集、使用及存储等方面,确保用户本人在完全知晓并完成授权的状况下达成声音克隆,其音色只应用于授权范围内的应用场景,最大限度地降低语音合成技术被滥用的风险。
目前,火山引擎语音大模型能力已经在豆包、剪映 、抖音、番茄小说等多款内部产品展开应用,并逐渐向企业开放用以拓展更多 AI 语音应用场景。
火山引擎作为字节跳动旗下的云服务平台,将在 AI 及数据方向深度探索,在语音方面,将更多地采用大模型等先进技术,达成更为优质的交互和互动,帮助企业做好用户体验的创新工作,推动行业的智能化发展。