微软供Azure用户定制化STT模型,改进语音转文本准确度

pexels-photo-7731376.jpg

微软更新Azure认知服务的语音功能,通过定制化语音转文本功能,进一步提高应用程序和产品的语音转文本准确性。新的定制化语音模型,是以基础模型加以训练,用户可以利用文本资料来训练模型,强化特定领域字汇的识别能力,或是通过带有转录的音频资料,提高应用程序对特定音频条件的识别能力。

Azure Cognitive Services for Speech让用户可以简单地构建语音应用程序,该服务支持多达140种语言,使用户能高精确度地将语音转录成文本,或是将文本转成自然的语音,甚至进行翻译。而新的定制化语音功能,可供用户定制化语音转文本引擎,根据应用程序的常用词汇,定制化语音模型,并且自订声音模型适应用户的说话风格。

用户只要上传自定义语音文本或是音频资料,就能够简单创建定制化模型,这些模型会与微软的语音模型结合后,部署到定制化语音转文本端点,使终端用户从各种设备上访问。

微软提供用户以四种方式定制化语音模型,第一种是最简单的方式,用户能以词汇列表添加诸如参与者姓名、产品和行话列表,提高模型对这些词汇的识别能力,这是一种不需要模型训练,就能即时强化准确度的方式。

第二种方法则是使用纯文本,微软提到,这也是简单的定制化语音模型的方式,因为像是在各种体育赛事使用的词汇差距很大,因此通过纯文本就可针对特定运动构建定制化模型,提高赛事词汇精确度。

第三种是以结构化文本的形式,适用于强化语音中句子模式的文本资料,针对特定单词或是短语有所不同的话语。同时,用户也可以使用音频资料,训练定制化语音模型,这将能改善模型对于特定口音、说话风格或是背景噪音的识别能力。

我们是设计师、工程师、梦想者,是您扬帆出海的私人顾问专家


相关内容:
印度、美国纷纷出手,TikTok能否在全球限制中逆风翻盘?
印度、美国纷纷出手,TikTok能否在全球限制中逆风翻盘?
近年来,TikTok在海外的发展屡屡遭遇挑战,多国纷纷对其采取限制措施,令TikTok陷入全球困境。1. 印度自中印边境冲突后不久,印度政府宣布禁止59款中国应用程序,其中包括TikTok。这一举措使T
2022年日本主机游戏市场:小幅回暖,软件销量两极分化
2022年日本主机游戏市场:小幅回暖,软件销量两极分化
原标题:2022年日本主机游戏市场:小幅回暖,软件销量两极分化!作者:游戏智库题图来源 | pexels根据综合游戏媒体 Fami 通的估算,2022 年日本国内主机游戏市场产值达到 3748 亿 2000 万日元,同

TG客服:@JPnet — 官方频道:@SSwangluo

三生网络 © 2009-2023 超15年出海经验,跨境项目专家