OPENAI推出语音转文本API接口 支持超多语言价格仅4分钱/分钟
OPENAI 今天推出面向开发者、可以集成到自己的应用程序里的官方 API --- Whisper API,这是一种将语音转换文本的 API 接口,当然它是收费的。
Whisper 是耳语或者低语的意思,看过《穿靴子的猫》的小伙伴应该还能记得结尾最后的大反派就是个 “Whisper” 低语者,OPENAI 给语音转文本功能取名为 Whisper 还是挺有意思的。
目前提供语音转文本功能的提供商非常多,包括微软、亚马逊、谷歌等都提供类似功能,用来进行实时转录和转录后翻译,然后直接实时输出不同语言的翻译。
OPENAI 的语音转文本功能也是一种机器学习算法,但 OPENAI 强调 Whisper API 可以提高准确性,其通过庞大的数据集进行训练,AI 技术辅助可以捕捉日常口音最细微的差别。
其他的语音转文本功能准确率最高的通常都是英语,Whisper API 支持更多语言提供更高的准确率,OPENAI 使用了总共 68 万小时的语音数据进行训练,对背景音进行降噪并过滤掉其他非必要的内容,让输出的内容准确率逐渐提高。
Whisper Large-v2模型使用 98 种不同的语言进行训练,但目前只有一部分语言可以支持此 API,包括:简体中文、繁体中文、法语、德语、西班牙语、荷兰语、俄语、阿拉伯语、泰米尔语、泰语、乌克兰语、越南语、韩语、日语、葡萄牙语、希腊语、希伯来语、印地语、马来语、毛利语、波兰语、英语、捷克语、丹麦语等等。
开发者可以将 Whisper API 集成到自己的应用程序里,然后就可以实时转录用户说出的内容,再拿这些内容进行判断和处理,例如后续如果 ChatGPT 开放 API 后,可以将这两个 API 结合起来使用。
价格方面 Whisper API 的价格要比达芬奇 003 模型便宜不少,每分钟 0.006 美元,约合人民币 4 分钱。
首个搭载 Whisper API 的应用程序是 Speak,这是一款语言学习软件,前期通过与 OPENAI 合作提前内置和测试了。