据外媒报道,“本土化”是苹果Siri在个人助理大战中无可争议的专长:Siri支持36个国家的24种语言。相较之下,谷歌助手只会说5种语言,亚马逊Alexa更是仅通晓英语和德语。iOS 10.3即将支持上海话。苹果语音团队主管在接受路透社采访时解释了如何教Siri学习一门全新的语言。
亚历克斯·阿塞罗(Alex Acero)于2014年加入苹果,目前担任苹果语音团队主管。Siri的语音识别比较初由Nuance公司提供支持,苹果在几年前用自主技术取代了它。苹果自主研发的语音平台使用机器学习来提高程序对词语的理解。
阿塞罗透露,他们首先让精通新语言的人朗读各种段落和单词,这一过程包含各种不同的方言和口音。
语言在人际交流中形成表达与发音的标准,用真人发音能够保证其中的准确性。随后这些原始录音被馈入给机器学习训练模型。
计算机语言模型会尝试预测语音到字串的转录。算法的表现会随着训练材料的增加而改进。在这一过程中,苹果偶尔会进行人工调整,然后进入下一步。
在为Siri赋予这种新语言之前,苹果先在iOS和macOS上实验性地推出新语言的听写功能。这样顺便能帮苹果从更广泛的用户那里获得更多语音样本。(匿名发送)
由于用户使用听写的条件和环境各不相同,这些语音样本不可避免地会包含了背景杂音和不连贯的语音(比如咳嗽和停顿)。苹果用人工对这些语音进行文字转录,随后使用这些彼此配对的语音和文本对语言模型进行二度训练。报道称,这一过程能够将听写错误率减半。
研究人员重复进行这一过程,直到得到满意的准确度。此时新语言会交给Siri声优进行语音录入。之后Siri就算正式习得这一门新语言啦。
比较终,新语言支持会像上海话这样在新版系统中推出。Siri会对常见问题预设答案,比如“给我讲个笑话听”这类问题经常会得到相同的几个答复。而像“查找附近的餐馆”这样的问题就需要进行即时的运算处理。
未来人工智能或可实现不依靠答案脚本同人进行对话,不过这在当下尚难以实现。无论Siri或是Alexa均依靠研究人员预先输入的笑话和答语。
阿塞罗称,苹果会对新语言的使用情况进行跟踪。根据用户比较常问的问题,每两周更新一次Siri的答案数据库。