meta开发了一种新的训练自动语音识别(ASR)模型的方法,即在“话语水平”上对语音进行聚类。
ASR模型,顾名思义,用于旨在将口语转录成文本的系统中,可用于执行各种功能。ASR最受欢迎的例子是智能手机助手,如苹果的Siri、亚马逊的Echo或谷歌的助手。
另请阅读| WhatsApp在WhatsApp网站上测试使用电话号码登录
尽管人工智能技术在进步,但你可能会发现这些助手有时很难理解你的语言。meta旨在改进这种将不同种族的说话者聚类在一起的方法,而不是基于年龄或性别等指标训练ASR模型的传统数据集。
目标是将来自不同说话者的相似话语融合在一个数据集中,然后用它来训练ASR模型。
也可阅读|分析:我这是“友好”的线程与不友好的互联网相撞
meta说,有了这个,他们可以训练模型,“使用不同的集群,并使用公平数据集来衡量模型如何影响不同人口群体的结果。聚类使用无监督学习,利用算法在没有人为干预的情况下分析和分组未标记的数据集”。
该公司表示,他们观察到通过这种方法训练的模型在不同人口群体和不同口音中的准确性有所提高。








