我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 语言学模型 >

机器是怎么判口语的?首次ETS“口语机评算法”解密

归档日期:06-24       文本归类:语言学模型      文章编辑:爱尚语录

  估计在国内托福这个圈子里,不超过3个人像我这样天天读论文、洗数据、优化算法引擎。

  这篇解析报告是上一篇,在 3 个月之内准备托福,想要达到 100+,有哪些方法建议?”的姊妹篇。翻阅论文是孤独的,分析数据是枯燥的,验证算法是耗时的,模型迭代是抽象的,一篇文章自己扣一个月也是合情合理的。

  人的安全感来自于:对预期可控。托福口语考生的安全感来自于,对评分方法一清二楚,对评分原则了如指掌、对练习预期心知肚明。

  和托福阅读、听力的客观评分不同,口语、写作都有主观评分参与,其牵扯到的人工费用很高,这无疑增加了ETS的运营成本。

  很多同学会说托福报名费很高的!但目前考试报名费的1900+元,并不是ETS都拿走了,实际上要分一部分给国内教育考试管理部门、组织考试的学校考场、考试的推广费用,剩下拿到ETS手里的真不多了。随着考生的数量愈加扩大,人工判分的需求量自然暴增,无疑:机评代替人评是大势所趋,技术服务于需求。

  从2006年开始,ETS推广iBT考试以来,一直把机评引擎的开发放在战略重点,每年都有各种论文和数据研究发表在世界级核心期刊上。2006年开始之初,机评引擎处于数据搜集期,2010年以后人评、机评校对过渡期,直到现在机评为主、人评为辅的应用期,ETS已经走过了十多年的自然语言识别研发路。

  3. 如果第二位和第一位的判分差在1分以内(4分制)则二者取平均换算成30分制的成绩Scaled Score

  4. 如果第二位和第一位的判分差超过1分,则由第三位rater(administration老大级)进行终判。

  可想而知ETS的人工投入成本之高,单靠那点报名费真的是捉襟见肘,技术服务于需求——机评势在必行:

  1. ETS总部的SpeechRater引擎(不是给合作机构共享的阉割版)机评判分(4分制原始分)

  机评的应用使得人工成本骤减。很多同学会觉得自己被ETS的官方Rater评分是不是更占便宜,实际未必,因为人工判分工作负荷大,体力和脑力都是巨大挑战,很可能同一个rater在不同时间段打分会因为身体状况而有波动。

  但机评就不会出现人工打分因工作量巨大而导致打分不稳定的问题。总之,无论你现在接不接受机评,ETS都坚信:人工智能机评——真香!

  SpeechRater是世界上应用最广泛的英语口语测评系统之一,从2006年开始就内嵌在托福评分系统中(当时刚启动iBT考试,机评的主要任务先要喂数据),因为ETS自己就是测试模型的设计人,所以SpeechRater针对托福口语做了特别优化。

  虽然市面上大家也能看到很多自称能给托福口语打分的APP或ETS合作授权版本,但趋于算法迭代版本和数据样本量的限制,顶多能对语速和输出量进行评估,还远远无法达到SpeechRater总部机评对托福答题进行质量鉴定的能力。

  ETS在经过了2006-2015年整10年的数据积累,并经过人工打分校对不断优化机评打分容差,尤其伴随着2015年内嵌入神经网络学习,机评准确度已经达到82%以上。而且机评稳定性要远远高于人评,人总是有情绪的:短期内大量评分,体能损耗,情绪波动会影响评分的公允,对考生和测试系统的完善都不利。

  所以,我们可以这样理解,机评介入后,即便你申请口语复议,也可能维持原判,甚至减分(人工复议会对答题逻辑内容要求更苛刻),即便机评的第一遍打分,你被打低了一分,复议确认机评校对,也就任务单项提高一分。举例:

  比如口语6道题,小明分别得分:2, 2, 3, 3, 2, 3(4分制原始分),把6道题的分数相加除以6得到口语2.5分(4分制原始分),换算口语19分。

  如果小明申请复议,Task 1提了1分(4分制原始分),小明分别得分:3, 2, 3, 3, 2, 3(4分制原始分),把6道题的分数相加除以6得到口语2.66分(4分制原始分),换算口语20分(原始分的换算如下图)。

  也就是千辛万苦复议过后的小明从19分提了1分到20分。算一笔账,有这个闲工夫复议较真,还不如仔细研究一下评分规则和机评算法结构,让机评给我们的口语分打高点更省心。

  (3)发音准确(元音、辅音的唇齿舌配合到位,ETS不奢求你像native speaker一样地道)

  :这部分的训练方法,《清北托福备考联盟慕课——口语篇》(腾讯教育、B站公开课均可搜)中有提供;另外一篇知乎的答题在 3 个月之内准备托福,想要达到 100+数据模型报告中我也有列出了免费学习资源。

  :到底怎样的词汇输出才能达到要求,我们还是以ETS的发表论文数据为参考,下表中ETS给出了独立任务和综合任务的Good Level满分级别的数据统计(下图红框)。满分独立任务答题实际输出词100词就足够拿到满分;满分综合任务答题实际输出词约138词就足够拿到满分。在这些满分口语答题中,82%都是GSL 1K(General Service List)级别的基础词汇,而GSL 2K级别的高级词汇仅占4%-5%。

  (2)例证拓展细节丰富(通过神经网络学习,机评可以通过采样对比判断内容拓展是否达标)

  (3)答题时间分配合理(如果答完一看还差5秒才到时间,就是时间分配不合理;当然允许超时,前提是已经足够论述,即便超时也无大防碍)

  :这部分的训练方法,《清北托福备考联盟慕课——口语篇》中有提供(腾讯教育、B站公开课均可搜);对于综合任务的笔记训练方法,可以在托福听力的练习过程中一起练快速笔记复述,不一定只抓着口语练笔记,要充分榨干每一套题的练习潜力。

  首先接收考场里的音频信号。我们答题的音频并不是平时听歌曲的CD音质,而是采样率较低的电话音质,所以这对我们答题时的环境有一定的要求。比如特别吵杂(旁边一堆人激励哇啦使劲喊着答题),或者答题人喜欢挨着话筒非常近喷麦(气流的传导声),都会影响音频信号的上传质量。所以,国内的同学们要注意考场文明答题,大声喊着答题不但对别的同学造成噪音干扰,而且自己的麦克风收音也会因喷麦爆掉。

  ,然后进行第一步音频信号识别。在Signal Processing中,那些口齿不清晰、发音不标准的音频都会被标记为识别失败,这就跟写作系统的e-rater原理一样,一句话如果主谓宾单词都拼错了,机器只能判定本句作废;同理:因为口语发音不到位导致引擎无法识别发音信号,即便答了100个词,也可能因为识别不出而判定某句作废。目前SpeechRater的引擎辩音识别度能够达到95%以上的准确识别率,可以完全替代人工24小时不间断地投入工作。

  这分为两项,一项是Scoring Features,就是把识别出来的语音信号按照评分原则逐项评级;同步进行的是Similarity Features,就是作弊查重。

  ETS喂了很多数据给这个“作弊查重”模组,尤其对于大陆同学广为流传的:“20G30G 托福资料网盘转发”或者“某金80题”等烂遍街的转发材料,ETS都可以直接把这些朋友圈满天飞的内容导入模组,查重属实自动判定0分也不再给与复议资格。

  趋于本文的篇幅和读者受众是考生为主,这里就不再赘述晦涩的Feature Computation Modules迭代。

  这是在SpeechRater的历次升级中,提升最显著的模组,用于过滤掉无效答题内容:non-scorable (NS) responses。可以理解为,考生自认为有用的内容,但实际上蛋用没有。对于国内同学来说,最常见的比如:中文作答,唱一首歌,背一段新概念第三册短文,亦或是在自己的答题中加入自认为很“洋气”的词,诸如:Well…, You know…, when we are talking about…, I believe this is a thought provoking question… 这些不知道是谁教给你的但实际上会被Filter Model模组直接过滤掉的信息,根本不会进入Scoring Model,对提分蛋用没有。

  在经过了对不清晰发音信号、无效答题信息、查重抄袭嫌疑的一系列数据过滤后,能够进入到打分模型的肯定不是同学们在答题时自己感觉的那样:我感觉挺好啊,我说的很流利啊,我语速不错啊,我答完了啊。

  趋于本文的篇幅和读者受众是考生为主,这里不再赘述Multiple Regression Scoring Model的迭代,只需提醒一点,借助人工智能在这两年的突飞猛进,SpeechRater评分的人工校对准确率从73%提高到了82%。

  尤其是Delivery和Language Use两项在配备了Filtering Model的深度学习后,可以准确判定70%的考生被刷在23分以下了:如果你的分数在22分及以下,大可不必操心复议提分,因为你已经没有资格享受人工判分的机会了,人工也听不懂这娃到底在嘟哝些啥。

  从ETS公布的数据来看,西方国家的口语成绩普遍高于东方国家,并不是语速快或者说得多,而是机评采样中西方人的Delivery和Language Use两项评级明显占优——西方同学发音大都清晰、流畅、语法正确率非常高。所以三大评分规则中的前两项都明显占优,自然口语评分就秒杀东亚的同学了。

  在SpeechRater的初期发展中只能关注发音和流利度的测定,的确在没有加入Filtering Model的深度学习前比较弱鸡。但现在借助于DEEP Neural Networks和Graphics Processing Units,辅助于人工抽检已经有越来越高的鉴别率了,查到就是0分。想靠烂遍朋友圈的“20G资料”和所谓“XX金模板”照抄伎俩万万不要再有了。

  先问自己三个问题:你是何方神圣让ETS特别关照你?SpeechRater跟你结过梁子有仇吗?“有些人”是“哪些人”,贴过115+的成绩单吗?这个“有些人”“网上说”“据相关人士透露”的说辞,大都来自于这一群体:考试过百很难,自己永远没错,世界跟他有仇,随处散发负能量。

  在《清北托福备考联盟慕课——口语篇》的讲义附件材料里,有一位高二的女生,一战口语21经过82天的量化备考,二战口语27。我们一起详细记录了整个备考过程每一天的量化指标统计和分析。高分案例摆出数据,科学备考事半功倍。如果你觉得这样的知乎文章有帮助,请不要吝惜点赞哟!

本文链接:http://mangerdulion.com/yuyanxuemoxing/100.html