性爱视屏

最强AI挑战中国英语阅读理解:只得70多分,不如中等生

色情网址地址大全

最强的AI挑战中文英语阅读理解:只有70分,不如中等学生

a38b06dc116b4f7faaa973eab9415d60.jpeg

[指导]如果中学生的英语阅读理解问题被要求做AI,他们会达到什么水平?最近,由上海交通大学团队培训的“双向协同匹配网络”(DCMN)实现了74%的准确率。虽然它只能与人类学生进行比较,但它已达到人工智能的最高水平。

目前,人工智能在阅读理解英语测试方面无法击败更有能力的人类学生,但它仍然是衡量机器理解语言能力的最佳措施之一。

最近,上海交通大学赵海团队对AI模型进行了超过25,000次英语阅读理解测试培训。培训材料类似于对中国当前英语水平测试的阅读理解。每篇文章约200至300字。文本之后是一系列与文章内容相关的多项选择题。这些测试来自中国12至18岁学生的英语水平测试。

虽然其中一些问题可以在文中找到,但其中一半以上仍然需要一定程度的推理。例如,一些问题将要求从四个选项中选择文章的“最佳标题”。培训结束后,人工智能参加了测试,其中包括1400次以前从未见过的考试。综合得分为74分(百分比),优于之前的所有机器测试。

交通大学的人工智能系统可以识别与问题相关的文章的相关部分,然后选择在意义和逻辑上最相似的答案。在测试中排名第二的是腾讯的AI系统,在同一考试中得了72分。腾讯的AI学会了比较每个选项中包含的信息,并使用不同选项之间的信息差异作为在文章中找到证据的提示。

目前,最强大的AI,阅读理解只能得到一个C +

尽管在测试中处于领先地位,但赵海团队仍在努力提高人工智能系统的能力。 “如果我们从真正的学生的角度来看,我们的AI表现也很平均,最高可达C +,”他说。 “对于那些想进入中国大学的人来说,他们的目标是90分。”

为了提高分数,团队将尝试修改AI以理解嵌入在句子结构中的信息,并向AI提供更多数据以扩展其词汇量。

如何理解人类语言一直是人工智能领域的一个主要问题,因为这种理解通常是不准确的。这个问题涉及隐含的上下文信息和机器难以掌握的社会线索。

Carnegie Mellon大学的Guokun Lai说,我们仍然不知道AI在学习我们的语言时会遵循什么规则。 “但在阅读了很多句子和文章之后,人工智能似乎理解了我们的逻辑。”/P>

该研究的相关论文已在Arxiv上发表。以下是本文的主要内容:

a474493baf9b4b2b9f661e255341af98.jpeg

使AI阅读理解是一项具有挑战性的任务,需要复杂的推理过程。 AI需要从一组候选答案中选择正确的答案。本文提出了一种双向协作匹配网络(DCMN),可以模拟双向的信道,问题和答案之间的关系。

与仅针对问题感知或选择性文章表示的现有计算方法不同,DCMN能够计算文章感知问题表示和文章感知答案表示。为了证明DCMN模型的有效性,我们在大型阅读理解数据集(即RACE)上评估了该模型。结果表明,该模型实现了最高水平的AI阅读理解。

机器阅读理解和问答已成为评估自然语言处理和理解领域人工智能系统进展的关键应用问题。计算语言社区非常重视机器阅读理解和问答的一般问题。

本文重点介绍多项选择阅读理解数据集,例如RACE,它为数据集中的每个问题提供了一组答案选项。大多数问题的正确答案可能无法在原文中完全复制,问题的类型和范围更广泛,更广泛,如段落摘要和作者态度分析。

这要求AI更深入地理解文章的内容,并使用外部世界知识来回答这些问题。另外,与传统的阅读理解问题相比,我们需要充分考虑文章 - 问题 - 答案之间的关系,而不仅仅是问题 - 答案配对。

新模型DCMN:在文章,问题和答案之间建立链接

DCMN模型可以将问题答案与给定文章的内容在两个方向上匹配,利用NLP字段 BERT中的最新突破进行上下文嵌入。在引入BERT的原始论文中,提到对应于第一输入令牌(CLS)的最终隐藏向量用作聚合表示,然后使用分类层来计算标准分类损失。

我们认为这种方法太粗糙,无法处理文章 - 问题 - 答案的三个关系,因为这种方法只粗略地使用文章 - 问题关系作为第一个序列,问题作为第二个序列,并且不考虑问题与文章内容之间的关系。因此,我们提出了一种新方法来模拟文章,问题和候选答案之间的关系。

使用BERT作为编码层,分别获得文章,问题和答案选项的上下文表示。

构造匹配层以获得文章 - 问题 - 答案之间的匹配表示,并且对具有特定上下文的文章中的对应位置信息进行匹配的候选答案进行编码。

分层聚合方法应用于从单词级别到序列级别的匹配,然后从序列级别到文档级别应用程序。

基于BERT模型,我们的模型在RACE数据集上将当前最高得分提高了2.6个百分点,并使用大规模BERT模型进一步将得分提高了3个百分点。

实验和测试结果

b5f489a0ba1e4645a75c80eb81474f91.jpeg

在RACE数据集上评估该模型。该数据集由两个子集组成:RACE-M和RACE-H。 RACE-M来自初中考试题目,RACE-H来自高中考试题目。 RACE是两者的结合。我们将我们的模型与以下基线方法进行了比较:MRU(多范围推理),DFN(动态融合网络),HCM(级别协作匹配),OFT(OpenAI微调语言转换模型)和RSM(读取策略模型)。

我们还将我们的模型与BERT基线进行比较,并实现原始BERT论文(2018)中描述的方法,该方法使用对应于第一个输入标记([CLS])的最终隐藏向量作为聚合表示,然后使用分类层,以及最后计算标准分类损失。测试结果如上表所示。

我们可以看到BERT基线模型的性能非常接近于之前的最高水平,而大型BERT模型的性能甚至超过之前的SOTA水平3.7%。然而,实验结果表明我们的DCMN模型更强大,最高分进一步增加了2.2%。

论文和参考链接:

https://arxiv.org/pdf/1901.09381.pdf

https://www.newscientist.com/article/2198333-ai-achieves-its-best-ever-mark-on-a-set-of-english-exam-questions/

来源: ,了解更多