近日,学霸君的高考机器人 Aidam 首次与 6 名高考理科状元在北京同台 PK,解答 2017 年高考文科数学试题。最终,Aidam 的成绩为 134 分,6 名状元的平均分为 135 分。语义网、知识图谱等领域的专家学者对学霸君在考试机器人上取得的突破进展十分关注,也因此展开了关于高考机器人的探讨。
主要观点
自然语言理解是难点
对于数学考试,最大问题是理解题意,即语义解析的准确性。对于问句的理解精度要求非常高,稍有偏差就导致结果错误。尤其是应用题,比如经典的抽水,放水问题,追击问题等。这类题目虽然很简单,可对于计算机理解起来却不是那么容易的。
具体到今年的高考真题,第 19 题基本上是 0 分,这就减掉 12 分了。还有立体几何题,带图的理解题等等。即使人工转成 LaTeX格式,但之后的题意理解,目前用什么形式化方法来表示,都是比较困难的问题。更进一步,即便假设可以做好题意理解,但很多高考题,它的解题对于计算机就很困难。
AI 研究的核心问题就在于“理解”,避开这一核心问题研究机器高考是毫无意义的。
模式(pattern)很重要,但只靠模式是不够的。
目前的考试机器人常规做法就是题海+模式。那么只要模式匹配上,就可以调用自动解题机器来完成。虽然模式很重要,但是想要理解好题目,很多时候可能是模式搞不定的,而且还有很多数学的知识点,各种规则需要使用。
如果解题中加入了输入改写,难度可能会降低。
如果有输入改写的话,难度上又会降低一些。据了解学霸君有一个非常好的 OCR 系统,可以很容易的实现题目的识别。同时通过一些采访可以知道,学霸君先将题目转化成 LaTeX 再来进行阅读理解和分析。那么有可能会降低考试的难度。
一些专家学者的具体观点
谢殿侠(海知智能)
- 坦率讲,用高考来检验人工智能目前的智能水平,实质上没有特别普遍意义上的衡量意义;比如说 AlphaGo 打败了人类的世界冠军,但比如应用到自然语言理解领域还处在有限的水平。高考机器人最有名的是日本国立情报学研究所的尝试和探索,虽然部分学科有些不错的进展,但今年他们还是放弃了东京大学的计划。因为现有或短期内人类能够掌握的技术水平还有很多不可逾越的障碍。其中,自然语言理解的的确确是比较大的难点或者障碍,因为读不懂题目,遑论如何答题?知识库的构建也处在有限的水准。当然科大讯飞作文评分、英语流利说做口语评测等都取得了不错的效果,但仍然局限在有限的领域。但是整个人工智能的行业应用方面进展比较大,如面向智能家居的语音交互应用、新一代智能客服以及企业智能化等都有较多的行业应用落地,因为限定了用户、场景和问题的边界,工程上就有较多的方法求解并满足用户的需求取得替代传统应用的不一样的体验和价值;但学术前沿方面仍然是量变,还没有到质变的时候。
王昊奋
- 应用题读题,证明题还是噩梦。目前的解决方式就是模版+题海。做到这么高的分数可能还有试题复述而且应该是有输入改写的。
刘康(中科院自动化)
- 如果只能基于题库有一个很好的表现。那么如果换出题人,不是高考专家组出题,是不是估计就不行了?
漆桂林(东南大学)
- 一般来说模板搞不定的。特别是数学,一个小小的理解误差都会导致答错。对于数学考试,自然语言理解(NLU)非常有挑战。当然,北京卷的问句NLU比较简单,也不能说一定不行。
- 模板很有用,但是我不确定通过模式挖掘可以回答数学考试中的大部分问题。特别是数学问题需要被解析成 logical forms。所以我无法理解为什么靠 pattern 可以做得这么好,而且 pattern mining 本身的成熟度如何也很难说。
冯岩松(北大):
- 目前解答应用题是困难比较大的。 其他任务,比如,自动证明,这是数学解题里研究比较多的了,上次电子科大老师介绍说,辅助线添加也是有较多研究和解决方案的。但据说数学方面最大的困难之一还是正确理解题意,所以解决应用题是比较困难的。好在高考不怎么考应用题。比如经典的抽水,放水问题,追击问题,鸡兔同笼问题之类的
- 我觉得读题、理解题意是很大的坑。 据介绍如果把题目都正确解析为结构化的形式,那么可以答很高的分,现在的有些错误还是因为理解题意,不能解析为正确的表达式。
窦德景(UOregon)
- AI 考物理几乎零分。这和阅读能力无关,是物理和数学的思维方式不一样。很多数学题可以转化为搜索问题,而几乎所以物理题都是开放答案的。而且逻辑推理对解物理题没什么帮助。
- 用 pattern 其实就是绕过了 understanding 这一步。现在的 QA systems 大部分也是 pattern matching 就像机器翻译一样并不需要真正的理解。
孙明明–某研究院研究员
- Allen-AI 能解答一些几何题。我觉得最难的还是高考数学 70 分的解答题。这个解答题 AI 不可能用理解题意然后推理的方式来解答。他们怎么判断解答过程的正确性,也是需要验证的。不过文科数学貌似真的挺简单的。今年高考文科数学的应用题 19 题不可能做对,其他的还真不一定。
- 根据这份试卷,我倾向于 134 不可能,19 题基本上是 0 分,这就减掉 12了。还有立体几何题,带图的理解题。这些题,Allen-AI 只能答对 50% 左右,而且题还更简单。但那个 10X 分的机器人,还是有可能的。当然那个 10X 的具体分数,还是得看评卷者到底给解答题了多少友情分。看了学霸君知乎的回答,或许能解释 10x,但解释不了 134。
- pattern 是核心。文科数学这份试卷里,多数题目还是很符合题海里的题目 pattern 的。但推广到其他科目就不知道了。比如我以前以为英语应该得分比较高,因为语义匹配方法很多,但东大的考试机器人在英语上的得分就很低。学霸君他们应该有类似 Wolfram|Alpha 的解题机制。只要 pattern 能把对应的要素填上,解题机器就能开动。
肖仰华(复旦大学)
- AI 高考数学 134 分,这是个严肃报道么?如果真是如此,应该进新闻联播!如果是真实的,我们大部分人是不是都可以放假了。基于pattern的方法如果真的取得如此佳绩,那么只能说明高考的失败。
- Dan Roth 2017 年在 Euquation Parsing 上可以做到 71.3% 的准确率。但这只是机器解题的若干步骤之一。(http://www.aclweb.org/anthology/D16-1117)
- 我估计学霸君的解题机器人,其中的理解过程是人类代替的。 AI 研究的核心问题就在于“理解”,避开这一核心问题研究机器高考是毫无意义的。
郑骁庆(复旦大学)
- 对于高考数学题,由于在公式和几何图形识别、题意理解、知识库构建、智能推理等方面的困难,目前水平的 AI 系统,对于没见过的类似难度的数学题,其答对的可能性几乎趋向于零。任一步骤出错都可能导致错误的结果,并且之前步骤的错误会扩散和影响到之后的求解过程。
- 类似作业帮的系统应该采用图像或基于图像识别后特征匹配技术,其答对题的前提是当前题目已经在题库中的。对于大多数没有出现过的题的情况,这样基于简单匹配的方法并不适合。
- 即使采用人工将数学题目转成 Latex 格式,但之后题意的理解,即使是目前用什么形式化方法来表示所有数学题意都是比较困难的问题。
周熠(西悉尼大学)
- 说老实话,我也在搞这个。如果题目事先不知道又没网络的话,134还是很牛的,反正我是搞不到134。我可以随便列举几个题目,不说题目理解,就是解题就基本上很难的,尤其是理科的大题。
以上是关于考试机器人的一些看法和讨论,本次讨论仅代表个人观点,与所属单位无关。欢迎大家继续留言深入探讨。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。