【新智元导读】AAAI 2019今天公布最佳论文、最佳学生论文等奖项,在7745篇投稿论文、16.2%录取率的竞争下,来自以色列理工学院、CMU、斯坦福和MIT的论文分别斩获大奖,其中强化学习、零样本学习尤其受到关注。
作为2019年人工智能学界的第一个顶会,AAAI 2019已经在美国夏威夷拉开了帷幕。
今年AAAI大会主席是AI、机器人研究领域著名专家、德州大学奥斯汀分校的Peter Stone教授 ,南京大学周志华教授、乔治亚理工大学Pascal Van Hentenryck教授是联合程序主席。
早在大会开始前,周志华教授已经透露AAAI 2019的论文录取率:16.2%,可以说是AAAI录取率最低的一年。而且,今年的投稿数量高达7745篇,比去年翻了一番,创下AAAI历史新高!
日前,AAAI 2019 最受瞩目的各大奖项已经全部公布,包括最佳论文奖和最佳学生论文奖、经典论文奖、蓝天创意奖、杰出教育家奖、Robert S. Engelmore纪念奖,Feigenbaum 奖等。
2019 AAAI经典论文奖
2019 AAAI经典论文奖授予了2002年在加拿大举行的第18届AAAI会议最具影响力的论文:
Content-Boosted Collaborative Filtering for Improved Recommendations
作者:Prem Melville, Raymond J. Mooney, Ramadass Nagarajan
作者机构:德克萨斯大学
论文地址:
https://www.cs.utexas.edu/~ml/papers/cbcf-aaai-02.pdf
这篇论文提出一种在推荐系统中补充基于内容和协同过滤方法的方法。
论文的第一作者Prem Melville将在1月29日上午11:30进行演讲。
最佳论文奖(Outstanding Paper Award)
今年,AAAI的“Outstanding Paper Award”共提及4篇论文,其中最佳论文及提名、最佳学生论文及提名各有一篇,这些奖项将由大会程序主席Pascal Van Hentenryck和周志华在颁发。
AAAI-19 最佳论文奖
如何在强化学习中结合树搜索方法(How to Combine Tree-Search Methods in Reinforcement Learning)
作者:Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor
机构:以色列理工学院,法国国家信息与自动化研究所(INRIA)
链接:https://arxiv.org/abs/1809.01843
最佳论文提名:
Solving Imperfect-Information Games via Discounted Regret Minimization
作者:Noam Brown, Tuomas Sandholm
机构:卡内基梅隆大学(CMU)
链接:https://arxiv.org/abs/1809.04040
AAAI-19最佳学生论文奖
Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference
作者:Mike Wu, Milan Mosse, Noah Goodman, Chris Piech
机构:斯坦福大学
链接:https://arxiv.org/abs/1809.01357
最佳学生论文奖提名:
Learning to Teach in Cooperative Multiagent Reinforcement Learning
作者:Shayegan Omidshafiei, Dong Ki Kim, Miao Liu(刘淼), Gerald Tesauro, Matthew Riemer, Chris Amato, Murray Campbell, Jonathan How
机构:MIT、IBM、美国东北大学
链接:https://arxiv.org/abs/1805.07830
CMU、斯坦福、MIT等摘获最佳论文奖,强化学习最受关注
AAAI-19 最佳论文奖
如何在强化学习中结合树搜索方法(How to Combine Tree-Search Methods in Reinforcement Learning)
作者:Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor
机构:以色列理工学院,法国国家信息与自动化研究所(INRIA)
论文简介:
有限时域前瞻策略(Finite-horizon lookahead policies)已经在强化学习中得到广泛应用,并取得了令人印象深刻的实证成果。通常,前瞻性策略是通过特定的规划方法实现的,例如蒙特卡洛树搜索(Monte Carlo Tree Search),AlphaZero正是应用了该方法。将规划问题视为树搜索,实现上的一种合理做法是只备份叶节点上的值,而根节点上获得的信息只用于更新策略。
在这篇论文中,作者质疑了这种方法的有效性,认为后一过程通常是非收缩的,其收敛性没有保证。
论文提出一种简单明了的增强方法:使用最优树路径的返回值来备份根节点的后代的值。为了实现结果,作者引入一个称为多步贪婪一致性(multiple-step greedy consistency)的概念。然后,在树搜索阶段和值估计阶段同时注入噪声的情况下,为上述增强方法的两个算法实例提供收敛速度。
AAAI-19最佳学生论文奖
代码教育的零样本学习:深度学习推理的量规采样(Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference)
作者:Mike Wu, Milan Mosse, Noah Goodman, Chris Piech
机构:斯坦福大学
论文简介:
现代计算机科学教育中,大规模开放在线课程(MOOC)记录了数千小时关于学生如何解决编码挑战的数据。由于数据丰富,这些平台吸引了机器学习社区的兴趣,许多新算法试图自动提供反馈,以帮助未来的学生学习。但对于第一批学生呢?在大多数教育环境(如教室)中,没有足够的作业历史数据来进行监督学习。
在这篇论文中,作者提出一种“human-in-the-loop”的“量规抽样”(Rubric sampling)方法来解决“零样本”反馈的挑战。结果证明,该方法能够为第一批学生的入门编程作业提供自主反馈,其准确性大大优于依赖大量数据的算法,甚至接近人类水平。
Rubric sampling只需要最少的教师工作量,能够将反馈与学生答案的特定部分联系起来,并能够用教师的语言清晰地解答学生的错误。随着更多特定于作业的学生数据可获取,深度学习推理使得Rubric sampling方法的效果能够进一步提高。作者使用Code.org(世界最大的编程教育平台)的一个新数据集证明了他们的结果。
最佳论文奖提名:
Solving Imperfect-Information Games via Discounted Regret Minimization
作者:Noam Brown, Tuomas Sandholm
机构:卡内基梅隆大学(CMU)