公司动态

kb官网：教师解放新前沿：让机器给作文打分|2018全球AI+智适应教育峰会

2024-02-23 13:22 阅读次数：

本文摘要：计算机智能的发展较慢而高效。强劲的工具很快更替，教师的工作效率也明显提升。其中自动为文章评分的智能软件之后应用于很广。作文是大规模语言考试中的不可或缺题型。通过作文可以综合检测应试者运用语言的水平。当今的研究人员于是以希望研发机器人瞬时为书面文章评分。机器人评分的受益者包括慕课(MOOC)供应者，还有那些在标准考试中所含作文测试的地区等。关键问题是，计算机需要像文学家一样，辨识出有作文中微小而关键的那些差异吗？

kb官网

计算机智能的发展较慢而高效。强劲的工具很快更替，教师的工作效率也明显提升。其中自动为文章评分的智能软件之后应用于很广。作文是大规模语言考试中的不可或缺题型。

通过作文可以综合检测应试者运用语言的水平。当今的研究人员于是以希望研发机器人瞬时为书面文章评分。机器人评分的受益者包括慕课(MOOC)供应者，还有那些在标准考试中所含作文测试的地区等。

关键问题是，计算机需要像文学家一样，辨识出有作文中微小而关键的那些差异吗？才是是这些微小的差异，区分出有了普通的好文章和卓越精彩文章之间的差异。电脑能否捕捉到书面交流的关键要素，譬如合理性，道德立场，论证能力，和明晰程度？自动评分的先驱——埃利斯·佩奇1966年，计算机体积还很可观，康涅狄格大学的研究员埃利斯·佩奇（Ellis Page）就首度开始了对自动评分的研究。计算机在那时是比较精致的技术，主要用来处置最高级的任务。

在佩奇同龄人眼中，利用计算机展开文本输出而非计算出来数据堪称新奇的点子。在当时的环境下，不管就是指简单的角度、还是从经济成本来看，利用计算机给作文评分这个点子都十分得不切实际。与同代的人比起，佩奇是个眼光确实将来的人。

埃利斯佩奇团队研发出有第一套作文自动评分系统PEG(Project Essay Grader)。PEG(Project Essay Grade)、IEA(Intelligent Essay Assessor)和E-rater是国外最不具代表性的三种作文自动评分系统。国外作文自动评分系统记事作文自动评分是近三年自然语言处置中的热点问题。

大规模作文试卷面对两大难题:其一,试卷必须花费大量人力、物力等资源;其二,评判作文质量具备很强的主观性,试卷的信度和效度不强劲。将近几十年来,随着计算机硬件和软件性能较慢提升,自然语言处置等技术取得了突飞猛进的发展,国外一批作文自动评分系统相继问世,这两个长年后遗症大规模作文试卷的难题未来将会获得解决问题。（一）PEG——一个轻语言形式的评分系统PEG于1966年由美国杜克大学的Ellis Page等人研发。

PEG的设计者们指出,计算机程序没适当解读作文内容,大规模考试中特别是在如此。因此,他们在其网站上公开发表重申:“PEG 无法解读作文的内容”。在PEG的开发者显然,作文质量的诸要素是作文的内在因素,无法必要测量,因此,尤为合乎逻辑的方法就是指作文文本中萃取一些需要间接体现作文质量的文本表层特征项。

总结一起,PEG的技术大体还包括两方面:其一, PEG用于的统计资料方法是多元线性重返,以此来确认各变量的beta值,这样,基于训练集作文而建构的统计资料模型之后可以用来为新的作文展开自动评分。这一技术合理而更容易解读,后期经常出现的作文自动评分系统大多使用这一技术。其二,自然语言处置技术是PEG萃取变量的主要方法。

基于这两种技术,PEG获得了很好的评分效果。（二）IEA——一个轻内容的评分系统IEA是一种基于潜入语义分析的作文自动评分系统,由美国科罗拉多大学的ThomasLandauer等学者研发。与PEG明显有所不同的是,IEA的设计者们在其网站上重申:“IEA是唯一需要测量语义和作文内容的程序”。

据IEA的设计者们报告,潜入语义分析主要分析文本的内容和学生作文中所表达的科学知识,而不是作文的风格或语言。将潜入语义分析用作学生作文自动评分时,待评分的作文与预先指定的范文(训练集)被视作为矢量, 对矢量展开较为之后,可以获得每一篇待评分作文与范文在内容上的相近度分数。

该分数被必要视作机器评分或经过切换后获得机器评分。（三）E-rater——一个模块结构的混合评分系统E-rater是由美国教育考试正处于20世纪90年代研发,其目的是评估GMAT考试中的作文质量。据Burstein et a.l(2001)、Cohen et a.l(2003)和Valenti et a.l(2003)的叙述,E-rater自1999 年以来早已转入操作者阶段,至2003年,共计审定作文 750,000篇。

E-rater的开发者们声称,他们的作文评分系统利用了多种技术,其中还包括统计资料技术、矢量空间模型技术和自然语言处置技术(Valenti et a.l2003)。凭借这些技术,E-rater不光需要像PEG那样评判作文的语言质量,还需要像IEA那样评判作文的内容质量。除此之外,E-rater还对作文的篇章结构展开分析。

国内主要英语作文自动评价工具软件在国内，至此施行的《国家中长期教育改革和发展规划纲要(2010-2020年)》明确指出，信息技术对教育发展具备革命性的影响，必需给于高度重视。到2020年，全国范围内应当力争基本竣工覆盖面积城乡各级各类学校的教育信息化体系，以增进教育内容、教学手段和方法现代化。

就受众群体可观的英语教学领域而言，国内关于英语作文自动评价系统的研究起步晚，缺少系统性的综述研究。（一）句酷测验网由北京词网科技有限公司研发，于2011年4月开始进行大规模用于。它是一个基于语料库和云计算技术的英语作文在线自动测验服务网站。测验网的核心算法是计算出来学生作文和标准语料库之间的距离，再行通过一个同构将距离转化成作文分数和评语。

核心技术点是将每一篇输出的作文分析成可测量的192个维度，分析过程充分利用了先进设备的自然语言技术和机器学习的方法，每篇作文再行被自动托分为句子，然后对每个句子展开深度的语义分析，借此提取词、配上、词组等结构化单元。主要功能还包括:分数立即显出、图文报表式作文分析结果、错误自动测验、评论细致入微、阶段性工程进度报告、剽窃检测等。测验网是几乎自律研发的国产软件，从核心引擎到测验应用于都是几乎自律知识产权的。

它反映文学创作教学的多样性，希望学生的自主性自学、探索性自学、团队式自学、研究型自学等教与学新模式。（二）冰果英语智能作文评阅系统杭州增慧网络科技有限公司牵头浙江大学、外语教学与研究出版社，以及中外人工智能专家队伍，依据语言教学理论、计算机网络教育技术、大规模数据挖掘技术，研发出有这一个性化智能化的作文评阅软件。

它可以即时得出作文评分，并从词汇、语法、文风、内容等方面得出对系统。但是，该系统目前无法做用户同一篇作文多次重复改动，多次递交给系统，并获得系统的即时评阅和对系统。

（三）TRP教学资源平台经过对一线教师的调研及需求分析，高等教育出版社与清华大学杨永林教授的科研团队合作研究，2010年10月月对外公布了《体验英语文学创作教学资源平台》。2012年3月，该平台的Ultra产品《TRP教学资源平台》面世。它根据文学创作教学市场需求，将数字化、网络化与区域化教学平台展开了有机的统合，并涵括了资源建设、平台建构、文学创作自学、句型练习、语法测验、作文评分、文学创作研究、评语分解、作为考试等功能。为高校英语教学的更进一步改革获取了“专本硕博，四级全线贯通”的可操作者平台。

尤其一托的是，学术文学创作是该文学创作软件系统的特色版块，从这一点来讲，TRP教学资源平台或许对于研究型高校的学习者来说具备更为类似的意义。国内中文作文自动评价工具软件阐述根据作文自动评分的原理，可以获得计算机评分的工作机制：首先萃取出有体现写作水平的特征，然后利用这些特征和数学模型计算出来出有分数。并且保证这个分数仅次于程度的相似人工评分的结果。

汉语文字的计算机辨识及加工能技术难题必须计算机领域的专家来攻下，而汉语的计算机自然语言处置技术有了突飞猛进的发展。例如由于中文词语之间没空格拆分，用于计算机展开分词是展开自动评分研究必须解决问题的首要问题。

kb官网

随着中文自然语言处置研究的发展，目前这一艰难基本获得解决问题。中国科学院计算技术研究所在多年研究基础上，研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，该系统不仅几乎不具备了中文分词的功能，还有词性标示和并未指定词辨识的功能。ICTCLAS分词的正确率高达97.58%(最近的973专家组评测结果)。

另外北京大学、北京语言大学都有汉语自然语言处置工具顺利研发，为汉语作文自动评分研究奠定了基础。自动评分很好地做了作文评价的客观化，可以做在有所不同的时间地点，在有所不同的计算机环境里面对于同一篇作文的评价结果完全相同。

用于这些系统展开作文评分，不仅提升了作文评价效率、减少了人工成本，而且彻底避免了评分者之间的不完全一致。可以说道，用于计算机展开自动评分是评价科学化发展的必由之路，是提升作文评分准确性和评分效率的最有效途径。在美国Erater早已顺利的在ETS的组织的托福等考试中应用于，而日本Jess研制的目的就是处置日本大学入试的作文评分。

最近台湾也研发出有了一套“中文文学创作自动化评分系统”（ACES），该软件能自动分析初中基准测试试题的作文程度，并给于6个等级的评分。人工与智能，效率与质量的对决当今时代，利用计算机自动评分的市场需求正在激增。在人工审查流程中，每篇文章必需要有两名教师评分，这样的进呈成本很高，所含文学创作部分的标准化测试进呈成本也越发便宜。

这种高昂的成本早已导致许多州在标准考试中，退出了最重要的文学创作测试。目前，自动评分系统还处在人机耦合的阶段。许多低年级的标准化考试用于自动评分系统，早已带给不俗的收效。然而，孩子们的命运并非几乎掌控在计算机手中。

大多数情况下，在标准化测试中，机器人评分员只是代替了其中一位适当的评分员。如果自动评分员的意见截然不同，这样的文章就不会被标记，并转发给另一位人工评分员作更进一步评估。

这个步骤的目的是确保评估质量，同时也有助提升自动评分技能。EdX总裁Anant Agarwal称之为，智能自动评分的优点某种程度是能节省宝贵的时间。

新技术所构建的即时对系统对自学也有大力影响。当今，人工给作文评分要花费好几天、甚至是好几周的时间才能已完成，但是有了即时对系统，学生对自己的文章记忆犹新，可以立刻填补弱项，而且效率更高。

机器学习软件刚开始应用于时，教师必需将早已评好的几篇文章输出系统，作为好文章和怕文章的示例。随着更加多文章输出，软件就更加擅长于这种评分工作，最后完全就能获取专门的即时对系统。

Anant Agarwal称之为，必须做到的工作还有很多，不过自动评分的质量早已迅速相似确实教师的评分。随着更加多学校的参予，EdX系统的发展越来越快。截至今天，有数11所重点大学对这款大大发展的评分软件贡献了力量。

自动评分的应用于效果及发展前景为了提高这种趋势，2012年，威廉和弗洛拉休利特基金会（William and Flora Hewlett Foundation）赞助商了一项自动评分的竞赛，以数千篇作文为样本，用六万美金作为奖励，希望能智能代替教师评分的最佳方案。休利特基金会教育项目负责人芭芭拉·周回应：“我们听闻机器算法早已超过和人工评分某种程度的水平，但我们期望创立一个中立且公平的平台来评估供应商的各种声明。事实证明，那些众说纷纭并非抹黑。

”自动评分的发展也更有了慕课供应商的很大兴趣。影响线上教育普及的仅次于问题之一就在于个人评估文章。一位教师可以为5000名学生获取教学资源，但却无法对每位学生分开展开评估。有人说道现行教育体制已不完备，而解决问题这一问题正是向超越这种体制所迈进的一大步。

kb官网

在过去短短几年中，评分软件的发展突飞猛进，现在的评分软件已可以在大学中上线测试用于。其中一个领先者就是慕课供应商EdX，同时也是哈佛和麻省理工目的提升线上教育的牵头发起者。休斯顿大学大学教育学院院长Mark Shermis教授被视作世界上自动评分领域的顶尖专家之一。

在2012年，他指导了休利特竞赛，对参赛者的展现出印象十分深刻印象。154个团队参与了竞赛，一万六千多篇文章当作做到了对比。

冠军团队与人工评分者的完全一致度低约81%。Shermis的意见十分大力，他回应这项技术认同不会在未来的教育中占有一席之地。

从这次比赛以来，自动评分领域的研究早已获得了大力进展。自动评分目前仍有几项瓶颈和技术局限（一）评分标准并未统一自动评分系统还没科学了解地研究人类分级机之间的评估差异，且个体间的差异性很有可能十分大。很显著的是，从最初主要倚赖计算出来字数、检测句子和单词复杂性和结构的非常简单工具，自动分级技术蒸蒸日上，有了相当大的进展。自动作文评分系统供应商是如何明确提出各种算法的这一问题深深隐蔽于知识产权规章背后。

然而，莱斯·为首勒尔曼（Les Perelman），长年怀疑论者和麻省理工学院前本科生论文处主任有了一些答案。他花费十年时间用各种方法戏仿有所不同的自动分级软件，并且在或许上发动了一场有关全面杯葛这些系统的运动。分级软件必需将有所不同文章展开较为，区分重点与非重点部分，然后将文章传输至一个数字以展开评级。适当的，文章必需是在一个几乎有所不同的主题下与有所不同文章具备可比性。

谷歌在较为有所不同目标文本和图片与有所不同搜寻术语的匹配度时用于了相近的策略。问题在于谷歌应用于了数百万数据样本展开估值。而一所学校最多不能输出几千篇文章。只有享有可观的数据库，这个问题才能渐渐获得解决问题。

（二）基于规则的弊端由于计算机无法加载，解决问题过度数值最不切实际的方法是为计算机具体登录一套明确的规则，来检测文本否讲得通。这一方法在其他软件上都行得通。目前，自动评级供应商大量投放来制订这样的规则，因为要制订出有一条检测诸如论文这样创造性文本质量的规则十分困难。

计算机偏向于用少见的方式解决问题：计算出来。在自动评分系统中，例如，评分预测器可以是句子长度、单词数量、动词数量、简单单词的数量等。这些规则否能作出合理的评估？最少为首勒尔曼不这样指出。他说道，预测规则一般来说十分死板局限，容许了评估的质量。

例如，他找到：—长篇文章的评级不会比短篇的评级低（自动评级倡导者马克舍内米斯教授指出这只是个凑巧。）—同简单思想涉及的明确词汇，例如“并且”“然而”，都会使文章获得更高的评级。—用于“自私”这种简单词汇不会比用于“不坏”这种非常简单词汇评级低。他找到规则很难应用于或者显然没应用于的另一些例子是这个软件无法辨别真实性。

（三）信度和效度尚待提升作文自动评分的目的是利用多学科技术有效地仿真人工评分，以超过较慢审定作文质量的目的。因此，在对计算机评分模型展开训练时，训练集作文人工评分的信度至关重要。只有有效地仿真具备较高信度的人工评分，计算机评分才有意义。

根据Barrett(2001)和Stemler(2004)的研究，评分员间的信度超过r=0.70左右才是可以拒绝接受的，但现有作文评分系统在对训练集作文展开人工评分时经常约将近这样的信度拒绝，有可能使得计算机评分模型很难仿真到人工评分的精髓。评价对学生作文的评分否合理，所须要实地考察的另一个方面是评分的效度。对作文展开评分一般最少必须从作文的语言质量、内容质量和篇章结构质量三个主要方面对作文的整体质量加以取决于。

自动评分系统在评分过程中未需要很好地顾及这三个主要方面，因而评分的结构效度有一点批评。PEG虽然对作文的语言质量具有较强的分析能力，但忽视了作文的内容质量和篇章结构质量，因而其评分结果不存在较小的效度问题。与此互为类似于，IEA引人注目了评分过程中作文内容的重要性，但忽视了作文的语言质量和篇章结构质量，似乎也不存在较小的效度问题。

与这两种系统比起，E-rater虽然以其模块结构顾及了作文质量的三个主要方面，但每个模块的分析能力较难进一步提高。参照：AI In Education — Automatic Essay Scoringhttps://edx-ora-2.readthedocs.io/en/latest/architecture/ai_grading.html11月15日，牵头乂习教育·松鼠AI，以及IEEE教育工程和自适应教育标准工作组联合举行『全球AI+智适应环境教育峰会』。

本次峰会汇集了国内外产学研三界顶尖阵容，预计，斯坦福国际研究院（SRI）副总裁Robert Pearlstein、美国大学入学考试机构ACT自学方案组高级研究科学家Michael Yudelson等顶尖学者；VIPKID、作业老大、沪江网等国内知名教育创业公司创始人；以及Knewton、Byjus、DreamBox、Duolingo、ALEKS、AltSchool等国外最不具影响力的AI智适应环境教育公司创始人将齐凝北京，联合探究AI智适应环境热点话题，年度盛会，不容错过！免费门票、VIP门票对外开放申请人中，采访大会官网立即申请人：https://gair.leiphone.com/gair/aiedu2018(公众号：)涉及文章：为什么你必须一张“全球AI智适应环境教育峰会”的入场券？为什么AI智适应环境自学这么火热？乂习智适应环境系统战胜3名17年教龄名师的背后，我们去找了创始人栗浩洋闲谈了闲谈原创文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：kb官网,官网,教师,解放,新前沿,新,前沿,让,机器,给

本文来源：kb官网-www.datingpreneur.com

Menu

kb官网：教师解放新前沿：让机器给作文打分|2018全球AI+智适应教育峰会