朋友圈本是自由自在(屏蔽老师和长辈后)分享生活和感悟的地方,然而万能(è)的科学家一番操作后,竟能根据朋友圈推测你的学习成绩!
要训练能推测成绩的AI系统,首先需要研究学业成绩与社交媒体帖子内容之间的联系。
如何才算学业成绩优良?斯米尔诺夫研究团队采用了国际学生评估计划(PISA,Programme for International Student Assessment)的标准,通过3门考试评测学生成绩:阅读、数学以及科学。
不过,斯米尔诺夫团队把阅读成绩的权重提到了首要位置。PISA将阅读素养定义为“理解、运用、反思和能够通过书面文本以实现个人目标,发掘个人的知识和潜能,并参与社会活动”,并认为这是在其他学科领域取得成就的基础教育制度,也是成功参与大多数成人生活领域的前提。
PISA考试有6个等级,得分为2的学生被认为仅满足基本的最低水平,而得分为5或6的学生则被认为是优秀的学生。
接下来,斯米尔诺夫将研究样本来源定为VK(VKontakte,俄语:ВКонтакте),这是俄罗斯最受欢迎也是用户最多的社交媒体,被称为俄罗斯的Facebook,在俄罗斯的影响力等同于我们的微信、微博。研究团队从社交网站VK收集了3483个学生的公开可用信息,排除重复发布、自动发布的一些帖子外,最终选定2468个用户的130575个帖子为最终数据集。
VK社交平台 | play.google.com
AI通过机器学习后,可以分析学生发帖的词汇表,每个词都有相应的权重。通过一个人所发帖的所有词的权重,就可以分析推算其成绩。
该AI显示,星座、大量的表情符号、感叹号、服兵役、驾驶以及用大写字母写的单词或短语等,都与成绩优秀呈现负相关,即帖子里大量包含这些内容可能表明发帖人学习成绩不好(莫名中枪?)。
星座爱好者不是好学生?| 图虫创意
运用该AI系统推测学生成绩,区分成绩不良(低于2分)和成绩优秀的学生准确率高达93.7%。
不过如果你在社交媒体发帖量很少,该AI在推测你的学习成绩时便存在一定的误差(所以仅三天可见是机智的?)。
常见文本特征与成绩之间相关性 | Ivan Smirnov
除此之外,研究人员还通过选择在训练语料库中出现至少5次的最高分和最低分的400个单词来探索主题集群。
- 英语单词:above, saying, yours, must(学霸喜欢祈使句?);
- 与文字和文学相关(蒲公英、布拉德伯里、华氏度,奥威尔、赫胥黎、福克纳、纳博科夫、布罗斯基、加缪、曼、雪莱、莎士比亚;
- 与阅读相关词汇:读、重读、出版、书、卷;
- 物理学相关的单词:宇宙、洞、字符串、理论、量子、爱因斯坦、牛顿;
- 与思考过程有关的词:思考、记忆及各种同义词。
- 常见的拼写错误;
- 流行的电脑游戏名称;
- 与兵役有关的词汇:军队、服役、军人誓言;
- 星座:白羊座、射手座等(星座爱好者再次中枪);
- 汽车和道路事故:交通碰撞、交通安全总局、车轮、调整(看来学霸总在书桌前,而学渣一直在路上)。
与成绩相关的不同集群 | Ivan Smirnov
但是这个AI并不能推算所有人的学习成绩,毕竟还有一些虽然游戏玩得飞起,期末考试仍然血虐别人的学神,以及每天都说自己在聚餐玩耍,实则一整天泡在图书馆的学霸(白眼)。
不过有一点可以确定,多转发果壳的科普,可以提高学习成绩(误。