文/凯西·奥尼尔 译/马青玲
我们整个社会不仅认同了大学教育是必不可少的这一观念,而且欣然接受了排名靠前的学校的文凭能帮助学生快速进入特权阶层这一事实。《美国新闻》的排名模型以由此而生的恐惧和焦虑为养分,成长为一个庞然大物。排名模型有力地刺激了各方在教育上的不断投资,而飙升的学费则被忽视了。
这个故事开始于1983年,美国一家濒临停刊的杂志《美国新闻》决定开展一个规模庞大的项目:评估全美1800所学院和大学,按优秀度为这些学校做一个排名。如果进展顺利,这个项目的成果会成为一个有用的工具,可以用于指导数百万年轻人做好人生中第一个重大的选择。对于许多人来说,这个选择将决定他们的职业道路、终身的好友圈,通常还包括终身伴侣。此外,杂志编辑也希望这个大学排名项目能带动杂志销量——没准在推出大学排名的那一周里,《美国新闻》的销量能追上《时代》和《新闻周刊》呢!
但是,要基于什么数据进行大学排名呢?起初,《美国新闻》的工作人员完全依靠他们寄给各大学校长的调查问卷所得到的反馈结果进行评分。结果,斯坦福大学位居全美综合性大学之首,阿默斯特学院则是排名第一的文科学院。排名结果虽然很受读者欢迎,但也令很多大学的校领导非常愤怒。杂志社收到了排山倒海般的投诉,内容都是控诉排名结果有失公正的。许多大学的校长、在校学生和已毕业的校友坚持认为自己的学校应该获得更高的排名,杂志社应该再去仔细研究一下有关的数据。
接下来的几年,《美国新闻》的编辑一直在思考他们具体可以测量什么数据。许多模型诞生了,但其中大量的评估因素仅仅来自直觉。模型确立的过程并不严谨,统计分析也缺少根据,模型建立的依据仅仅是人们凭空想象的对教育而言最重要的因素,然后,去寻找可以测量的相关变量,最后随意地在公式中赋予每个变量一定的权重,模型就完成了。
在大部分领域,模型确立的过程通常是比较严谨的。比如,农业学科的研究者会比较投入(土壤、阳光和化肥)和产出(收获后,具有特定特征的农作物的产量)。然后,他们就可以按照目标,比如一定的成本、口感或者营养价值等进行下一步的试验和优化。但是,《美国新闻》的编辑所做的是“教育优秀度”排名,这是比粮食成本或者每个麦粒的蛋白质含量更加抽象、模糊的价值。这些编辑没有直接的方法来量化4年的大学学习过程是如何影响某一个学生的,更不用说数千万个学生了。他们不可能测量一个学生在4年大学生活中的学习、幸福、信心、友谊等全部方面。美国前总统林登·约翰逊对高等教育的定位是:“高等教育是深化自我实现、扩大个人生产力和增加个人回报的途径”,但不
管是其中的哪一条都不适合放在大学排名模型中。
《美国新闻》的编辑只是挑选了一些和评估目标看似相关的变量。他们研究了高中生的SAT(学业能力倾向测验)成绩、学校的学生教师比和录取率。他们统计了顺利进入大二的新生占总数的百分比和顺利毕业的学生占总数的百分比。他们计算仍在世的已毕业校友为母校捐款的人数占总数的百分比,依据是他们给母校捐款很可能表明他们喜欢母校的教育。排名结果中占3/4权重的分数都来自一种算法,这种算法就包含以上那些变量;另外占1/4权重的分数则来自全美各地的大学校长的主观评价。
当这一排名发展成全美标准时,恶性循环出现了
《美国新闻》第一次依据数据确定的大学排名于1988年出炉,当这一排名发展成全美标准时,恶性循环出现了。排名会自行巩固,如果一所大学在《美国新闻》所发布的排名中名次靠后,它的声誉就会下降,生源情况就会恶化。优秀的学生会避开这所大学,优秀的教授也一样。已毕业的校友将减少捐款。由此,这所学校的排名就会继续下跌。简单来说,排名决定了大学的命运。
以前,大学有各种方法可以宣扬学校教育的成功,许多是靠传闻逸事。例如,某些教授得到了众多学生的一致好评;一些学生在毕业后走上了杰出的职业之路,成为外交官或者成功的企业家;还有一些学生出版了一流的小说。这些正面事迹经由口口相传广为人知,学校的声誉也由此提升。但是,麦卡利斯特学院就比里德学院好吗?或者艾奥瓦大学就比伊利诺伊大学好吗?这很难说。不同的大学就像不同类型的音乐或者不同的饮食习惯,对于某所大学的评价众说纷纭,好坏两方面都可以列出充分的理由。而现在,大学的整体声誉被一组数字蒙上了阴影。
如果你站在大学校长的角度思考这件事情,你会发现大学排名其实是很糟糕的。毫无疑问,绝大多数校长珍惜自己的大学经历,因为从某种程度上来说,正是大学经历激励他们攀登学术阶梯,成为一所大学的校长。但是现在,这些正处在事业高峰期的校长需要投入巨大的精力提高与学校教育优秀度有关的15个考核项的分数,而这15个考核项是由一个二流杂志社的一组编辑定义的。他们就好像又回到了学生时代,每天都在祈求老师给高分。如果《美国新闻》发表的大学排名只在小范围内流行,倒也不会造成什么麻烦。但是,这个排名的影响力发展迅速,很快成为一个全美标准。教育界一下子紧张起来,迅速给大学校长和学生都设定了严格的任务清单。《美国新闻》的大学排名模型规模巨大,造成了大范围的损害,导致了几乎是无尽的恶性循环。
一些大学的校领导想尽一切办法提高排名。贝勒大学设立奖金激励大一新生再次参加SAT考试,希望再考一次能提高他们的成绩以及贝勒大学的排名。有些名校,包括宾夕法尼亚州的巴克内尔大学和加利福尼亚州的麦肯纳学院,则给《美国新闻》反馈了假数据,夸大了其学校新生的入学分数。2011年,位于纽约的爱纳学院承认其学校教师几乎捏造了所有的数据:考试成绩、录取率和毕业率、新生保留率、师生比和校友捐赠额。但谎言起效了,至少在一段时间之内。据《美国新闻》估算,假数据将爱纳学院从东北地区大学排名第 50名提升至第30名。
更多的校领导则试图寻找一种更常规的方式来提高他们的学校排名——努力提升学校在影响最终分数的每一个变量上的表现。他们可能会认为这是效率最高的资源利用方式。毕竟,只要他们努力去迎合《美国新闻》的模型,得到更高的排名,他们就能筹集到更多的资金,吸引来更优秀的学生和教授,然后进一步提高排名。除此之外,还有别的选择吗?
大学为了排名展开“军备竞赛”,但排名模型把成本排除在算法外
罗伯特·莫尔斯从1976年起就在《美国新闻》杂志社工作,他是这个大学排名项目的组织者,他在采访中称进行大学排名有利于推动大学制定更有意义的目标。如果他们能因此致力于提高毕业率或者把学生分成更小的班级上课以提高教学效果,那就说明排名是件好事情。他承认杂志社拿不到与大学教育优秀度最相关的数据,即每个学校学生的学习内容。但是,基于替代变量建立的 《美国新闻》大学排名模型也足够反映问题了。
但是,当你基于替代变量建立模型时,钻模型的漏洞会变得容易很多。这是因为替代变量比起它所代表的复杂事实更容易操控。举个例子,假设有一个网站要聘用一个社交媒体专家,人事经理决定选定一个变量——重点考虑推特粉丝数排名靠前的应聘者。推特粉丝数是社交媒体参与度的标志之一,没错吧?但是想象一下,应聘者很快就会无所不用其极地增加推特粉丝。有人会花费19.95美元直接 “购买”大量由机器操控的粉丝。因为人们钻了招聘系统的漏洞,替代变量失去了效力。
在《美国新闻》大学排名事件中,从高中毕业生到大学校友再到公司的人力资源部,人们很快接受了该排名是大学教育质量的一个体现。因此,各个大学只能选择配合,他们不得不努力提高排名所涉及的每一个考核项的分数。其实,许多学校最焦虑的是那不能控制的占排名结果1/4权重的因素,即声誉分数,来自各个大学、学院的校领导给出的问卷调查反馈。
2008年,沃思堡市的得克萨斯基督教大学(TCU)排名猛降。三年前,该校的名次是 97,之后三年名次递降为105、108和113。该校的校友和支持者为此感到很愤怒,校长维克多·博西尼也因此陷入尴尬境地。他坚称得克萨斯基督教大学在每个指标上的表现都在进步,“我们的新生保留率在提高,我们的筹款等所有方面都在改善”。
博西尼的申辩有两个问题。首先,《美国新闻》排名模型并不是对各个大学进行孤立的判断。即使是各指标分数均有所提升的学校在排名中也会落后于其他分数提升得更快的学校。用学术术语来说,《美国新闻》的评估模型是一种分布模型。这导致了一场学校间的“军备竞赛”。另一个问题是,得克萨斯基督教大学无法控制占1/4权重的声誉分数。招生主任雷蒙德·布朗指出,声誉是模型中权重最大的变量,“这很荒谬,因为它完全是主观的”。新生招生主管威斯·瓦戈纳则指出,为了提高声誉分数,各大学都在纷纷为自己打广告。
尽管如此,得克萨斯基督教大学仍然决定着手提升那可控的占 3/4权重的分数。这所大学发起了一个2.5亿美元的筹款活动。到2009年,学校已募集到4.34亿美元,远远超过目标额度。由于筹款额是排名的指标之一,仅此一项成绩就提升了排名。得克萨斯基督教大学花费了其中的大部分资金用于校园设施改善,其中1亿美元用于兴建中央商场和学生活动中心,努力让得克萨斯基督教大学的校园看上去更具吸引力。这些做法本身没有什么不对,但其初衷是迎合《美国新闻》的排名模型。
也许更重要的是,得克萨斯基督教大学兴建了一个其时最高水准的体育训练场馆,并将大量的资源投入到足球项目之中。在接下来的几年里,得克萨斯基督教大学的角蛙足球队成为国家强队。2010年,他们在玫瑰杯足球赛中打败了老牌强队威斯康星队,取得了全美总冠军。
这次胜利为得克萨斯基督教大学带来了所谓的“弗洛特 尔 效 应 ”(the Flutie effect)。1984年,在一场极为精彩的大学橄榄球比赛上,波士顿大学队的四分卫道格·弗洛特尔在最后一秒完成了一个扭转败局的超长距传球,打败了迈阿密大学队。弗洛特尔由此成为一个传奇。这场比赛结束后的两年内,波士顿大学的大学申请率上涨了30%。乔治城大学也曾拥有带来过同样的宣传效果的传奇。该校由帕特里克·尤因带领的篮球队三次打进全美锦标赛。看来,赢得体育比赛是吸引学生申请某所大学的关键因素。当大批体校的高三学生在电视上观看大学体育比赛时,球队实力强劲的学校对他们形成了极大的吸引力。这些学生会为自己是该校的学生、身着写着该校校名的队服而感到骄傲。这些大学接到的入学申请因此暴涨。随着更多的学生申请入学,招生处就可以提高入学门槛,以提高大学新生的SAT平均分,而这有助于提高大学排名。另外,学校拒绝的申请学生越多,其录取率就越低,对排名就越有利。
得克萨斯基督教大学的策略奏效了。到2013年,该大学已成为得克萨斯州学生选择度排名第二的大学,排在第一的是著名的休斯敦莱斯大学。这一年,得克萨斯基督教大学的新生高考和入学考试平均成绩均达到史上最高水平,其在全美的排名也因此大幅上升。2015年,该校全美排名 76,也就是说,仅用了7年时间,该校就上升了37个名次。
现在,我们终于发现《美国新闻》大学排名模型最大的缺陷是什么了。我们不能说《美国新闻》的编辑为评判“教育优秀度”选择的替代变量是无效的,但他们犯下的更大的错误来自他们没有纳入考虑的变量:学杂费、学生助学金。这些变量被该排名模型遗漏了。
这引出了我们将会频繁讨论的一个关键问题:建模者的目标是什么?在大学排名这个案例里,你需要站在1988年《美国新闻》编辑们的角度来考虑。当他们在建立第一个统计模型的时候,他们怎么知道这一模型是否有效?首先,如果模型能反映一些已有定论的大学排名,这就表明其有一定的可信度。比如,如果哈佛大学、斯坦福大学、普林斯顿大学和耶鲁大学在大学排名模型中位居前列,这就在一定程度上证实了 《美国新闻》编辑设计出的大学排名模型是有效的。而要建立这样一个模型,他们只需要去研究那些一流高校,思考这些大学的特殊之处是什么就可以了。优秀大学的共同点是什么?这些学校与其隔壁镇的保底学校差距何在?他们发现:优秀大学的新生SAT成绩都很高,而且绝大部分都能顺利毕业;已毕业的校友都很有钱,会不断给学校捐款;等等。就这样,《美国新闻》的大学排名项目组通过分析名牌大学的优势,建立了一个测量教育优秀度的评估指标体系。
现在,如果该项目组将教育成本纳入算法,则其模型输出也许会发生奇怪的变化——学费便宜的大学很可能因此闯入优秀大学之列,而这一结果将遭到广泛的质疑。由于公众可能会把 《美国新闻》最终公布的大学排名看得特别重要,因此采取保守、常规的算法,保证一流大学位于排名输出结果的前列,是一种更安全的做法。当然,高成本也许正是优秀的代价,这也不是没道理。
《美国新闻》的排名模型把成本排除在算法外,这就好像是给大学校长们递了一本镀金支票簿。后者要遵循的唯一指令,就是最大限度地提高15个考核指标的评分,而降低成本则不在其列。事实上,提高学费反而能让他们有更多的资源用于提升考核项目的表现。
从此,学费一路飙升。从
1985—2013年,高等教育的学费上涨了5倍以上,差不多是通货膨胀率的4倍。为了吸引顶尖的学生,各大学都像得克萨斯基督教大学一样,纷纷开始大力投入校园基础建设,建造有玻璃墙的学生中心、豪华的宿舍,以及带攀岩墙和漩涡浴缸的健身房等。从表面来看,这对学生来说是好事,这些设施可以丰富他们的大学体验——前提是他们不需要以助学贷款的形式承担这些费用,偿还助学贷款的压力可能会跟随学生几十年的时间。不过我们不能把一切都归咎于《美国新闻》的大学排名。我们整个社会不仅认同了大学教育是必不可少的这一观念,而且欣然接受了排名靠前的学校的文凭能帮助学生快速进入特权阶层这一事实。《美国新闻》的排名模型以由此而生的恐惧和焦虑为养分,成长为一个庞然大物。排名模型有力地刺激了各方在教育上的不断投资,而飙升的学费则被忽视了。
像管理投资组合一样管理着学生
出于提升排名名次的需要,各个大学就像管理投资组合一样管理着自己的学生。这在大数据领域里很常见,小到广告业大到政治领域都是如此。在校领导看来,每一个准大学生都代表着一组资产和一两项债务。比如,一名高中生在体育赛事上的优秀表现就被视为一种资产,但同时其成绩可能处于中下游水平,后者就是债务。他可能还需要申请助学金,这又是一项债务。为了平衡投资组合,他们应该发掘其他能自费上学并且成绩优秀的考生。但是那些理想考生即使被录取了也可能会选择去其他更好的学校。这也是一个必须要量化的风险。鉴于整个评估体系非常复杂,为了“优化招生”,教育咨询产业兴起了。
教育咨询公司诺埃尔-莱维茨(Noel-Levitz)开发了一个被 称 为 “预 告+”(ForecastPlus)的预测性分析软件包。该软件包允许招生老师根据地理位置、性别、种族、研究领域、学术地位及“任何其他特征”对准大学生的情况进行评估。另一个名叫“定位学生”(RightStudent)的咨询机构则致力于收集、买卖相关数据以帮助大学客户找到最适合录取的学生人选,包括可以支付全额学费的学生,以及可能有资格获得校外奖学金的学生。就这个意义而言,学习障碍对于大学录取可能反而是个优势。
所有这些都发生在这个以《美国新闻》大学排名为中心的巨大的生态系统里,排名模型实际上充当了系统内部最高法的角色。如果《美国新闻》的编辑重新安排模型中部分替代变量的权重,比如降低考试成绩的权重,或者增加毕业率的权重,则整个教育生态系统就要重新适应新的法则。这一改变将波及咨询公司、高中的升学指导部门,以及所有的学生。
2010年,《美国新闻》杂志停刊了。但是整个排名产业未受丝毫影响,且继续发展壮大,排名延伸到了医学院、牙科学校、文学和工学研究生院,甚至高中。 随着排名产业的发展,钻模型漏洞的手段也越发丰富。2014年的《美国新闻》全球大学排名中,沙特阿拉伯的阿卜杜勒阿齐兹国王大学(KAU)的数学系排名第七,仅次于哈佛。然而该校的数学系仅成立了两年,没人知道它是如何一下子跃升至全球前10,甚至超过了剑桥大学和麻省理工学院的数学系的。
伯克利大学的电脑生物专家利奥·帕赫特研究了这个问题。他发现,KAU和论文引用次数极高的很多数学家进行了接触,并以7.2万美元的年薪聘请他们担当该校的客座教授。根据帕赫特找到的招募信,该合作协议规定这些数学家每年必须在沙特阿拉伯工作三周。大学将承担他们的商务舱机票,安排他们入住五星级宾馆。可以想见,他们在沙特阿拉伯的工作为学校增加了价值。但更关键的是,该大学还要求这些数学家将他们记录在汤森路透学术引用网站上的通信地址改为KAU,而这正是《美国新闻》排名模型中的一项关键参考因素。这意味着,KAU可以声明他们的众多新任客座教授的学术论文和专著都是他们的成果。由于论文引用次数是排名模型算法里的一个重要参考数据,KAU因此排名飙升。
排名模型生产的恶性循环及其引起的广泛焦虑,也导致了整个升学辅导教育产业的蓬勃发展。一个叫“名校录取”(Top Tier Admissions)的教育公司推出了一个为期4天的“大学申请训练营”培训项目,收费高达1.6万美元(不包括住宿和饮食)。在这期间,这些高二学生将学习如何写申请书,学习如何“拿下”面试,创建“活动列表”总结自己得过的所有奖项和参加过的所有体育运动、社团活动及社区志愿服务,因为这些都是大学招生办关注的要素。
教育公司的专业人士了解每个学校的招生模型,所以他们知道怎样让一个准大学生被纳入其目标学校的“投资组合”之中。美国加州星腾科国际教育集团的创始人马振翼在教育产业中把市场分析法发挥到了极致。他用自己开发的模型评估准大学生,计算他们被目标院校录取的可能性。他对《彭博商业周刊》的记者表示,假设一个美国高中生的平均学分绩点 (GPA)为 3.8,SAT成 绩 为2000分,课外活动时间为800小时,那么他被纽约大学录取的概率为20.4%,被南加州大学录取的概率为28.1%。然后,星腾科将提供一份有担保的建议组合。如果这个学生接受了咨询公司的建议辅导并最终成功被纽约大学录取,则该学生就需向咨询公司支付25931美元,如果他最终成功被南加州大学录取,则需要支付18826美元。如果他的申请被两个学校都拒绝了,那么咨询公司将不收取任何费用。主要受害者仍然是美国的大多数
每所大学的招生模型全部或者至少一部分来源于《美国新闻》的大学排名模型。这就为像马振翼这样的专业咨询人士创造了巨大的商机,通过培养其在各个大学的人脉以获取第一手信息或者逆向推导各个学校的招生模型算法,他们破解了绝大部分学校的招生模型。
当然,主要受害者仍然是美国的大多数,即穷人和中产阶层,他们没有那么多钱可以花在课程和咨询公司上。他们错失了珍贵的内部信息。结果是,教育体系偏离穷人和中产阶层,将他们推向贫穷之路,进一步加剧了社会阶层固化。
但是,即使是那些想尽办法进入了名牌大学的学生也并不是赢家。大学招生制度只对少数人而言是有利可图的,且根本没有任何教育价值,只不过是以某种新奇的方式将一群18岁的孩子重新排序分类。在备考阶段,掌握更多的篮球技巧或者在专业辅导人员的帮助下写出符合目标大学标准的申请书并不能让他们掌握真正有意义的技能。更不用说很多人都是靠蒙混过关的。所有这些学生,不管是来自富人阶级还是来自工人阶级,都被培训成要去适应一台巨大的机器。
那么,有什么解决办法吗?在奥巴马总统的第二任期内,他提出了一个新的大学排名模型,比《美国新闻》的大学排名模型更符合占全美大多数人的利益。他的次级目标是削弱营利性大学(这是一个吸钱祸害)的影响力。奥巴马的想法是将大学排名系统与一组不同的指标联系起来,这些指标包括负担能力、贫困学生和少数族裔学生所占比例以及学生毕业后的就业情况。和《美国新闻》的排名模型一样,该模型也会考虑毕业率。如果某所大学在这些指标上的表现低于最低标准,它就会被踢出每年价值1.8亿美元的联邦助学贷款市场(营利性大学一直身在其中)。
奥巴马的建模目标听起来很有价值,但是每一个排名模型都有漏洞可钻。而一旦被钻了空子,模型就会产生新一轮的恶性循环以及大量意料之外的有害后果。举例来说,提高毕业率很简单,只需降低毕业要求就可以了。许多学生无法通过数学、科学专业课、外语这几门课的考试,那么放宽这方面的要求,这样更多的学生就能毕业了。但是,如果我们的教育体系的目标是培养更多的科学家和技术人员,那么这种做法岂不是很讽刺?提高毕业生的收入水平也很容易办到。所有大学要做的就是减少文科专业,撤掉教育系和社会服务系,因为教师和社会工作者挣的钱没有工程师、化学家和计算机科学家多。
“在毕业后9个月内就业的毕业生”数量也可以造假。《纽约时报》2011年的一份报告针对法学院做了一项调查,该报告评估了各个大学的法学院对毕业生的就业安置能力。调查显示,假如一位肩负15万美元学生贷款的法学院毕业生只找到了一个在咖啡店打工的工作,那么一些无良的法学院会把这个学生也计入就业人数。另一些学校更过分,在 9个月的期限即将截止之时,对于那些还没找到工作的毕业生,学校就雇用他们在学校做小时工,并将其计为就业。还有学校向毕业不久的校友发出调查,并将所有没有回复的人都归为“就业”。
或许,奥巴马政府没能拿出一个经过重新调整的排名系统也是好事。大学校长强烈抵制新的排名系统。毕竟,他们多年来一直是照着符合 《美国新闻》的排名模型的方向努力的。奥巴马提出的新排名模型涉及毕业率、班级人数、毕业生就业安置情况和收入水平等其他变量,若严格按照指标标准评估各大学,其得出的评分将严重损害众多大学的排名和声誉。
所以,政府最终做出了让步。教育部没有将大学重新排名,而是把大量的调查数据公布在网站上。这样一来,学生就可以自行查询自己关心的指标,包括班级人数、毕业率以及应届毕业生的平均负债额等。他们无须再去了解任何统计法或者变量的权重。就像一个旅游网站一样,现在,每一个人可以自行制定个人的模型。
(作者 Cathy O'Neil为数据科学家、mathbabe.org的博主;本文节选自《算法霸权》,标题为编者所加;该书即将由中信出版集团出版)