| | | 2018年04月14日 星期六
7
经济观察

连线“最强大脑”


    ■张斌

    利用城市中的一切传感器来感受城市的动态,并利用所得数据,对包括天气变化、环境指标、交通流量等在内的城市活动要素进行不同维度的分析预测……大数据和人工智能技术的迅速演进,让此前无法完成的“城市计算”变得可行。

    2018年4月1日,国际数据挖掘领域顶级赛事KDD杯正式开赛。从4月1日至4月30日,选手可以通过官方网站提交测试结果,决赛将从5月1日起开战。今年的KDD杯承办者是来自中国的企业,包括京东金融、高精度气象预报公司彩云科技、科技媒体DeepTech深科技、数据竞赛平台Biendata.com等。

    借助大数据,算出两天后的空气质量

    今年KDD 杯参赛者的比赛内容,是预测北京和伦敦两个城市的空气质量——参赛选手被要求针对过往的天气数据,预测未来两天的空气质量。在48小时后,选手提交的结果将通过真实的天气数据评分。

    大赛顾问、京东金融首席数据科学家郑宇表示,通过数据挖掘和机器学习的方法预测空气质量有很强的应用前景,如果可以提前预测空气质量波动,政府等决策机构就有可能及时指导居民防范,暂停工地、工厂等污染源运作,以及关闭幼儿园等。中国和英国都曾面对空气质量问题的困扰。虽然现在情况已经有了很大的改善,但数据挖掘和机器学习领域的技术,将能进一步协助解决空气质量问题。

    KDD 杯 (英文全称是Knowledge Discovery and Data Mining,即知识发现与数据挖掘) 是国际数据挖掘领域顶级赛事,由美国计算机协会知识发现与数据挖掘专委会 (ACM SIGKDD) 主办,是世界上最有影响力的大数据比赛,有“数据世界杯”之称。该比赛同时面向企业界和学术界,云集了世界数据挖掘界的顶尖专家、学者、工程师、学生等参加,通过竞赛,为数据挖掘从业者们提供了一个学术交流和研究成果展示的理想场所。在此之前,腾讯、雅虎、阿里云、微软等机构都曾经承办过KDD杯。

    首届KDD杯于1997年举办,随后每年举办一次。历届KDD杯的比赛主题的选择都聚焦于技术发展前沿,不但具有极大的前瞻性,深具启发意义;而且贴近社会发展的现实需求,“接地气”的同时更富含商业开发价值。比如2008年,KDD杯的比赛主题分为两个部分,分别是设计计算机辅助检测系统,来判读图像是否含有乳腺癌病兆;以及 设 计 二 分 分 类 器 ( Binary Classification),来决定某样本是否需要医生来进行重复判读……近年来,人工智能筛查疾病被誉为“提高整个社会的运转效率,对人类面临的问题寻求精准化”的解决方案,因此得到了资本的重点照顾。

    再比如2012年的赛题为社交网络的个性化推荐系统以及搜索广告系统的点击率预估。以往来看,内容和广告的分发依赖于人工操作,用户体验低的同时,还不能做到精准分配。反观当下,一些企业凭借类似的自动化工具,从名不见经传的小公司迅速成长为“独角兽”企业。

    最近一次KDD 杯的赛题也耐人寻味,比赛要求选手预测车辆从路口到收费站的平均用时和高速收费站车流量预测。这两道题由该届举办者阿里巴巴提出,出题的目的在于利用比赛去解决城市发展中的交通问题。而打通数据并在海量、实时数据分析处理的基础上做出智能决策,也正是当下最前沿的“城市大脑”、“城市计算”技术的基本定位。

    不仅如此,KDD杯的参赛者也藏龙卧虎,每年的获奖选手都成为谷歌、腾讯等技术企业争抢的对象。著名人工智能专家杨强带领的团队就曾获得2004年 KDD杯冠军。同时,KDD杯的获奖选手也逐渐向中国靠拢,2015年的冠军团队队长为网易员工;2016年一位清华大学学生获第二名;2017年的所有获奖者皆为中国团队。

    “城市计算”渐行渐近

    在所有与2018KDD杯相关的报道当中,“城市计算”是个出现频率极高的热词,而如果你在百度上搜“城市计算”,第一页的搜索结果又会全部指向“郑宇”———2018KDD杯顾问、京东金融首席数据科学家、前微软亚洲研究院城市计算项目负责人、上海交通大学讲座教授、香港科技大学客座教授……。

    在郑宇的理解中,所谓“城市计算”,指的是计算机科学以城市为背景,将城市规划、交通、能源、环境、社会学和经济等学科融合的新兴领域,这是一个通过不断获取、整合和分析城市中多种异构大数据来解决城市面临的挑战的过程。其终极目标,就是对来源不同的时空数据进行融合,以此对城市中的各个动态要素———大到天气、交通、环境,小到商业选址、客户风险判断等进行不同维度的分析预测。用一句通俗的话来说,就是让大数据和人工智能技术,成为城市的“超级大脑”。

    在今年2月加盟京东金融之前,郑宇在微软亚洲研究院的研究成果之一,就是通过城市计算,实时监测和预测城市某一点位的空气质量指数。根据他的介绍,空气会受很多因素影响,如气象条件、车流量、建筑密度、土地使用规划、附近有无厂矿或公园等,这些因素直接导致一个城市里各个地方的空气质量差别很大。因此,要预测一个地方的空气质量,并不能单纯只看这个地方本地的数据,而要考虑到周边地区的空气及其他因素。与传统模拟空气质量不同,大数据预测空气质量依靠的是基于多源数据融合的机器学习方法,不同领域的数据互相叠加,相互补强,从而预测空气质量状况。

    “从预测的准确率看,现在已可做到北京未来6个小时的时间范围内达到75%,深圳和广州达到80%。”郑宇表示,未来希望北京48个小时的预测准确率能达到50%。达成这个看似不高的比例并不容易,目前天气预报24小时的准确率只有40%。据了解,此前微软已推出Urban Air系统,通过大数据来监测和预报细粒度空气质量,这项服务目前已覆盖了中国的300多个城市。

上海报业集团 版权所有