鲍捷 | Web:为所有人-——记图灵奖得主 Tim Berners-Lee 的伟大贡献

​来源:文因互联 CEO 鲍捷博士发布于《中国计算机学会通讯》2017年第6期《动态》
编者按
蒂姆·伯纳斯-李(Tim Berners-Lee),人们通常称他为Tim。作为万维网(World Wide Web,Web)的发明人而为世人所知,他也因此获得了2016年的图灵奖。但他的贡献并不止于Web。在过去近三十年的工作里,他的贡献大体可分为三个阶段。第一阶段从1989年到1999年,他的主要精力在Web本身的发明和推广上,贡献是互联的文档。第二阶段是1999年到2009年,他主要在推广语义网,贡献是互联的知识。第三个阶段从2009年至今,主要致力于数据的开放、安全和隐私,贡献是互联的社会。本文简述他在这三个阶段的贡献。

万维网:互联的文档

Web是由Tim在欧洲核子研究组织(CERN)期间于1989~1991年发明的,初始目的是互联CERN内部的文档。Web的发明,是时代发展的必然,也是Tim个人长期探索和实践的结晶(注释:Web到底是什么时候发明的,各有争议,有的说是1989年3月13日,即第一次项目计划书发布的时间,有的说是1990年11月12日,项目书被接受开始实现的时间,还有的说是1991年8月6日,第一个服务器上线的时间。)。

Web发明的背景

很少有一项重大的技术,是一个天才先知先觉独立发明的。更多的是在某个时候,几年甚至几个月前后,有若干个人想到这个方法并把它实现。水到渠成时,没有张三来发明,也会有李四来发明。而在这之前,即使有最好的条件,也不见得能够做到。

Tim并不是第一个尝试建立互联世界文档的人。较早的尝试有范内瓦·布什(Vannevar Bush,曼哈顿计划协调人)的“Memex”(1945),泰德·尼尔森(Ted Nelson,超文本发明人)的仙那度计划(Project Xanadu, 1965),和道格拉斯·恩格尔巴特(Douglas Engelbart,图灵奖得主,也是鼠标发明人)的oN-Line System (NLS, 1968)。这些人的资历、背景和可控制的资源,都远远超过1991年的Tim。但是由于时代的局限,这些努力都没有成功。

如果我们考虑到因特网(Internet,现在习惯称互联网)的前身阿帕网(ARPANET)在1969年才开始运行,显然更早的计划实现起来是遇到了物理和经济的限制。比如Memex,相当于是基于微胶片的Web,即使实现了,信息互联的代价也是极其高昂的。Web是互联网上的一个应用,它显然不能脱离互联网本身的存在而存在。从1969年到1991年,这22年间为什么没有人发明Web或者相似的东西呢?主要原因是需求还不够强烈,也因为底层的支持技术还不成熟。

这期间发生的相关大事有以下几点:

● 1971年,电子邮件(Email),文件传输协议(FTP)

● 1974年,传输控制协议(TCP)

● 1978年,网络互联协议(IP)

● 1979年,UNIX至UNIX拷贝协议(UUCP)

● 1980年,Tim在CERN写了 Enqiure 超链接程序,但还只是本地单机程序

● 1984年,CERN 开始建立自己的CERNET

● 1984年,域名系统(DNS)实现(在此基础上才发展出URI)

● 1980年代中期,ARPANET 逐渐进入民用

● 1980年代晚期,TCP/IP逐步取代其他协议,成为因特网的共同基础

● 1989年,边界网关协议(BGP),因特网的路由成为一个分布式系统

● 1989年,CERNET终于通过TCP/IP和外部网络接通

● 1989年,Tim提出Web计划

● 1990年,ARPANET停止,被民用的NSFNET 取代(后者在1995年被停止,因特网全面完成民用化)

● 1990年,Dynatext,标准通用标记语言(SGML)发布工具出现。SGML影响了HTML的发明

● 1990年,Tim 开始开发Web

● 1991年,Gopher协议在明尼苏达大学被发明和实现出来

● 1991年,Think Machines公司开发了WAIS (Wide Area Information Servers)协议,并在Unix上开源

● 1991年,Tim 正式对外发布了Web

也就是说,直到20世纪80年代晚期互联网才真正成为全球性的通讯平台。在这样的平台上,人们可以自由地发布、链接、浏览信息才会成为一种可能和必需。在这之前,Email、FTP、Usenet 都不需要信息的网状结构,因为它们总是面向一个较小的群体。当互联网变成一个全球性的存在,需要任何人都可以看任何人的信息,需要任何人都可以自由地组织他/她能看到的信息,上面的应用就都不合适了。于是,几乎同时,Gopher、WAIS 和 Web(HTML, HTTP, URI)被发明出来。事后来看,Tim几乎在第一时间抓住了这个机遇。

Web成功的核心因素

Web是超文本和互联网两大技术融合的结晶。Web技术的核心是三个协议:

● 统一资源识别器(Uniform Resource Identifier,URI),解决文档(这个概念被扩展为“资源”)命名和寻址

● 超文本传输协议(Hypertext Transfer Protocol, HTTP),解决文档的快速传输

● 超文本标记语言HTML(Hypertext Markup Language, HTML),解决超文本文档的表示

按Tim的看法,这三个协议的重要性依次递减。这可能不符合日常Web用户的认识,因为HTML、HTTP是对用户可见的,而URI的重要性却不易察觉。但恰恰是URI的设计核心体现了Tim的设计指导哲学,即尽可能允许人们自由行事,自由地发布文档和互联文档。这可能是Web成功的最核心的原因。

尽可能降低文档发布的代价和文档互联的代价,是建立一个全球性文档系统的关键。Web是一种可扩展性极好的系统,这里的可扩展性,不仅仅指计算的可扩展性,还包括人在内的整个系统的可扩展性。从数据的产生、资源的互联、知识的建模,到最后信息的消费,都要有人的参与。人的惰性、人的心理、人的经济头脑,都会深刻影响到一个系统能不能走出实验室。在吸取了NLS、Gopher和他自己以前在CERN这个极度多元化、极度分散的机构里的诸多实践教训之后,Tim格外注意通过自由建立互联的设计。这可能是技术因素之外,Web成功的最重要的一个因素。Tim说:

“目睹了以前一些系统被干掉的事,我认识到问题的关键将是强调允许每个人对自己机器上的组织方式和软件各行其是(Having seen prior systems show down, I knew the key would be to emphasize that it would let each person retain his own organizational style and software on his computer)。”“我们可以建立一个通信的共同基础,同时又允许每个系统保持个性(We can create a common base for communication while allowing each system to maintain its individuality)。”

任何人都可以用自己选择的方式定义URI的本地解释;任何人都可以不经过他人(包括发布者)的批准就可以建立对外部资源的链接;没有一种强迫的信息组织方式(反例如Gopher要求严格的分类菜单);任何人都可以使用Web技术而无须购买许可证。这种自由才是Web成功的关键。相比其他竞争对手,Tim 拥有的资源并不多,但正是这种自由的设计,才让Web脱颖而出。

Tim也开发了世界上最早的浏览器,并在Web发展的早期,和全球各地的开发者沟通,让各个平台上的用户都可以通过浏览器访问Web上的资源。值得注意的是,Tim在早期认为浏览器也应该具有编辑能力,让用户可以直接在浏览器里发布网页。这个想法并没有在Web的第一个十年流行起来,但在第二个十年,随着社交网络,特别是维基(Wiki)和协作系统的兴起,而得到了实现。

为了保障Web的开放性,他于1994年创立了万维网联盟(W3C),协调Web上各种技术的标准化和推广。W3C本身就是Web开放与自由精神的体现,只用了很少的工作人员就实现了数千名专家的全球性协作。二十多年来,W3C一直积极推进Web技术的发展。

语义网:互联的知识

在Tim最早的Web构想中,Web不仅是一个文本文档的互联网络,也是一个知识的互联网络。这个想法到了1999年演化为语义网(Semantic Web)。语义网技术影响了之后十多年的全球知识互联的努力,2006年演化为互联数据(Linked Data),2012年以后以知识图谱(Knowledge Graph)的名义在工业界被应用。

在1990年的项目申请书中,Tim就把Web描述成一些互联的节点(见图1),每个节点代表一些事物,如人、软件、组织、项目、硬件等等。节点和节点之间可以有各种类型的链接,如父子、处理、依赖、时间顺序等等。信息可以被自由地组织成网络。因为知识就是结构,这种“有类型的链接图”就是语义网及后来知识图谱的原型。

图1 Tim Berners-Lee在项目申请书中对Web思想的描述

1998年,Tim在“Semantic Web Road map”中系统阐述了他对语义网的构想。其核心思想是通过为网页添加机器可读的元数据,让智能机器能理解网页上的内容,从而实现自动化信息处理。这些元数据可以为人工智能提供不可或缺的数据和知识。在该文中,他提出分层实现的技术栈:(1)基础的数据描述层,以资源描述框架(RDF)为语言;(2)模式(schema)层,允许对数据属性进行描述,如“父类子类关系是可传递的”;(3)转化语言,可以在多个数据源之间做相互翻译和映射;(4)逻辑层,表达数据之间更复杂的关系,例如“父亲是有孩子的男性”,也包括查询语言,提供一个类似SQL的语言,把整个Web变成一个分布式的数据库;(5)数字签名,提供信任和验证。这个路线图后来演化为著名的“语义网层次蛋糕”(见图2)。

图2 语义网技术堆栈 常被称为层次蛋糕

1999年,Tim在Weaving the Web第13章中,进一步详细描述了语义网的构想。当机器可以分析Web上的所有数据,我们就可以实现“智能代理”,它们能帮助我们进行日常生活中常规任务的对话和执行,诸如订票、预约、简单交易等等。可以自我描述(self-describing)的数据和文档,将增强Web应用的演化能力,让数据甚至可以为在发布时未知的应用所用。

2001年,Tim和詹姆斯·亨德勒(James Hendler)、奥拉·拉斯莱(Ora Lassila)一起在《科学美国人》杂志发表了经典的论文“The Semantic Web”,让语义网的概念走向大众。在文中,他描述了一种基于语义网的个人智能代理,非常类似大约十年后出现的个人手机助手(如Siri)。

从1998年开始,Tim推动了语义网的标准化,并得到欧美政府的资助。随着RDF模式语言(RDFS),本体语言美国版(DAML),本体语言欧洲版(OIL),本体语言标准(OWL),查询语言(SPARQL),规则语言(RIF)的一一落实,语义网的技术基础模块基本实现。

在执行中,语义网界曾出现了过分看重逻辑而忽视数据的现实可得性、工具的可实用性问题。2006年,Tim提出了“链接数据”(Linked Data)的概念,以推动语义数据的丰富。在随后的几年中,数以百计的RDF数据集被社区开放出来,覆盖了从医学到音乐等生活的方方面面。尤其值得一提的是DBPedia和Freebase数据,在2010年前后对人工智能一些关键项目的突破起到了不可或缺的作用,如IBM Watson和Siri。Freebase后来演化为谷歌知识图谱。到2017年,大多数网页已或多或少包含了语义标签,知识图谱正在快速进入金融、法律、医疗等多个垂直领域。从这个意义上,Tim的语义网的理想已经部分实现了。

在语义网的实践中,Tim极为重视工作的实践可操作性。RDF/XML的语法过于繁复,他就亲自操刀来简化,设计了N3,并最终演化为Turtle,现在已经成为最常用的语法。他和其他人一起开发了语义浏览器Tabulator 、推理机cwm、规则语言AIR语言 。他一步步引导了十几年来的实践,为语义网成为“有意义”的Web,起到了不可替代的作用。

开放,安全和隐私:互联的社会

近年来,Tim开始把注意力转向更大的课题:在Web进入第三个十年之际,如何保障互联网上的开放、安全、信任、隐私,以使社会得以互联?

在“Three challenges for the web”一文中,Tim 谈到几个问题:大公司控制了个人数据但却建立了不能互联的数据孤岛,数据的集中导致了包括政府在内的组织滥用这些数据,虚假信息和政治广告泛滥、误导网民。

他不仅提出了问题,在过去数年中,Tim 也为解决这些问题做了大量的工作。

在数据开放方面,他推动了英国政府和美国政府开放政府数据(Putting Government Data online)。目前,已经有数以百万计的各国政府数据被开放出来,涵盖经济的各个领域,并催生了数以百计的创业公司。此举对于世界经济未来可能具有极大的促进作用。

Tim也在推动包括大公司在内的各种组织开放数据。在2009年TED的演讲“未来的万维网”(The Next Web)中,他提出了“Raw data now!”的口号,互联数据才得以释放数据的最大价值。他多次向脸书(Facebook)等社交媒体呼吁数据开放,并积极参与到分布式社交网络(Distributed Social Network)的研究和开发中,如Crosscloud和Solid系统。更关键的是,Tim提出了数据是基本人权。

Tim是网络中立(Net Neurtality)的坚定捍卫者。他认为,平等和自由的信息获取权是基本人权之一,不应该被互联网服务提供商(ISP)或其他组织以商业理由伤害。他也严厉批评了美国新任总统特朗普在此问题上的立场。在2013年,他发起了平价互联网联盟(Alliance for Affordable Internet, A4AI),致力于提升发展中国家的网络访问速度,让更多的人获得网络接入。

Tim发起和参与了很多隐私保护的研究项目。他提出了信息可追责性(Information Accountability)的概念,并在近十年中在法律、社交媒体、数据库等多种系统中实践。Theory and Practice of Accountable Systems (TPAS)项目致力于建立可追责的数据系统,建立了AIR策略语言。Transparent Accountable Datamining Initiative (TAMI)项目致力于在数据挖掘中保护隐私、提高透明性。Private Information Retrieval (PIR)则致力于在信息检索中进行隐私保护。

2009年,Tim创立了万维网基金会(World Wide Web Foundation),用Web来促进人类社会进步,推动开放、自由、互联。

Tim一直秉持一个理念:“一个群体是否能够发展取决于在人和人之间创造正确的联系”,“如果我们成功, 创造性就将在更大的和更多样化的群体中出现。这些高级思维活动,原来只发生在一个人的头脑中,而现在将出现在更大的、更相互联系的人群中” 。这个梦想一旦实现,Web就可以发展为一种“社会机器”(Social Machine),人类提供灵感和创造,而机器提供推理和日常管理。互联的社会,可能会引导我们走向“全球性大脑”。

以人为本的总设计师

Tim Berners-Lee是一位伟大的思想家。他总是从全人类的角度去思考技术问题。普通的设计师从“用户”的角度思考问题,伟大的设计师从“人”的角度思考,而 Tim 是从“人类”(humanity)的角度去设计。可以毫不夸张地说,Tim是当今人类神经系统的总设计师。他的哲学思考以“设计问题”(Design Issues)的名义发布并指导着Web社区。他的工作,在推动历史的进程。他领先于大多数的工业领袖至少十年在进行布局和推动。他又善于组织和影响,对于学术界和欧美政府的最高层,他都能施加影响,并能一步步地推进和具体实施。

Tim说过,Web从来不仅是技术的发明,而更多的是一种社会的创造。无论是 HTTP 还是网页排名(PageRank),无论是维基还是脸书,人的因素都是主导因素。开放、交流、合作,新一代的 Web 的技术,必然还是要以人的需要、长处、局限、价值为出发点。技术只是一小部分,社会模式的变迁才是最根本的。

在2012年伦敦奥运会开幕式上,Tim打出了“为所有人”(This is for everyone)的口号。允许人自由地以他自己选择的方式发布信息,允许他们自己相互链接,没人需要先请示任何人来添加一个链接,而奇迹会在这互联的过程中产生。一个互联全人类的文档、知识和社会的网络,是人类文明迈向下一步不可缺少的,也是Tim毕生的信念和矢志不渝为之奋斗的目标。

花絮:Tim Berners-Lee的故事

Tim发明Web后写了一篇论文,投到Hypertext会议,被拒绝了。一个评审意见说:系统违背了超文本系统当时被视作基础的构建原则。

Web推广的头两年很艰难。Tim想尽了一切办法,一年下来每天也只有10~100次点击率。1991年他去超文本大会演示Web,但会场连互联网都没有。为了演示,他和罗贝尔想办法从德州大学找到了拨号服务器,但是美国的电压无法运行瑞士产的调制解调器,他们商量了一下,拿焊枪直接修改了调制解调器的电路。

Tim是美国科学院院士、英国皇家学会院士,可很少有人知道,他并没有拿过博士学位。他当年考虑过离开CERN进入学术界,可他并没有时间去读一个博士学位。Tim应该是少有的没有博士学位的院士。当然,后来很多大学授予了他荣誉博士学位。

Tim是英国人,他思考快,语速也非常快,有浓厚英国口音。有一次,有“专利流氓”将Web交互方式申请了专利,Tim不得不去德州一个法院作证,证明早在1993年这种交互方式就已经存在了。法官基本听不懂Tim在说什么。法官说,“你讲的不仅是深奥的技术语言,而且你的英国口音也让我们感到双倍的困难”。不过在证据面前,“专利流氓”还是输了。

作为名人,Tim并没有什么架子,平等待人,处处为他人着想。有一次DIG实验室(分布式信息系统实验室,Tim在MIT的实验室)来了个女本科实习生。Tim路过,问她有没有问题,她说搞不懂Tabulator的代码。Tim就坐下来给她讲代码,仔细找毛病。Tim不懂的问题,也会平等地去请教学生和下属,保持谦虚的态度和不断学习的精神。我曾在Tim Berners-Lee的MIT DIG实验室访问工作(之前也参与了多个RPI和DIG实验室的合作项目,包括TPAS和TAMI;并曾在W3C Web本体语言工作组工作),这期间曾就N3Logic 和OWL的语义与Tim有过很多讨论;虽然很多概念就是他本人提出的,但是对他不懂的逻辑和推理的细节,他依然会很虚心地学习。每逢周二,W3C的工作人员会一起聚餐。Tim只要出现,就会自然地成为交谈的中心,因为他的亲和力,也因为他总是能敏锐地抓住问题的核心。大家都愿意和他聊天,向他请教问题。

Tim也是身体力行的实践者,自称为“实用主义”者。他尽管功成名就,还坚持编程,磨砺自己的工程能力。他习惯于从小事出发去推动。2010年语义网陷入低谷,他就在MIT办“企业家学习班”,亲自向各行各业的人讲语义技术如何能商业落地。这个学习班上就孕育了像Locu这样成功的企业(后来被GoDaddy收购)。

在DIG,大家私下都认为Tim得图灵奖只是时间问题,所以私下打趣他说,“Tim,你只要锻炼好身体就可以了”。Tim当时骑自行车上下班,五十多岁的人,身材保持得非常好,精力充沛,有着年轻人的活力。没想到得到图灵奖的预言这么快就实现了。

Web发源于欧洲,成长于美国。1994年,Tim离开瑞士到美国创建W3C,他说“我必须到互联网的引力中心去”。中国现在是全球互联网发展最快的大区。2013年,设立在北京航空航天大学的W3C办事处成为W3C全球四总部之一。作为中国的互联网人,我们或许应从Tim的哲学和经历中学习,中国会不会、何时会成为互联网的新“引力中心”?如何发扬Tim开放、自由的理想,让中国在下一个十年的Web发展中发挥更大的作用?

参考文献请登录:http://www.ccf.org.cn

作者:

鲍捷

CCF专业会员,本刊编委。北京文因互联科技有限公司创始人、首席执行官,W3C OWL(web本体语言)工作组成员。主要研究方向为机器学习、神经网络、数据挖掘、自然语言处理、形式推理、语义网和本体工程。

baojie@memect.co

更多CCF精彩报道请关注微信公众号


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

发表评论

电子邮件地址不会被公开。 必填项已用*标注