入门必读，写给初学者的人工智能简史

2024年07月27日 18:28:52 来源：鲜枣课堂

　　最近这两年，随着 AIGC 大模型的崛起，整个社会掀起了一股强劲的 AI 浪潮。

　　人们在关注 AI，企业在拥抱 AI，资本在追逐 AI。凡是和 AI 有关的概念，都会吸引大量的目光。

　　那么，AI 是如何一步一步走到今天的呢?它经历了哪些发展阶段，又发生过哪些精彩的故事?

　　今天这篇文章，我们就来仔细回顾一下，人类 AI 的发展历程。

　　█萌芽阶段

　　人类对人造智能体的追求和畅想，最早可以追溯到古希腊时代。

　　在古希腊神话中，火与工匠之神赫菲斯托斯，曾经制作了一组金制的女机器人，“有心能解意，有嘴能说话，有手能使力，精通手工制造”。

　　在中国的古代史籍中，也出现过“人工智能”的影子。

　　《列子・汤问篇》中，偃师向周穆王进献了一个机械人，会唱歌、会跳舞，还会挑逗周穆王的嫔妃。周穆王醋意爆发，认为机械人是真人假扮，要杀掉偃师。偃师赶紧将机械人拆散，周穆公才罢休。

　　上面的这些文字记载，显然都不靠谱。在遥远且漫长的古代，以人类当时的技术水平，肯定是造不出智能体的。能造出一些简单的机械(例如诸葛亮的木牛流马)，都已经很了不起了。

　　人们对智能体的寄望，很多都依托于鬼神等宗教信仰 —— 将人的灵魂附身于机械，才能够实现“人工智能”。

　　到了近现代，随着工业革命的爆发，人类开始逐渐进入机械计算、电气计算时代。计算能力的不断增长，使得通过“算力”来驱动“智能”，成为一种可行选项。

　　17 世纪，莱布尼茨、托马斯・霍布斯和笛卡儿等率先提出：是否可以将人类理性的思考系统，转化为代数学或几何学体系?

　　莱布尼茨认为：“人类的思想，可以简化成某种运算。”

　　霍布斯也提出：“推理就是计算。”

　　这些伟大的思想，为后来的计算机和人工智能发展指明了方向。

　　再后面的事情，大家都比较清楚了 ——

　　在查尔斯・巴贝奇(Charles Babbage)的分析机、赫尔曼・何乐礼(Herman Hollerith)的制表机、阿兰・图灵(Alan Turing)的图灵机，以及 Z3、珍妮机、Mark I、ENIAC 等一系列发明的接力推动下，人类终于进入了数字电子计算机时代，也开启了波澜壮阔的信息技术革命。(不清楚的，看这里：算力简史)

　　█第一次高潮阶段（1950 年-1973 年）

　　图灵测试

　　数字电子计算机正式诞生之后，很快就有科学家开始探索，是否可以通过计算机来实现“智能”。

　　1950 年，阿兰・图灵在《心灵(Mind)》杂志上发表了一篇非常重要的论文，名叫《计算机器与智能(Computing Machinery and Intelligence)》。

　　阿兰・图灵(1912-1954)

　　在论文开头，他就提出了一个灵魂之问：

　　“I propose to consider the question, ‘Can machines think?’"

　　“我提议思考这样一个问题：‘机器可以思考吗?’”

　　图灵在论文中仔细讨论了创造“智能机器”的可能性。由于“智能”一词很难定义，他提出了著名的图灵测试(以下为大致意思)：

　　“一个人在不接触对方的情况下，通过一种特殊的方式和对方进行一系列的问答。如果在相当长时间内，他无法根据这些问题判断对方是人还是计算机，那么，就可以认为这个计算机是智能的。”

　　图灵测试

　　图灵的论文，在学术界引起了广泛的反响。越来越多的学者被这个话题所吸引，参与到对“机器智能”的研究之中。其中，就包括达特茅斯学院的年轻数学助教约翰・麦卡锡(J. McCarthy)，以及哈佛大学的年轻数学和神经学家马文・明斯基(M. L. Minsky)。

　　达特茅斯会议

　　1955 年 9 月，约翰・麦卡锡、马文・明斯基、克劳德・香农(C. E. Shannon)、纳撒尼尔・罗切斯特(N. Rochester)四人，共同提出了一个关于机器智能的研究项目。在项目中，首次引入了“Artificial Intelligence”这个词，也就是人工智能。

　　1956 年 6 月，在刚才那 4 个人的召集下，在洛克菲勒基金会的资助下，十余位来自不同领域的专家，聚集在美国新罕布什尔州汉诺威镇的达特茅斯学院，召开了一场为期将近两月的学术研讨会，专门讨论机器智能。

　　这次研讨会，就是著名的达特茅斯会议(Dartmouth workshop)。

　　参加会议的部分大佬

　　达特茅斯会议并没有得出什么重要的结论或宣言，但是认可了“人工智能(Artificial Intelligence)”的命名，也大致明确了后续的研究方向。

　　这次会议，标志着人工智能作为一个研究领域正式诞生，也被后人视为现代人工智能的起点。

　　AI 三大学派

　　达特茅斯会议之后，人工智能进入了一个快速发展阶段。参与研究的人变得更多了，而且，也逐渐形成了几大学术派系。

　　在这里，我们要提到人工智能最著名的三大学派 —— 符号主义、联结主义(也叫联接主义、连结主义)、行为主义。

　　符号主义是当时最主流的一个学派。

　　他们认为，世界中的实体、概念以及它们之间的关系，都可以用符号来表示。人类思维的基本单元，也是符号。如果计算机能像人脑一样，接收符号输入，对符号进行操作处理，然后产生符号输出，就可以表现出智能。

　　这个思路，关键在于把知识进行编码，形成一个知识库，然后通过推理引擎和规则系统，进行推断，以此解决复杂的问题。

　　符号主义早期的代表性成果，是 1955 年赫伯特・西蒙(Herbert A. Simon，也译为司马贺)和艾伦・纽维尔(Allen Newell)开发的一个名为“逻辑理论家(Logic Theorist)”的程序。

　　“逻辑理论家”被认为是人类历史上第一个人工智能程序，并且在达特茅斯会议上进行了演示。它将每个问题都表示成一个树形模型，然后选择最可能得到正确结论的那条线，来求解问题。

　　1957 年，赫伯特・西蒙等人在“逻辑理论家”的基础上，又推出了通用问题解决器(General Problem Solver，GPS)，也是符号主义的早期代表。

　　进入 1960 年代，符号主义也进入了一个鼎盛时期。在自然语言理解、微世界推理、专家系统(注意这个词，后面会再次提到它)等领域，人工智能取得了突破性的进展，也逐渐成为公众关注的对象。

　　1958 年，约翰・麦卡锡正式发布了自己开发的人工智能编程语言 ——LISP(LIST PROCESSING，意思是 "表处理")。后来的很多知名 AI 程序，都是基于 LISP 开发的。

　　约翰・麦卡锡(1927-2011)

　　1966 年，美国麻省理工学院的魏泽鲍姆(Joseph Weizenbaum)，发布了世界上第一个聊天机器人 ——ELIZA。

　　ELIZA 的名字源于萧伯纳戏剧作品《卖花女》中的主角名。它只有 200 行程序代码和一个有限的对话库，可以针对提问中的关键词，进行答复。

　　ELIZA 其实没有任何智能性可言。它基于规则运作，既不理解对方的内容，也不知道自己在说什么。但即便如此，它还是在当时引起了轰动。ELIZA 可以说是现在 Siri、小爱同学等问答交互工具的鼻祖。

　　魏泽鲍姆(坐者)正在与 ELIZA 对话

　　再来看看联结主义。

　　联结主义，强调模仿人脑的工作原理，建立神经元之间的联结模型，以此实现人工神经运算。

　　大家可能会有点激动。没错，这就是现在非常热门的神经网络模型。

　　神经网络的概念其实诞生得很早。1943 年，美国神经生理学家沃伦・麦卡洛克(Warren McCulloch)和数学家沃尔特・皮茨(Walter Pitts)，基于人类大脑的神经网络，创建了一个形式神经元的计算机模型，并将其取名为 MCP(McCulloch&Pitts)模型。

　　1951 年，马文・明斯基(就是前面提到的那个)和他的同学邓恩・埃德蒙(Dunn Edmund)，建造了第一台神经网络机 SNARC。

　　1957 年，美国康奈尔大学的心理学家和计算机科学家弗兰克・罗森布拉特(Frank Rosenblatt)，在一台 IBM-704 计算机上，模拟实现了一种他发明的叫“感知机 (Perceptron) ”的神经网络模型。

　　弗兰克・罗森布拉特和他的感知机

　　这个“感知器”包括三层结构，一端是 400 个光探测器，模拟视网膜。光探测器多次连接一组 512 个电子触发器。当它通过一个特定的可调节的兴奋阀值时，就会像神经元一样激发。这些触发器连接到最后一层，当一个物体与感知器受训见过的对象相互匹配时，它就会发出信号。

　　感知机的工作原理

　　“感知机”是联结主义的一项重要成果，在人工智能发展史上具有里程碑式的意义。但是，后来的一盆冰水，彻底浇灭了联结主义的热情。

　　1969 年，马文・明斯基和西蒙・派珀特(Seymour Papert)写了一本书《感知机: 计算几何学导论》的书，对罗森布莱特的感知器提出了质疑。马文・明斯基认为：

　　“神经网络具有很大的局限性(单层感知机无法解决线性不可分问题)，没有实际研究价值。”

　　马文・明斯基(1927-2016)

　　来自大神的否定，等于直接宣判了神经网络(联结主义)路线的死刑。于是，这个非常有价值的研究方向，被中止了。

　　罗森布莱特后来死于意外(也有人说是自杀)，马文・明斯基也因为这个错误的判断，被一些学者抨击。(需要注意，马文・明斯基虽然有误判，但他对人工智能事业的功远大于过，甚至也被誉为“人工智能之父”。)

　　等到神经网络(联结主义)重新崛起，已经是十多年后的事情了。我们待会再详细说。

　　最后，说说行为主义。

　　行为主义，也称为进化主义或控制论学派。他们认为，通过与环境的互动来学习和适应，从而改进自身行为，就是行为主义认为的智能。智能取决于感知和行动，不需要知识、表示和推理，只需要将智能行为表现出来就好。

　　简单来说，行为主义 AI 系统基于“感知-动作”的闭环控制，强调即时反馈和适应性学习。智能体通过感知环境信息，基于这些信息执行动作，并根据动作结果调整后续行为。

　　行为主义在后来的机器人学、自动化控制、游戏 AI、自动驾驶汽车等领域有着重要应用。

　　好了，以上是 AI 三大重要学派的介绍，作为学习 AI 的知识铺垫，也有助于阅读后面的文章。

　　请大家注意，AI 的学派和思想路线并不止这三个，还有一些小学派，例如进化计算、模糊逻辑、贝叶斯网络等。它们虽不构成独立的大学派，但在 AI 的某些子领域内有着重要的应用和影响。而且，AI 学派之间，边界也比较模糊，有时候会互相融合。

　　其它重要成果

　　再简单介绍一下当时另外几项重要的研究成果。

　　首先必须是亚瑟・塞缪尔(Arthur Samuel)的跳棋程序。

　　1959 年，IBM 科学家亚瑟・塞缪尔在自家首台商用计算机 IBM701 上，成功编写了一套西洋跳棋程序。这个程序具有“学习能力”，可以通过对大量棋局的分析，逐渐辨识出“好棋”和“坏棋”，从而提高自己的下棋水平。

　　这个程序很快就下赢了萨缪尔自己，后来，它还战胜了当时的西洋跳棋大师罗伯特尼赖。

　　因为首次提出了“机器学习(Machine Learning)”的概念，亚瑟・塞缪尔被后人誉为“机器学习之父”。

　　亚瑟・塞缪尔(1901-1990)

　　1959 年，美国发明家乔治・德沃尔(George Devol)与约瑟夫・英格伯格(Joseph Engelberger)发明了人类首台工业机器人 ——Unimate。

　　Unimate 重达两吨，安装运行于通用汽车生产线。它可以控制一台多自由度的机械臂，搬运和堆叠热压铸金属件。

　　左图为 Unimate

　　右图是约瑟夫・英格伯格(左)、乔治・德沃尔(右)

　　1966 年，查理・罗森(Charlie Rosen)领导的美国斯坦福研究所(SRI)，研发成功了首台人工智能机器人 ——Shakey。

　　Shakey 全面应用了人工智能技术，装备了电子摄像机、三角测距仪、碰撞传感器以及驱动电机，能简单解决感知、运动规划和控制问题。它是第一个通用移动机器人，也被称为“第一个电子人”。

　　研究人员正在调测 Shakey

　　█ 第一次低谷阶段（1974 年-1979 年）

　　刚才说了，1960 年代是符号主义的鼎盛时期。其实，在符号主义的带动下，当时整个人工智能研究都进入了一个高速发展的阶段，也被称为 AI 的黄金时代(Golden Time，1960-1973 年)。

　　那时，除了定理证明、人机互动、游戏博弈和机器人之外，人工智能很多领域都产出了不错的成果。加上冷战时期，美国政府愿意掏钱资助，使得 AI 研究变得异常火爆。

　　在这一背景下，学术界对 AI 的预期，开始变得盲目乐观。有些研究者认为：

　　“二十年内，机器将能完成人能做到的一切工作。”

　　1970 年，马文・明斯基甚至放言：

　　“在未来 3-8 年内，会诞生和人类智慧相当的机器人，可能我们人类会成为 AI 的宠物。”

　　盲目的乐观，肯定不会有什么好结果。

　　随着时间的推移，学者们逐渐发现，基于推理规则的“智能”，实际上能力非常有限。加上当时计算机的算力和存力尚处于早期阶段，系统根本达不到预期的效果。

　　之前介绍的那些 AI 程序和工具，陆续开始出现瓶颈，甚至闹出笑话。

　　以机器翻译为例。当时美国政府投入了 2000 多万美元作为机器翻译的经费，结果相关团队研发多年，发现完全低估了这个项目的难度。

　　翻译工具经常出现一些低级错误。例如，将“Out of sight，out of mind(眼不见，心不烦)”翻译成“又瞎又疯”，把“The spirit is willing but the flesh is weak(心有余而力不足)”翻译成“酒是好的，但肉变质了”，把“Time flies like an arrow(光阴似箭)”翻译成“苍蝇喜欢箭”。

　　接二连三的失败，慢慢耗尽了政府金主的耐心。加上不久后美国经济出现了一些问题(1974-1975 年出现历史上罕见的连续两年 GDP 负增长)，政府开始决定“断粮”。

　　1973 年，数学家莱特希尔(Lighthill)向英国政府提交了一份关于人工智能的研究报告(著名的《莱特希尔报告》)。报告对当时的机器人技术、语言处理技术和图像识别技术进行了严厉且猛烈的批评，指出人工智能那些看上去宏伟的目标根本无法实现，研究已经彻底失败。

　　很快，英国政府、美国国防部高级研究计划局(DARPA)和美国国家科学委员会等，开始大幅削减甚至终止了对人工智能的投资。

　　人工智能进入了第一个发展低谷，也被称为“AI Winter(AI 之冬)”。

　　█ 第二次高潮阶段（1980 年-1987 年）

　　AI 之冬的持续时间其实并不是很久。六年后，1980 年，第二次 AI 发展高潮开始了。

　　第二次浪潮，其实还是符号主义掀起的。这次的主角，是符号主义的一个新阶段 —— 专家系统(Expert System)。

　　专家系统

　　专家系统，就是一个面向专业领域的超级“知识库 + 推理库”。

　　它找来很多人，对大量的专家知识和经验进行整理，分析并编写出海量的规则，导入系统。然后，系统根据这些基于知识整理出来的规则，进行逻辑推理，来模拟和延伸人类专家的决策能力，解决复杂的问题。

　　大家能看出来，专家系统走的仍然是符号主义的“规则”路线。所以，专家系统，也叫做规则基础系统。

　　1968 年，美国科学家爱德华・费根鲍姆(Edward Feigenbaum)提出了第一个专家系统 ——DENDRAL，并对知识库给出了初步的定义。这标志着专家系统的诞生。

　　爱德华・费根鲍姆(坐着的那位)

　　DENDRAL 面向的是化学行业。它可以帮助化学家判断物质的分子结构。系统推出之后，因为能够减少人力成本并且提升工作效率，受到了化学行业的欢迎和认可。

　　和 DENDRAL 差不多时间出现的专家系统，还有威廉・马丁(William A. Martin)开发的 Macsyma，以及安东尼・赫恩(Anthony C. Hearn)开发的“Reduce”。

　　这两套都是数学领域的专家系统(用于求解数学问题)，都采用了约翰・麦卡锡的 LISP 语言进行开发。

　　1972 年，美国医生兼科学家爱德华・H・肖特利夫(Edward H. Shortliffe)创建了可以帮助进行医学诊断的专家系统 ——MYCIN。

　　爱德华・H・肖特利夫

　　MYCIN 也是基于 LISP 语言编写，拥有 500 多条规则，能够识别 51 种病菌，正确地处理 23 种抗菌素。

　　它能够协助医生诊断、治疗细菌感染性血液病，为患者提供最佳处方。当时，它成功地处理了数百个病例，并通过了严格的测试，显示出了较高的医疗水平。

　　1977 年，爱德华・费根鲍姆在第五届国际人工智能联合会议上，提出了“知识工程(Knowledge Engineering)”的概念，进一步推动了专家系统的普及。

　　进入 1980 年代，随着技术的演进，计算机的计算和存储能力增加，专家系统开始在各个行业爆发。

　　1980 年，卡耐基梅隆大学研发的专家系统 XCON(eXpertCONfigurer)正式商用，为当时的计算机巨头公司 DEC 每年省下数千万美金。

　　1983 年，通用电气公司搞出了柴油电力机车维修专家系统(DELTA)。这个系统封装了众多 GE 资深现场服务工程师的知识和经验，能够指导员工进行故障检修和维护。

　　当时，美国运通公司也搞了一个信用卡认证辅助决策专家系统，据说每年可节省 2700 万美金。

　　总而言之，那时候的专家系统，是大公司趋之若鹜的神器。它能够带来实实在在的经济效益，所以，行业用户愿意为之投资。这是第二次 AI 浪潮的根本原因。

　　我们也可以这么说，第一次 AI 浪潮，是政府投资带动的。第二次 AI 浪潮，是企业投资带动。AI，开始进入产业化的阶段。

　　企业投资的成效，反过来又让各国政府对 AI 恢复了一些信心。

　　1981 年，经济高速增长的日本，率先开始对 AI 进行投入。

　　那一年，日本经济产业省拨款 8.5 亿美元，支持第五代计算机项目。这个项目的最终目的，是造出一台人工智能计算机，能够与人对话、翻译语言、解释图像、完成推理。

　　美国和英国政府，也很快采取了行动。

　　1983 年，美国国防部高级研究计划局(DARPA)通过“战略计算促进会(Strategic Computing Initiative)”，重启对人工智能研究的资助。

　　同年，英国投资 3.5 亿英镑，启动了 Alvey(阿尔维)计划，全面推进软件工程、人机接口、智能系统和超大规模集成电路等领域的研发。

　　关于专家系统，还有一个雄心勃勃的项目值得一提。那就是 1984 年启动的 Cyc 项目。

　　Cyc 项目由美国微电子与计算机技术公司发起，是一个“超级百科全书”项目。它试图将人类拥有的所有一般性知识都输入计算机，建立一个巨型数据库。

　　这个项目，据说到现在还在进行之中。

　　█第二次低谷阶段（1987 年-1993 年）

　　好景不长，到了 1980 年代的后半段，人工智能又开始走下坡路了。

　　原因是多方面的。

　　首先，专家系统(符号主义)基于规则和已有知识的“检索 + 推理”，面对复杂的现实世界，显然还是有能力瓶颈。

　　它的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等…… 所有这些问题，都给它的进一步发展造成了困扰。

　　其次，80 年代 PC(个人电脑)技术革命的爆发，也给专家系统造成了冲击。

　　当时专家系统基本上都是用 LISP 语言编写的。系统采用的硬件，是 Symbolics 等厂商生产的人工智能专用计算机(也叫 LISP 机)。

　　LISP 系列主机

　　1987 年，苹果和 IBM 公司生产的台式机，在性能上已经超过了 Symbolics 的 AI 计算机，导致 AI 硬件市场需求土崩瓦解。

　　专家系统的维护和更新也存在很多问题。不仅操作复杂，价格也非常高昂。

　　结合以上种种原因，市场和用户逐渐对专家系统失去了兴趣。

　　到了 80 年代晚期，战略计算促进会大幅削减对 AI 的资助。DARPA 的新任领导也认为 AI 并非“下一个浪潮”，削减了对其的投资。

　　AI，进入了第二次低谷阶段。

　　█第三次高潮阶段（1994 年-现在）

　　在进入 1990 年代之前，小枣君还是要再讲讲 1980 年代。

　　1980 年代，专家系统掀起了第二次 AI 浪潮，也推动了 AI 技术的发展。但从上帝视角来看，真正对后来的 AI 发展产生深远影响的，其实不是专家系统，而是另外一个被遗忘了二十多年的赛道。

　　没错，这个赛道，就是当年被马文・明斯基一句话给干废的“神经网络”赛道。

　　机器学习和神经网络

　　前文我们提到，神经网络是联结主义的一个代表性研究方向。但是，因为马文・明斯基的否定，这个方向在 1969 年被打入冷宫。

　　1980 年，越来越多的科学家意识到专家系统存在不足。符号主义这条路，很可能走不通。人们认为，人工智能想要实现真正的智能，就必须拥有自己的感知系统，能够自主学习。

　　于是，倡导让机器“自动地从数据中学习，并通过训练得到更加精准的预测和决策能力”的研究思想，开始逐渐活跃起来。这就是前面提到过的机器学习。

　　机器学习包含多种方法和理论学派。源于联结主义学派的神经网络，就在这一时期开始“复活”。

　　1982 年，约翰・霍普菲尔德(John Hopfield)在自己的论文中重点介绍了 Hopfield 网络模型(模型原型早期由其他科学家提出)。这是一种具有记忆和优化功能的循环(递归)神经网络。

　　1986 年，戴维・鲁梅尔哈特(David Rumelhart)、杰弗里・辛顿(Geoffrey Hinton，记住这个名字!)和罗纳德・威廉姆斯(Ronald Williams)等人共同发表了一篇名为《Learning representations by back-propagation errors(通过反向传播算法的学习表征)》的论文。

　　在论文中，他们提出了一种适用于多层感知器(MLP)的算法，叫做反向传播算法(Backpropagation，简称 BP 算法)。

　　该算法通过在输入层和输出层之间设定一个中间层(隐藏层)，以反向传播的方式实现机器的自我学习。

　　算法咱们以后再研究。大家只需要记住，BP 算法不仅为多层神经网络的发展奠定了基础，也打破了马文・明斯基当年提出的“神经网络具有局限性”魔咒，意义非常重大。

　　1980 年代是人工智能研究方向发生重大转折的时期。机器学习和神经网络(联结主义)加速崛起，逐渐取代专家系统(符号主义)，成为人工智能的主要研究方向。

　　我们也可以理解为，人工智能原本由知识驱动的方式，逐渐变成了由数据驱动。

　　这张图，先剧透一下

　　机器学习的代表性算法包括决策树、支持向量机、随机森林等。

　　1995 年，克里娜・柯尔特斯(Corinna Cortes)和弗拉基米尔・万普尼克(Vladimir Vapnik)开发了支持向量机(Support Vector Machine，SVM)。支持向量机是一种映射和识别类似数据的系统，可以视为在感知机基础上的改进。

　　神经网络方面，非常重要的 CNN(Convolutional Neural Network，卷积神经网络)和 RNN(Recursive Neural Networks，递归神经网络)，也在那一时期崛起了。

　　1988 年，贝尔实验室的 Yann LeCun(他是法国人，网上翻译的中文名有很多：杨立昆、杨乐春、燕乐存、扬・勒丘恩)等人，提出了卷积神经网络。大家应该比较熟悉，这是一种专门用于处理图像数据的神经网络模型。

　　Yann LeCun

　　1990 年，美国认知科学家、心理语言学家杰弗里・艾尔曼(Jeffrey Elman)提出了首个递归神经网络 —— 艾尔曼网络模型。递归神经网络能够在训练时维持数据本身的先后顺序性质，非常适合于自然语言处理领域的应用。

　　1997 年，德国计算机科学家瑟普・霍克赖特(Sepp Hochreiter)及其导师于尔根・施密德胡伯(Jürgen Schmidhuber)开发了用于递归神经网络的 LSTM(长短期记忆网络)。

　　1998 年，Yann LeCun 等人提出了 LeNet，一个用于手写数字识别的卷积神经网络，初步展示了神经网络在图像识别领域的潜力。

　　总而言之，20 世纪 90 年代，神经网络在开始商用于文字图像识别、语音识别、数据挖掘以及金融预测。在模式识别、信号处理、控制工程等领域，也有尝试应用，尽管当时受到计算资源限制，应用范围和规模有限。

　　想要推动人工智能技术的进一步爆发，既需要算法模型的持续演进，也需要算力的深入增强。此外，还有一个短板，也需要补充，那就是数据。

　　大家应该看出来了，AI 的三要素，就是算法、算力和数据。

　　深蓝

　　1990 年代最重要的 AI 事件，当然是 1997 年 IBM 超级电脑“深蓝(DEEP BLUE)”与国际象棋大师卡斯帕洛夫(KASPAROV)的世纪之战。

　　此前的 1996 年 2 月，深蓝已经向卡斯帕洛夫发起过一次挑战，结果以 2-4 败北。

　　1997 年 5 月 3 日至 11 日，“深蓝”再次挑战卡斯帕罗夫。在经过六盘大战后，最终“深蓝”以 2 胜 1 负 3 平的成绩，险胜卡斯帕罗夫，震惊了世界。

　　这是 AI 发展史上，人工智能首次战胜人类。

　　作为 80 后的小枣君，对这件事情也印象深刻。当时“深蓝”所引起的热潮，丝毫不亚于后来的 ChatGPT。几乎所有的人都在想 —— 人工智能时代是否真的到来了?人工智能，到底会不会取代人类?

　　深度学习

　　进入 21 世纪，得益于计算机算力的进一步飞跃，以及云计算、大数据的爆发，人工智能开始进入一个更加波澜壮阔的发展阶段。

　　2006 年，多伦多大学的杰弗里・辛顿(就是 1986 年发表论文的那个大神)在 science 期刊上，发表了重要的论文《Reducing the dimensionality of data with neural networks(用神经网络降低数据维数)》，提出深度信念网络(Deep Belief Networks，DBNs)。

　　杰弗里・辛顿

　　深度学习(Deeping Learning)，正式诞生了。

　　2006 年被后人称为深度学习元年，杰弗里・辛顿也因此被称为“深度学习之父”。

　　深度学习是机器学习的一个重要分支。更准确来说，机器学习底下有一条“神经网络”路线，而深度学习，是加强版的“神经网络”学习。

　　经典机器学习算法使用的神经网络，具有输入层、一个或两个“隐藏”层和一个输出层。数据需要由人类专家进行结构化或标记(监督学习)，以便算法能够从数据中提取特征。

　　深度学习算法使用“隐藏”层更多(数百个)的深度神经网络。它的能力更强，可以自动从海量的数据集中提取特征，不需要人工干预(无监督学习)。

　　2006 年，在斯坦福任教的华裔科学家李飞飞，意识到了业界在研究 AI 算法的过程中，没有一个强大的图片数据样本库提供支撑。于是，2007 年，她发起创建了 ImageNet 项目，号召民众上传图像并标注图像内容。

　　2009 年，大型图像数据集 ——ImageNet，正式发布。这个数据库包括了 1400 万张图片数据，超过 2 万个类别，为全球 AI 研究(神经网络训练)提供了强大支持。

　　李飞飞和 ImageNet

　　从 2010 年开始，ImageNet 每年举行大规模视觉识别挑战赛，邀请全球开发者和研究机构参加，进行人工智能图像识别算法评比。

　　2012 年，杰弗里・辛顿和他的学生伊利亚・苏茨克沃(Ilya Sutskever)和亚历克斯・克里切夫斯基(Alex Krizhevsky)参加了这个比赛。

　　师徒三人

　　他们设计的深度神经网络模型 AlexNet 在这次竞赛中大获全胜，以压倒性优势获得第一名(将 Top-5 错误率降到了 15.3%，比第二名低 10.8%)，引起了业界轰动，甚至一度被怀疑是作弊。

　　值得一提的是，他们三人用于训练模型的，只是 2 张英伟达 GTX 580 显卡。GPU 在深度神经网络训练上表现出的惊人能力，不仅让他们自己吓了一跳，也让黄仁勋和英伟达公司吓了一跳。

　　作为对比，2012 年的早些时候，谷歌“Google Brain”项目的研究人员吴恩达(华裔美国人，1976 年生于伦敦)、杰夫・迪恩(Jeff Dean)等人，也捣鼓了一个神经网络(10 亿参数)，用来训练对猫的识别。

　　他们的训练数据是来自 youtube 的 1000 万个猫脸图片，用了 1.6 万个 CPU，整整训练了 3 天。

　　吴恩达

　　“深度神经网络 + GPU”的优势，显露无疑。很多人和很多公司的命运，从此改变了。

　　2013 年，辛顿师徒三人共同成立了一家名为 DNNresearch 的公司。后来，这个只有三个人且没有任何产品和计划的公司，被谷歌以几千万美元的价格竞购(百度也跑去买，和谷歌争到最后，没成功)。

　　AlphaGo

　　2013 年-2018 年，谷歌是人工智能领域最活跃的公司。

　　2014 年，谷歌公司收购了专注于深度学习和强化学习技术的人工智能公司 ——DeepMind 公司。

　　2016 年 3 月，DeepMind 开发的人工智能围棋程序 AlphaGo(阿尔法狗)，对战世界围棋冠军、职业九段选手李世石，并以 4:1 的总比分获胜，震惊了全世界。

　　AlphaGo 具有很强的自我学习能力，能够搜集大量围棋对弈数据和名人棋谱，学习并模仿人类下棋。

　　一年后，AlphaGo 的第四代版本 AlphaGoZero 问世。在无任何数据输入的情况下，仅用了 3 天时间自学围棋，就以 100:0 的巨大优势，横扫了第二代版本 AlphaGo。学习 40 天后，AlphaGoZero 又战胜了第三代版本 AlphaGo。

　　当时，全世界都在热议 AlphaGoZero 的强悍自学能力，甚至一度引起了人类的恐慌情绪。

　　谷歌在 AI 圈出尽风头，但他们估计也没有想到，一家在 2015 年悄然成立的公司(确切说，当时是非营利性组织)，会很快取代他们的主角地位。这家公司(组织)，就是如今大红大紫的 OpenAI。

　　OpenAI 的创始人，除了埃隆・马斯克(Elon Musk)之外，还有萨姆・奥尔特曼(Sam Altman)、彼得・泰尔(Peter Thiel)、里德・霍夫曼(Reid Hoffman)。辛顿的那个徒弟，伊利亚・苏茨克沃，也跑去当了研发主管。

　　AIGC

　　深度学习崛起之后，大家应该注意到，都是用于一些判别类的场景，判断猫、狗之类的。那么，深度学习，是否可以创造(生成)一些什么呢?

　　2014 年，蒙特利尔大学博士生伊恩・古德费洛(Ian Goodfellow)，从博弈论中的“二人零和博弈”得到启发，提出了生成对抗网络(GANs，Generative Adversarial Networks)。

　　生成对抗网络用两个神经网络即生成器(Generator)和判别器(Discriminator)进行对抗。在两个神经网络的对抗和自我迭代中，GAN 会逐渐演化出强大的能力。

　　生成对抗网络的出现，对无监督学习、图片生成等领域的研究，起到极大的促进作用，后来也拓展到计算机视觉的各个领域。

　　2017 年 12 月，Google 机器翻译团队在行业顶级会议 NIPS 上，丢下了一颗重磅炸弹。他们发表了一篇里程碑式的论文，名字叫做《Attention is all you need(你所需要的，就是注意力)》。

　　论文提出只使用“自我注意力(Self Attention)”机制来训练自然语言模型，并给这种架构起了个霸气的名字 ——Transformer(转换器、变压器，和“变形金刚”是一个词)。

　　所谓 "自我注意力" 机制，就是只关心输入信息之间的关系，而不再关注输入和对应输出的关系，无需再进行昂贵的人工标注。这是一个革命性的变化。

　　Transformer 的出现，彻底改变了深度学习的发展方向。它不仅对序列到序列任务、机器翻译和其它自然语言处理任务产生了深远的影响，也为后来 AIGC 的崛起打下了坚实的基础。

　　终于，AIGC 的时代，要到来了。

　　2018 年 6 月，年轻的 OpenAI，发布了第一版的 GPT 系列模型 ——GPT-1。同时，他们还发表了论文《Improving Language Understanding by Generative Pre-training(通过生成式预训练改进语言理解)》。

　　GPT，就是 Generative Pre.trained Transfommer 的缩写，生成式预训练变换器。

　　Generative(生成式)，表示该模型能够生成连续的、有逻辑的文本内容，比如完成对话、创作故事、编写代码或者写诗写歌等。

　　Pre.trained(预训练)，表示该模型会先在一个大规模未标注文本语料库上进行训练，学习语言的统计规律和潜在结构。

　　Transfommer，刚才说过了，就是那个很厉害的转换器模型。

　　谷歌紧随其后。2018 年 10 月，他们发布了有 3 亿参数的 BERT(Bidirectional Encoder Representation from Transformers)模型，意思是“来自 Transformers 的双向编码表示”模型。

　　GPT-1 和 BERT 都使用了深度学习和注意力机制，具备较强的自然语言理解能力。两者的区别是，BERT 使用文本的上下文来训练模型。而专注于“文本生成”的 GPT-1，使用的是上文。基于“双向编码”的能力，BERT 的性能在当时明显优异于 GPT-1。

　　谷歌的领先是暂时的。2019 年和 2020 年，OpenAI 接连发布了 GPT-2 和 GPT-3。2022 年 11 月，OpenAI 发布了基于 GPT 模型的人工智能对话应用服务 ——ChatGPT(也可以理解为 GPT-3.5)，彻底引爆了全世界。

　　ChatGPT 结合了人类生成的对话数据进行训练，展现出丰富的世界知识、复杂问题求解能力、多轮对话上下文追踪与建模能力，以及与人类价值观对齐的能力。

　　它在人机对话方面的出色表现，引发了社会的高度关注，在全球范围内掀起了一股 AI 巨浪。

　　后面的事情，大家都比较清楚了。

　　继 ChatGPT 后，OpenAI 又发布了 GPT-4、GPT-4V、GPT-4 Turbo、GPT-4o，形成了如今难以撼动的领导者地位。谷歌虽然也发布号称最强 AI 大模型的 Gemini，但仍然难以在风头上盖过 OpenAI。

　　除了文本生成，生成式 AI 也积极向多模态发展，能够处理图像、音频、视频等多种媒体形式。

　　例如 DALL-E、Stable Diffusion、Midjourney 等图像生成模型，Suno、Jukebox 音乐生成模型，以及 SoRa 视频生成模型。

　　全球面向各个垂直领域的“大模型之战”，仍在硝烟弥漫地进行之中。。。

　　█结语

　　写到这里，这篇洋洋洒洒一万多字的文章，终于要结束了。

　　我总结一下：

　　人工智能起步于 1950 年代，早期主要是符号主义占主流，并引发了第一次(政府投资)和第二次 AI 浪潮(企业投资)。

　　到 1980 年代，符号主义逐渐走弱，机器学习和神经网络开始崛起，成为主流。

　　1994-现在，虽然叫做第三次 AI 浪潮，但也分两个阶段。1994-2006(其实是 1980-2006)，是机器学习、神经网络的早期积累阶段，打基础。

　　2006 年，神经网络进入深度学习阶段，就彻底开始了 AI 的爆发。

　　从 2018 年开始，人工智能逐渐进入了 Transformer 和大模型时代，能力有了巨大的提升，也掀起了 AI 巨浪。

　　如今的人工智能，已经是全世界关注的焦点，也处于一个前所未有的白金发展阶段。

　　随着深度学习、神经网络、生成式 AI 等技术的不断突破，人工智能已经在工业、教育、医疗、金融、交通、娱乐等几乎所有领域实现了落地。人工智能在计算机视觉、自然语言处理、机器人等方面所具备的能力，已经被应用到大量的垂直场景，并产生了可观的经济效益。

　　在人工智能热潮的带动下，软件、半导体、通信等 ICT 产业，都获得了不错的商业机会。围绕人工智能的几家大公司，包括英伟达、微软、苹果、Alphabet(谷歌母公司)、亚马逊、Meta、特斯拉，目前在股票市场被誉为“七巨头”，市值屡破纪录。

　　当然了，这股热潮究竟会走向何方，我们还不得而知。也许，它会继续增长一段时间，甚至长期持续下去，将人类彻底带入智能时代。也许，我们会进入第三次 AI 低谷，泡沫破碎，一地鸡毛，又进入一个新的周期。

　　未来如何，就让时间来告诉我们答案吧。

　　参考文献：

　　1、《人工智能简史》，尼克;

　　2、《人工智能发展简史》孙凌云、孟辰烨、李泽健;

　　3、《人工智能 60 年技术简史》，李理;

　　4、《深度学习简史》，Keith D. Foote;

　　5、《AI 是什么将带我们去哪儿?》，李开复;

　　6、《人工智能的五个定义：哪个最不可取?》，李开复;

　　7、《一文读懂人工智能发展史：从诞生，到实现产业化》，李弯弯;

　　8、《你一定爱读的人工智能简史》，山本一成;

　　9、《AlphaGo 背后：深度学习的胜利》，曹玲;

　　10、《三张图讲述一部 AI 进化史》，产品二姐(知乎);

　　11、《GPT 的背后，从命运多舛到颠覆世界，人工神经网络的跌宕 80 年》，孙睿晨;

　　12、百度百科、维基百科等。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

“强悍小透明”真我Neo7 Turbo正式发布，国补到手1699.15

入门必读，写给初学者的人工智能简史

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

入门必读，写给初学者的人工智能简史

扩展阅读