200字范文 > GAN属于计算机视觉领域嘛_看见AI：人工智能在计算机视觉领域的历史与未来

GAN属于计算机视觉领域嘛_看见AI：人工智能在计算机视觉领域的历史与未来

时间：2023-08-30 14:02:30

，时任《哈佛商业评论》主编的尼古拉斯·卡尔发表了一篇题为《IT不再重要》(IT Doesn’t Matter)的文章，掀起了IT界的一场论战。

不过事实上卡尔的这篇文章并不是在说IT技术真的没用了，恰恰相反，他是说IT技术因为过于重要，在未来会像基础设施一样普及。因为基础设施的普遍性，所以即便某个企业掌握了IT技术，也不再会有什么优势。

尼古拉斯·卡尔

卡尔在文章里是这样说的：

「在短期内，随着新技术的商业化，那些具有前瞻性的企业将会获得竞争优势。但随着新技术可得性的增加，以及成本的不断降低，它们将变成一件普通的商品。从战略角度上来讲，这些新技术将会变得无形，它们将不再重要。」

就拿「电」来说，现在没有一家公司会因为能使用电而具备什么独特优势，也不会围绕着电来打造自己的战略。电固然是一家公司运营不可或缺的东西，但它从战略角度来说，已经不重要了。

AI也是如此。

从工业制造到线下零售、从驾驶到医疗，AI正在以一种前所未有的速度改变和颠覆现有的行业，并且终究有一天会像互联网一样覆盖到各个行业。到那时，AI也会变得像水电气一样，成为现代社会的基础设施，从而变得「不再重要」。

AI是如何从学术界走向商业化，又走入我们生活的？在这篇文章里，我们将会以计算机视觉领域为例，聊一聊AI在这个领域的发展历史与应用，尤其是当下已经发展得比较成熟的卷积神经网络(CNN)。

1.开荒

CNN的渊源，得从一只猫说起。

1959年，两名神经科学家想要通过实验，弄明白大家一直在关心的一个问题：大脑里面的神经元是怎样感知图像的？

这两位神经科学家打算用猫做个实验。

科学界最著名的猫应该要属「薛定谔的猫」了。不过和只存在于思想实验中的薛定谔的猫不同，这两位科学家可是实实在在拿猫做了个实验。

他们先把猫固定在椅子上，强行让猫把眼睛睁开并盯着屏幕，然后将微电极插入插入它的脑袋里。

实验中可怜的小猫

准备工作做好之后，两位科学家开始用投影仪给猫看各种图片，想要观察猫的大脑的哪个位置会对图片产生反应。

但结果让人很失望。他们给猫看了各种图片，但微电极都没有探测到猫大脑里出现信号。他们后来甚至还拿杂志女郎的图片给猫看，但几个月过去了，就是什么结果都没发现。

某次实验中，因为投影仪出现了故障，某张幻灯片被卡住了。就在这时，一个微电极突然感知到了猫大脑某个区域发出的大量电信号，跟视觉有关的神经元似乎对画面出现的东西产生了强烈的反应。

在后来的反复尝试中，这两名科学家终于弄明白，原来投影仪出故障时，会在屏幕上投射出一条黑色阴影线条，这让猫大脑里某些跟视觉有关的神经元有了反应。

神经元能感知的，其实是一些特殊的形状。

随着后来的研究，两名科学家开始逐渐了解到：不管眼睛看到了什么东西，当这些图像进入到视觉皮质的时候，神经元都会将它们拆分成一系列形状的组合。然后大脑再把这些被拆分的形状，拼凑成一个完整的图像。

这两名科学家，大卫·休伯尔(David Hunter Hubel)和托斯坦·威泽尔(Torsten Nils Wiesel)，因为对视觉系统中视觉信息处理研究的贡献，共同获得了1981年的诺贝尔生理学或医学奖。

休伯尔和威泽尔的研究不仅让人们开始理解了大脑的视觉机制，也给后来CNN的诞生带来了启发。

大卫·休伯尔与托斯坦·威泽尔

2.厚积

但想要在计算机上处理图片，光理解人的视觉机制还不够，我们还需要让计算机能「读懂」图片。

1959年，拉塞尔·科尔基(Russell Kirsch)和他的团队开发出了世界上第一台数字图像扫描仪。通过这个扫描仪，图片可以被转换成计算机可以理解的二进制数字。也因为有了他们的研究成果，后来人们才能够开始用各种方式处理数字图像。

首批被数字扫描的图片之一，这是当时科尔基三个月大的孩子

除了让计算机看到图片以外，我们还需要让计算机理解图像中出现的物体。

这正是劳伦斯•罗伯茨的贡献。在他1963年发表的博士论文《机器对三维物体的感知》里，他描述了一种可以从二维图片中提取三维物体信息的方法。

罗伯茨的思路是，先将二维图像处理成线条形式，然后通过这些线条构建出三维结构。罗伯茨的研究给后来计算机辅助三维视觉系统打下了很好的基础，他也被普遍认为是计算机视觉领域的先驱之一。

劳伦斯•罗伯茨所描述的方法

到了1960年代，人工智能开始成为一门正式的学科。当时学术界的乐观派认为，只需要不到25年的时间，AI就有可能超过人类。

也就是在那时，MIT人工智能实验室的西摩尔·派普特(Seymour Papert)启动了名为「Summer Vision Project」的项目，想要在几个月的时间内解决计算机视觉问题。

他招募了MIT的一组学生，想要在暑假期间开发出一套系统，能够集成计算机视觉中的重要功能模块，包括自动分隔前景与背景，自动提取分隔图片中的物体等。

虽然这个项目最终并没有成功，但它却代表着计算机视觉(CV)已经成为了一门正式的科学学科。

西摩尔·派普特

1980年，日本计算机科学家福岛邦彦受到我们前面所提到的休伯尔和威泽尔的研究的启发，提出了「神经认知机」(Neocognitron)这种神经网络结构。

福岛邦彦的神经认知机是第一个配得上「深度」称号的神经网络，它也是CNN算法最初的原型。

福岛邦彦

到了1989年，法国计算机科学家杨立昆(Yann LeCun)将反向传播应用在了神经认知机结构当中，并在几年之后提出了LeNet-5这一算法结构。时至今日，我们使用的CNN算法，其基本结构仍与LeNet-5相同。杨立昆也被誉为是CNN之父。

CNN之父Yann LeCun

CNN算法通过模拟人的视觉系统机制，能在每层结构中提取图片特征，并传播到下一层。它和我们前面提到的人的视觉机制一样，都是先提取出图片的简单形状特征，然后逐渐检测更高级的特征。

比如拿人脸识别来说，在最开始，这些扫描器会提取出人脸上的一些边缘，乍一看你很难认出这些到底是人脸的什么部位。

再往下面一层，扫描器就能够提取出人脸上像眼睛，耳朵，鼻子这样的器官特征；到再下一层，扫描器就能够提取出人脸的整体特征了。

不同层的特征检测

CNN的典型结构

3.爆发

CNN算法被提出是在1989年，但真正被人们所了解却是在20多年之后。

，一个名为AlexNet的CNN算法以绝对优势赢得了学术界内知名的ImageNet图片分类比赛。一年之后，所有参加ImangeNet比赛的算法团队全部使用CNN，它成为了业内必用的利器。

为什么CNN时隔这么久才开始大放异彩？这还得从AI的三大核心要素，数据，算法，计算能力说起。

人工智能的三大支柱：数据，算法，计算能力

算法虽然很早就被研究人员提出来了，但因为在当时训练的数据还不够，并且当时计算机的运算能力相对还较弱，因此在实践中还是很难应用。

而在现在这个互联网时代，每天都有大量的数据产生，同时包括像斯坦福教授李飞飞建立的图像数据库ImageNet也让数据的获取变得更加容易。另一方面，图形处理器的应用将深度学习的计算速度提高了上百倍，这让计算更多层数的神经网络成为了可能。

数据，算法，计算能力，当这三块拼图都凑齐之后，深度学习也就自然迎来了属于它的时代。

ImageNet图片数据库的一类

目前，CNN在计算机视觉领域的运用非常广泛，包括图像分类，物体检测，图像分割，自动图像描述，风格化图像生成等等。

物体检测

自动图像描述

结合生成对抗神经网络(GAN)的图片风格转换

许多商业领域也已经开始在广泛使用CNN了。

比如在保险业，保险公司就在根据现场图像直接评估损失，并且通过分析卫星图像，预测未来一段时间可能存在的某些风险因素。

在自动驾驶领域，CNN可以用于检测汽车周围环境，识别行人，标志牌，障碍物等等。

在工业领域，CNN可以很好地侦测生产线上存在的问题产品或零件，其准确率比人工高很多。显卡制造商Nvidia现在在用计算机视觉系统，保证生产线上的芯片都能被正确安装。

计算机视觉在工业领域的应用

在医疗领域，CNN被广泛应用于医学图像检测上。例如谷歌去年开发出的医学诊断人工智能系统，判断乳腺癌的准确率就高达92.4%。在其他类型的癌症检测上，CNN也发挥得非常出色。

乳腺癌的检测

而根据1月《Nature》上的一篇论文，已经有研究者使用CNN来识别遗传疾病的面部显性，其准确率达到了91%。CNN未来在遗传学研究，基因检测等领域还会有很大的施展空间。

使用CNN来识别遗传疾病的面部显性

在零售业，CNN也为“新零售”的浪潮赋能。亚马逊的无人商店Amazon GO、微信的无人餐厅都让消费者可以无需排队结账，拿了想买的商品即可离开。其背后的原理，就是利用CNN在内的一系列算法，识别消费者拿走的商品，并通过其关联账号直接扣款。

4.展望

AI，机器学习，深度学习的包含关系与发展历史

正如我们开头所说，AI将会在未来变得越来越「不重要」，换句话说，也就是越来越普及。

这个普及主要体现在两点。一是现在大量的开源框架，极大地降低了深度学习的学习门槛。

例如谷歌的开源机器学习库Tensorflow，就很大程度上简化了深度学习的学习难度，即便你不了解深度学习中的底层数学原理，你也可以用几行代码直接调用Tensorflow中内置的库。

第二点是计算能力的普及。在过去，一般计算机很难满足深度学习需要的计算能力，但随着计算机硬件(如英伟达的GPU)性能越来越强大，让算力的成本也越来越低；另一方面云计算的普及也让用户可以直接按需调用云端高性能的算力来做运算，不再需要自己购买相应的硬件设备，很大程上降低了用户的门槛。

这种普及程度还会越来越高。

AI在未来会像计算机一样，成为每一个人都可以掌握并使用的工具。

——

但我们还缺少一个关键的东西：数据。

算法是开源的，计算能力是可以云端共享的，但数据却不是任何人都可以得到的。

现如今，几乎每一个人的数据都被掌握在互联网巨头手中，手握海量数据的企业，能在AI时代建立起比互联网时代更强的垄断地位。

巨头得以利用他们所掌握的海量算力资源、数据、优秀人才，纷纷打造自有AI生态。为了打造各自的生态，巨头已经把AI服务化，提供AI-as-a-Service的工具给开发者，邀请更多的开发者进入其生态。

例如谷歌给用户提供了可以自主定制的搜索工具，微软和亚马逊则给用户提供了具有良好设计的语音识别系统界面，方便开发者使用。

而对于初创企业来说，它们固然可以通过招募优秀的人才来提高自身的技术能力，但数据的缺失、算力资源的不对等，让它们通常只能成为现有巨头的生态玩家。

或者，初创公司可以想办法抢占那些巨头不愿意涉及的「小」市场。例如帮助某一行业的公司整理数据，建立解决问题的垂直模型等等。只有这样，它们才能够从市场夹缝中不断生长，并最终在AI市场中分得一杯羹。

——

在《经济学人》的一篇特别报道里，AI被视作是古罗马的双面神(Janus)，这个神长着两张脸，分别朝着不同的方向。

古罗马的双面神

AI也是如此。它能提高公司的生产效率，改进服务和产品质量，也能给用户提供更便捷的交通，更快的物流，更合适的商品推荐。

但是它的另一面，也潜藏着巨大的风险。

将用户数据交给AI学习固然能够让公司为用户提供更好的个性化服务，但这当中的尺度与边界依然是人们争论不休的话题。

此外，当下人们一直在诟病互联网巨头对行业的垄断，然而在AI时代，技术与数据的加持，只会让这些巨头更具有垄断地位。例如亚马逊当前占了美国线上商业40%的份额，再加上AI的助力，亚马逊未来将会建立起牢不可破的护城河。

正如古罗马的双面神同时蕴含着结束与开端，AI也同样象征着传统的终结与新纪元的开始，它带着毁灭与希望，终将征服这个世界。

让我们拭目以待。

参考资料：

NicholasG. Carr, IT Doesn’t Matter

Kate Fehlhaber, Hubel and Wiesel & the Neural Basis of Visual Perception

Rostyslav Demush, A Brief History of Computer Vision (and Convolutional Neural Networks)

AlexNet– ImageNet Classification with Deep Convolutional Neural Networks

The Economist, GrAIt expectations

上期文章：重拾王冠：没落公司如何才能重新崛起

长按图片一键关注

初心资本成立于年，是一家以科技升级及消费升级为中心积极布局新兴业态的早期基金，成立至今已经完成对 50 余家初创企业的投资，投资方向主要涵盖企业服务、科技升级、消费升级、教育和出海等领域，其中包括互联网品质家装平台美窝、新型分布式数据库 PingCAP、视觉 PaaS 平台极视角、人工智能客服系统乐言、互联网互助保障社群水滴互助、工业机器人翼菲自动化、可多人实时协作的云端Office石墨、数据中台滴普科技、社区电商家怡购、移动手术平台名医主刀、移动交友平台一周CP、少儿编程平台西瓜创客、企业数据和金融工作系统服务商企名片等。

我们关注创业的初心，希望在陪伴创业者实现初心的过程中，等待下一个指数级增长公司、下一位新生代的商业领袖，在资本的驱动下，让我们的生活方式变得更美好。

推荐阅读

初心年会 | 流光溢彩我们的时代

初心行研 | 外骨骼机器人离我们有多远

初心年会 | 消费升级的真相与表象

初心年会 | 新的大航海时代下的机遇与挑战

初心年会 | 新内容+新技术畅想未来教育

初心行研|数学思维：新内容+新技术赋予数学新的生机

初心行研|出海：一个绝对早期，5年级别的广阔赛道

初心行研｜“少儿编程”不只是新奥数，而是新英语

初心行研｜得到、知乎和喜马拉雅抢占风口，知识付费还有什么机会？(上)

初心行研｜得到、知乎和喜马拉雅抢占风口，知识付费还有什么机会？(下)