人工智能是由多少数据练成的

作者: 豌豆

人工智能是由多少数据练成的0

人工智能是一个“机器大脑”,是通过不断学习训练出来的。我们不妨用人脑和人工智能做个类比:人脑由很多神经元组成,它们之间互相连接的强度是可变的,而人们正是通过改变神经元之间的连接强度来学习新事物或强化某项技能,比如,画画、写字、钓鱼、打球……而人工智能就是通过模拟人脑学习过程,构建卷积神经网络的。它像人类一样学习观察、总结经验、执行任务,能做到“自学成才”。

那么问题来了,人工智能如何学习?训练人工智能,就像教育小孩,人们一般会使用以下几种办法:

一、监督学习。人类通过给孩子看大量猫和狗的照片,让孩子能够辨认出猫与狗,用类似方式给人工智能“看”信息,并告诉它答案,人工智能“看”了足够多的信息后就能够进行识别工作了,如人脸识别、车牌识别和肿瘤诊断等。

二、无监督学习。人工智能先分析大概内容,再根据观察到的特征,把自己认为相似的东西分成一组。这样,人工智能可以从繁杂的信息中找到隐藏的规律。

三、强化学习。人工智能直接和环境互动,通过环境给出的奖惩来学习,通过一系列动作获得最大的奖励。在互动过程中,人工智能会不断调整自己的行为,对环境变化做出最佳的应对。例如,人工智能在经过多次训练后,能够用“一条命”就通关马里奥游戏。强化学习适用于训练行为,如玩游戏、无人驾驶等。

在实际应用中,这3种方法经常被综合使用,让人工智能学会各种技能。现如今,人工神经网络模型的神经元数量可达千万量级,可以说,当下人工智能的胜利是数据与算力的胜利。但人工智能并非一诞生就是个“大学霸”,你知道不同的人工智能模型是由多少数据练成的吗?

1950年,著名的计算机科学家香农设计了一只内置磁铁和金属丝的机械小鼠,它的任务是穿越迷宫,找到位于终点的奶酪。起初,小鼠花了2分钟,经历反复碰壁和拐弯才跌跌撞撞地摸索到终点,但在第二次穿越同一个迷宫时,它像是有记忆一般,一路顺畅且准确无误地,只花费了12~15秒就抵达终点。

奥秘在于,香农在迷宫底部安装了复杂的继电器系统,这一系统可以在没有外部输入的情况下自行创建、记忆和使用信息,从而指挥机械小鼠按照正确的路径行走。而这,就是世界上最早的人工智能设备之一。与当代进行机器学习所需的庞大训练数据集不同,香农的实验里仅设置了40个数据点,迷宫中有40个插槽,只需把金属板随意放入不同的插槽位置,就可以创造出一条全新的路径。这几乎是机器学习所成功使用过的最小数据集。时间来到20世纪90年代,科学家们开始尝试训练计算机模型来识别图像。MNIST是其中经典的数据集,它诞生于1994年,一共包括7万张数字图像,这些数字都是真人手写的,既有高中生的笔迹,也有政府员工的笔迹——听起来有点夸张是吗?事实上整个数据集的大小只相当于1.14张iPhone15手机拍出的照片。

在2012年的ImageNet大规模视觉识别挑战赛中,一个名叫AlexNet的参赛模型以开创性的方法达到了比亚军整整高出10.8%的准确率,以绝对优势摘得桂冠。这一方法就是深度学习。AlexNet模型一战成名,从此开启了人工智能领域的深度学习浪潮,而它参赛所使用的训练数据集就是由ImageNet平台提供的1281167张图像。这个数据集的大小共计167.62GB,几乎是MNIST数据集大小的1.6万倍。

如果你足够关注人工智能绘画,一定不会忽略Stable Diffusion这一强大的图像生成模型。它的初代版本经过了共计43.1万步的训练,涉及的图像数量高达1.7亿张。如果把这些图片制作成电影,以每秒24帧的速度在我们眼前播放,需要整整1967小时35分钟33秒才能放完。如今Stable Diffusion仍在不断迭代,2024年发布的3.0版本拥有最多80亿个参数。

(哈 克摘自《青年文摘·彩版》2024年第13期,宋晨图)

上一篇 点击页面呼出菜单 下一篇