基于ModelArts云平台的计算机视觉实验教学探索

作者: 刘思宇 李嘉乐 赵家栋 李子晗

基于ModelArts云平台的计算机视觉实验教学探索0

摘要:计算机视觉是人工智能领域中一个重要研究方向,目前计算机视觉的本科课程中实践资源并不丰富且较为零散,针对这一问题文章基于华为ModelArts云平、Mindspore深度学习框架和华为Atlas开发者组件、给出一个多角度的、由浅入深的实验教学方案。方案包含了物体识别、图像分割、行为识别和目标检测四个实验方向,并以物体识别方向实验进行简要介绍,通过复现计算机视觉领域经典算法和创新运用场景培养学生独立开发计算机视觉案例的能力。

关键词:云平台;计算机视觉;实验教学

中图分类号:G642        文献标识码:A

文章编号:1009-3044(2022)24-0029-02

随着互联网、云计算、大数据等技术的飞速发展,人工智能技术在赋能工业体系,加速经济发展等方面发挥着重要作用,相关领域人才缺口巨大。为此教育部于2019年遴选出35所高校开设首批人工智能本科专业[1]。

计算机视觉作为当今人工智能最火热的研究方向之一且与工业界联系紧密,是人工智能专业的必修课。计算机视觉课程难度较大,且当前的计算机视觉课程中,老师常常是对照书本进行理论与案例讲解,这样的教学方式缺乏互动性,学生也无法体会知识在实际场景中的应用从而导致学生上课积极性不高,教学效果不理想[2]。部分高校针对这一问题提出了安排课外实操环节,提高动手能力的课程教学改革措施,但并未给出详细的实验教学方案与实验案例[3];实验教学平台是实验教学中极其重要的一部分,而计算机视觉课程的实验教学平台难以搭建[4]。其原因在于深度学习环境对计算机硬件要求高,实验环境搭建复杂,需要高性能服务器的支持,大部分学校的普通机房硬件设施难以满足GPU并行运算要求,针对这一问题靳华中和叶志伟提出搭建基于云端架构的实验教学平台[5],但是搭建这样一套实验教学平台需要投入大量的人力与财力,很多学校可能无法搭建并维护这样一个实验教学平台;目前深度学习框架多种多样,如Pytorch、Tensorflow等,编程环境有Matlab、Python等。这些深度学习框架与编程环境大多由国外公司开发,学生需要花费大量时间熟悉实验环境,且由于相关的中文资源较少,学生遇到问题时也难以解决[6、7]。

通过实践课程可以帮助学生更好地理解理论知识、发现问题并解决问题,从而更好地掌握该门课程。针对上述提到的问题,本文基于华为ModelArts云平台[6]、Mindspore深度学习框架和华为Atlas开发者组件给出一个可行的、易学习的系统性实验教学方案。该实验方案包含多个基于华为Mindspore框架实现的计算机视觉实验案例,且其使用的实验教学平台为华为推出的ModelArts云平台,大大降低了学校搭建实验平台的成本,同时也减少了教师与学生熟悉开发环境所需的时间。

1 实验教学方案

1.1 ModelArts云平台介绍

华为ModelArts云平台是华为推出的一站式AI开发平台,其包含数据准备、算法开发、模型训练和模型部署等AI开发全流程。ModelArts云平台具有易上手、高性能和灵活性高的特点,能帮助学生更好地完成计算机视觉案例的开发。华为ModelArts云平台提供多种预置的数据集和算法,借此初学者可以快速熟悉AI案例的开发全流程。此外ModelArts也支持多种深度学习框架和Notebook开发。

1.2 实验内容

计算机视觉课程的教学目标是使学生掌握图像的处理和计算机视觉的理论知识并具备一定的相关开发能力。实验分为物体识别、图像分割、风格迁移、行为识别、图像分类五个方向,学生可以在实验过程中加深对卷积神经网络的理解,并在动手实践中掌握图像和视频的处理方法;同时也锻炼学生独立开发完整项目和独立解决问题的能力。实验方案如表1所示。下面对其中的四个实验进行简单概述。

(1) 基于AlexNet实现CIFAR-10图片分类

此案例是实验的第一个案例,旨在让学生能够快速了解计算机视觉案例开发的完整流程。本实验要求学生本案例基于ModelArts云平台中预置的AlexNet算法和CIFAR-10数据集,并完成识别分类任务。学生可通过图形化界面的方式创建训练任务、选择数据集和算法,最终完成训练并部署上线,从而熟悉计算机视觉案例开发的完整流程。

(2) 基于PSPNet街景图像语义分割

图像语义分割应用于包括自动驾驶汽车、人机交互、虚拟现实等场景中,近年来随着深度学习的普及,在许多语义分割问题上深层卷积神经网络来在精度上超过了传统方法。在本实验中,学生可以从ModelArts云平台下载街景图像语义分割数据集,创建训练作业,使用Mindspore框架搭建PSPNet并完成训练。通过实验可以加深学生对深度神经网络的理解,并锻炼学生的开发能力。

(3) 基于C3D网络实现视频动作识别

计算机视觉所要处理的对象不仅仅是以图片形式出现,还有视频形式。本实验就是要锻炼学生对视频数据的处理能力。UCF-101数据集包含Youtube视频中的101种不同的动作类别。学生需要借助华为云平台中预置的UCF-101数据集,搭建C3D网络结构,对视频数据集中的视频的动作进行识别并给出动作的类别。了解该模型有助于学生理解视频中蕴含的时序特征信息,理清视频信息与图片处理思路的区别,培养全面的计算机视觉能力。

(4) 基于DCGAN的人脸图像生成

生成对抗网络由一个生成网络与一个判别网络组成,并通过让两个神经网络相互博弈的方式进行学习。DCGAN是深层卷积网络与GAN的结合,其基本原理与GAN相同,只是将生成网络和判别网络用两个卷积网络替代。本案例借助于ModelArts云平台中预置的Celeb-A Face数据集和DCGAN算法实现人脸图像的生成,学生可以通过该实验了解图像生成任务的以及对应的解决方案。

2 AlexNet网络实现图片分类实验案例设计

由于篇幅有限,此处以基于AlexNet实现CIFAR-10图片分类实验为例介绍实验的具体设计。

2.1 实验目的

(1) 掌握借助深度学习框架进行计算机视觉案例开发;

(2) 理解AlexNet网络中各层的作用,和各参数改变对结果的影响;

(3) 熟悉计算机视觉案例开发的完整流程;

(4) 熟悉利用ModelArts平台的开发流程。

2.2 实验原理

AlexNet网络的网络架构包含5个卷积层、2个局部归一化层、3个池化层和3个全连接层[8]。AlexNet网络中有几种创新的方法使其准确率能高于其他神经网络:

(1) 使用ReLU非线性激活函数。该激活函数相较常用的tanh()激活函数,在梯度下降时下降得更快从而大大缩短了训练时间。

(2) 使用局部归一化层。该方法对局部神经元创建竞争机制,使得竞争能力更强的神经元输出值更大,并抑制反馈较小的神经元,从而增强了模型的泛化能力。

(3) 使用Dropout的方法减少网络模型的过拟合现象。Dropout方法可以让神经元有一定概率输出为0,通过该方法不仅可以减少网络的过拟合现象,也可以减少训练成本。

(4) AlexNet网络还使用了最大池化层、多GPU加速训练方法和数据增强的方法,这个方法可以帮助AlexNet网络达到更高的准确率,此处不做更详细的介绍。

2.3 实验过程

(1) 课前准备阶段,学生首先需要预习AlexNet的网络结构,然后从官网下载数据集CIFAR-10并查看数据集内容。本实验使用的是开源数据集CIFAR-10,CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。学生可以使用matplotlib尝试读取并显示图片内容和标签。

(2) 课上阶段,首先由教师解答学生在课前学习AlexNet网络时产生的疑惑,并演示Model Arts平台的使用方法,包括代码上传、数据集上传以及网络训练等。讲解完毕后,教师可以向学生下发需要填补关键步骤的代码。学生补全空缺代码后,可以选择借助Model Arts平台进行训练与结果查看或将结果下载至本地查看。学生需要补全的空缺代码包含数据处理、网络结构的搭建和参数更新等部分。通过这样的方式,学生可以加深在理论课程中所学习到的知识。图1为实验结果展示。

(3) 课后作业阶段,学生需要修改代码中设置的超参,并探究其对结果的影响。学生可以通过对比修改不同参数后的结果,理解不同的参数的作用,并尽量调优使得结果准确率更高。

(4) 实验验收阶段,学生需要提交记录实验过程和最优结果的实验报告以及完成超参数调优后的代码。教师可根据实验完成度、结果准确率等因素综合打分。

3 结束语

本课程可以弥补计算机视觉教学实验领域的空缺,让学生可以在由易到难的实验过程中多角度、渐进式、由浅入深地掌握计算机视觉领域的基础工程方法。计算机视觉是一门实践性很强的科学,只有真正动手实践、熟悉开发流程才能将理论知识融会贯通,指导工程的开发。因此,今后的计算机视觉的实验教学领域仍需要广大师生创新改进,不断迭代完善,为人工智能人才培养提供更好的平台和方案。

参考文献:

[1] 樊超,杨铁军,侯慧芳,等.“新工科”背景下人工智能专业核心实验教学项目设计[J].实验技术与管理,2021,38(8):183-189.

[2] 张宇.新工科背景下对人工智能专业课程体系建设的思考[J].教育探索,2020(6):58-61.

[3] 韩光,刘佶鑫,孙宁,等.图像分析与机器视觉课程的教学探析[J].科技风,2021(31):97-99.

[4] 高娟娟,渠中豪,宋亚青.机器视觉技术研究和应用现状及发展趋势[J].中国传媒科技,2020(7):21-22.

[5] 靳华中,叶志伟.机器视觉实验平台建设与教学实践[J].计算机教育,2021(11):62-66.

[6] 马志寅.基于树莓派和Modelarts平台智能分类垃圾桶的设计及应用[J].科技创新与生产力,2021(10):113-114.

[7] 刘宇雷,佘明.“新工科”背景下高校实验教学体系建设探索[J].实验技术与管理,2019,36(11):19-21,32.

[8] Zhao H S,Shi J P,Qi X J,et al.Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,HI,USA.IEEE,:6230-6239.

【通联编辑:王力】

上一篇 点击页面呼出菜单 下一篇