基于校园网流量日志的学生上网行为分析
作者: 朱晓飞 冯江宁
摘要:随着互联网与教育行业的深度融合,教育大数据应运而生。如何分析利用这些海量数据一直是教育行业研究的重要课题,其中利用校园网流量日志数据对学生行为甚至是心理健康问题进行分析是学校教育管理者关心的问题。文章主要是基于校园网流量日志,以学生的上网日志为研究对象,通过分析学生上网行为的相关属性,如“在线用户数量”“上网终端类别”“网络服务类别”“访问网站类别”“用户流量统计”等分析学生在校园中的学习生活等习惯。通过数据挖掘和流量识别,发现沉迷于网络游戏、互联网赌博,色情信息或网络贷款的学生,辅助学校教育管理者及时发现有问题的学生,防患于未然。
关键词:互联网;校园网流量日志;学生上网行为分析;数据挖掘
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2023)26-0076-03
开放科学(资源服务)标识码(OSID)
0 引言
随着智慧校园建设的推进,校园网成为学校教学、科研、管理等工作必不可少的工具和载体。为了建立与新冠疫情等突发状况相适应的教育教学机制,全国学校纷纷将传统的线下授课模式转变成线上线下融合的混合教育模式,这对学校信息化和智能化提出了挑战。线上授课的弊端是学生缺乏代入感,教师缺乏对学生有效且及时的监督,师生互动性差等,由此造成学生学习效率低下的问题;另一方面,学生长时间处在封闭或者半封闭的环境,加之现实生活中社交娱乐的方式变少,更容易滋生负面情绪,沉迷于网络。通过网络流量分析学生上网行为有助于辅助学校教育管理者做决策。
学生上网行为分析主要通过校园网流量数据采集[1]、流量数据识别[2]、流量检测分析[3]等技术,着重分析可以为学校教育管理决策提供依据的流量数据,如分析校园网资源利用情况,即各类网络应用流量占用校园网总流量的比例,可以辅助学校信息管理部门判断校园网流量资源利用是否合理,甚至可以拦截管控异常流量等。如分析学生经常访问的网站,尤其是不健康的网站,结合上网时长和上网时段等特性,能够预判这些学生存在的问题,对他们进行预警。
洛阳市某学校在宿舍、图书馆、教学楼等校园室内场所同时部署了有线和无线两套网络系统,学生可以自主选择接入网络的方式。本文主要采集了封闭管理环境下,学生一周的上网行为日志数据,分析学生使用校园网的情况。
1 校园网数据挖掘和识别
本文主要以洛阳市某学校校园网出口/认证路由器上2022年11月7日00:00到2022年11月13日24:00(一周)的出入流量数据为数据源,采用基于机器学习和深层包检测技术(DPI) [4]对捕获的流量进行分类识别。对于应用层协议是HTTP或HTTPS的数据包,再基于域名字段完成对学生网页浏览行为的识别。
2 学生上网行为分析
学生上网行为分析[5]是指通过校园网出口设备采集到的网络流量数据,分析流量信息中的有效信息包括:在线用户数量、上网终端类别、网络服务类别、访问网站类型、用户流量统计等,对其结果进行汇总和分析,了解学校校园网的使用情况和学生的上网行为。
2.1 在线用户数量
洛阳市某学校研究期间(一周)在线用户数量统计结果如图1所示。由图1可知,每天的10点到22点是用户数量高峰期,峰值都在1 000人左右;每天凌晨3点到5点是用户数量低谷期,均在550人左右,而总用户数在20 000余人。高峰期网络核心设备CPU使用率为7%左右,加之高峰期上网人数只有总人数的1/20左右,表明校园网运行良好,能满足学校封闭环境下学生上网需求。
2.2 网络终端分类
洛阳市某学校为每个学生分配不同的上网账号,学生账号可同时允许3个终端登录,超过数量限制,后面接入的设备会自动抢占前面设备的资源。研究期间(一周)用户终端使用情况如表1所示。80%左右的学生拥有2个以上终端设备,表明学生上网的形式越来越多种多样;移动终端的数量是PC终端数量的两倍多,表明学生对移动终端,如智能手机的依赖性也越来越高。
2.3 网络服务类型
将网络服务类型分为:下载工具、影音娱乐、HTTP应用、软件更新、网络存储、网络会议、微信、生活服务、其他。其中:下载工具包含迅雷、STUN、风翼、网易云音乐等;影音娱乐包含腾讯视频、优酷土豆、今日头条/抖音、哔哩哔哩等;HTTP应用包含大流量Web访问、网页音频、网页文档下载、HTTP文件上传等;软件更新包含Microsoft更新、IOS update更新、360安全卫士更新、QQ电脑管家更新等;网络存储包含百度网盘、阿里云、OneDrive、腾讯云、google网盘等;网络会议包含腾讯会议、飞书、ZOOM、好视通等;生活服务包含小红书、百度、汽车/二手车之家、奇虎360、百度地图等;其他包含学习教育(超星读书、中国大学MOOC、学习强国等)、QQ、网络电话、购物支付、即时通信等。
如表2和图2所示,学生使用的下载工具类流量共3.1T,其中下载工具TOP1是迅雷,流量占比为58.02%;学生使用的娱乐影音类流量共3.03T,其中视频影音工具TOP1是腾讯视频,流量占比为16.25%;学生使用的HTTP应用类流量共1.28T;学生使用软件更新类流量共1.18T,其中软件更新TOP1是Microsoft更新,流量占比是61.16%;学生使用网络存储类流量共0.48T,其中网络存储TOP1是百度网盘,流量占比是45.15%;学生使用网络会议类流量共0.39T,其中网络会议TOP1是腾讯会议,流量占比是96.80%;学生使用和微信相关的流量共0.34T;学生使用生活服务类流量共0.31T,其中生活服务TOP1是小红书,流量占比是23.53%;学生使用学习教育、QQ等其他类网络服务的流量共3.60T。
将最感兴趣的服务类型娱乐影音进行分析,结果如图3所示。图3表明学生使用校园网流量刷视频的高峰期一般在上午9点到晚上11点之间,并且研究期间(一周)娱乐影音相关峰值流量的上行速率为7.86Mbps,下行速率为116.57Mbps,总速率为124.42Mbps。
2.4 访问网站(URL) 类型
研究期间(一周)不同类型网站访问次数如表3所示。URL类型包括: IT相关、搜索引擎、新闻门户、教学、视频、网上购物、交友聊天、游戏、音乐、旅游、论坛、体育、人才招聘、情色、赌博其他网站等。
我们比较关注学生对游戏类、情色类、网贷类、赌博类网站的访问情况。下面以游戏类网站访问为例。
游戏类网站访问次数趋势图如图4、图5所示。由图4可以看出,游戏类URL的访问量集中在9点到22点之间。游戏类URL总访问次数为3 656 644次,访问人数为1 220人,平均每人访问次数约为292次/人,把访问次数从高到低依次排序,得到中位数为12次/人。大部分学生的生活习惯较好,不沉迷于游戏,且打游戏的时间集中在白天。
由图5可知,沉迷游戏的学生出现了晚上“活跃”、白天“沉寂”的现象,长此以往很有可能影响健康。学校教育管理者要着重关注这些学生的身体健康,鼓励他们多参加户外活动等。对于经常访问情色网站的学生,要重点关注他们的两性健康;对于沉迷于赌博的学生,要引导他们树立正确的价值观;对经常访问网贷相关网站的学生,要切实了解他们生活中的困难,树立正常的消费观,增强防骗意识。
2.5 用户流量统计
研究期间(一周)校园网的用户流量统计图如图6所示。由图6可知,20 000多个用户,共使用流量18.69T,其中上行流量3.62T,下行流量15.07T。将所有用户一周使用的流量由多到少进行排序,发现排名前25的用户,他们一周使用的流量之和占总流量的比重超出了30%。我们可以认为这些学生沉迷于网络,建议这些学生多参加体育锻炼。
3 结论
随着智慧校园的发展,越来越多的学校把教学、管理、科研等工作搬到了线上,校园网带宽压力增大,同时,如何利用校园网流量识别技术分析学生的上网习惯,对于引导学生善于利用网络资源,合理安排上网时间,养成道德自律的良好习惯非常重要[6]。本文主要从在线用户数量、上网终端类别、网络服务类别、访问网站类别、用户流量统计等属性分析洛阳市某学校校园网主干网络压力,对提前评估在线教学带宽需求,做好网络保障预案,获得稳定网络服务,显得至关重要,并通过分析学生经常使用的网络服务类型和经常访问的网站类型,对有不良上网习惯的学生进行预警,为学校教育管理者特殊时期精准管理学生、保障学生身心健康提供思路。
参考文献:
[1] 刘亚凤.基于校园网的数据流量监测与分析研究[D].天津:河北工业大学.2007.
[2] THMOS K,ANDRE B,MICHALIS F,et al.Transport layer identification of P2P traffic[C]//Proc of the 4th ACM SIGCOMM Conference on Internet Measurement,2004:25-27.
[3] 黄河夫.校园网流量监测分析系统设计研究[D].南宁:广西大学,2017.
[4] 任昊哲.基于IPv6校园网的学生上网行为分析系统[D].乌鲁木齐:新疆师范大学,2018.
[5] 李智,黄文明.基于数据挖掘技术的上网行为分析[J].轻工科技,2018,34(7):76-77,86.
[6] 孙实.CNNIC发布青少年上网报告:渗透率近80%[J].青年记者,2015(17):42.
【通联编辑:梁书】