一套基于数据挖掘技术的网络舆情预警系统开发研究

作者: 唐雨霞 左尚扬 易业曦 付晓姣 杨若琛

一套基于数据挖掘技术的网络舆情预警系统开发研究0

关键词:数据挖掘;网络舆情;舆情预警;数据爬虫;文本分析

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2024)21-0067-04

0 引言

随着信息技术的高速发展,网民数量剧增、网络空间日益活跃,越来越多的网民在网络平台上获取最新资讯、表达个人观点、互动沟通交流。根据2024年3月22日中国互联网络信息中心(CNNIC) 发布的第53 次《中国互联网络发展状况统计报告》显示[1],截至2023年12月,我国网民规模达10.92亿人,较2022年12月新增网民2 480万人,互联网普及率达77.5%。这一系列数据不仅展示了我国社会经济快速发展的面貌,也一定程度地体现了网络舆情管理的复杂性。

网络舆情是公众舆论在网络空间的映射[2],其影响力和不确定性需要高度关注。一方面,网络舆情可以真实地反映民众的内心诉求和当下的热点问题,为政府决策提供民意基础;另一方面,虚伪捏造的信息亦可能通过网络迅速扩散,引发恶性舆论事件,甚至影响社会稳定。因此,建立有效的网络舆情预警系统,对于防范和处理网络危机具有重要的现实意义。数据挖掘技术作为一种能从海量数据中提取特定有效信息的技术手段,近年来在各数据分析领域得到了广泛应用。另一方面,结合机器学习、模式识别等方法,可以从大量数据中发现潜在的变化特性,预测可能的风险点,从而为决策者提供科学的预警信息。

针对网络舆情数据分析、处理和预警领域,国内外研究者均有一定的研究。2020年,田钟林基于大数据和领域语义关系图,设计包含词汇语义计算、舆情预警级别分析等网络舆情预警模型,能有效地对多源网络数据文本数据进行多层次舆情分析并分级预警[3]。2021年,邝楚文通过分析大数据和校园网络舆情之间的联系,基于B/S系统架构,利用数据挖掘技术构建校园网络舆情信息分析框架和舆情监测系统实现对校园网络信息的监控[4]。2021年,郑秀月以BP神经网络算法为基础,对各类网络舆情时间进行分级和定量的评估,构造具有针对性的网络舆情预警指标体系[5]。2022年,马晓晗等构建多层级网络舆情预警模型,利用动态贝叶斯原理有效地辅助分析舆情发展要素和量化舆情数据[6]。2023年,林贺通过对从网站上收集到的舆情信息归一化处理,建立信息库比对,确定网络舆情预警等级和预警,从而实现基于大数据技术的网络舆情的精准预警[7]。

然而,尽管数据挖掘在网络舆情预警中显示出巨大潜力,但目前该领域仍面临诸多挑战。首先,网络数据的海量性和异构性要求预警系统具备高效及全方面的数据治理能力[8];其次,网络言论的多样性和复杂性在一定程度上增加了数据挖掘和文本分析的难度;最后,网络舆情的不确定性极其容易影响预警模型的准确性。

因此,此研究将探讨如何构建一套基于数据挖掘技术的网络舆情预警系统,并围绕如何从庞大的网络中获取与舆情相关的信息数据、如何对获取的数据进行挖掘与分析和如何构建一套功能较为完备、普适性较强的预警系统这三个核心问题展开。通过对上述问题的深入分析,期望此网络舆情预警系统可成为维护网络空间秩序、促进社会和谐稳定的有力工具,同时可为政府和社会组织提供一些决策支持。

1 舆情数据的采集

舆情数据的采集是构建网络舆情预警系统的重要组成部分,可采用数据爬虫、调用API接口获取等方式,以实现对不同来源、不同形式的舆情数据的收集。

1.1 数据爬虫

数据爬虫,也称作网络爬虫,是一个专门设计的可从互联网各类开放的信息门户中抓取数据的软件程序框架。在大数据时代背景下,数据爬虫具有较高的使用价值,可以从各类社交媒体平台、自媒体平台、新闻平台、公开数据库等站点提取所需数据[9]。一般的数据爬虫流程如图1所示,数据爬取的过程可以划分为以下三个主要步骤:

1) 获取数据:爬虫程序需要输入一个指定的目标站点URL地址,通过模拟浏览网页时常用的HTTP请求(如GET或POST请求),由爬虫程序自动加载网页内容,并回调的原始内容数据初步存储于程序内存中。

2) 处理数据:初步获取的一般为最原始的、难以直接阅读和理解的网页内容,如HTML、XML或其他标记语言的格式内容,需要对此内容进行处理和提取,以抽取有效的信息。有效信息包括文字图片,视频等多种元素,被提取后通过过滤、去重、去噪等操作,最终会转换成标准且高质量结构化的格式,例如CSV、JSON等格式,以方便后续的使用和进一步分析。

3) 存储数据:经过处理和整合后的爬虫数据需要入库保存至本地,一般根据数据的量级来区分存储类型。轻量级的一般会保存在本地的文件系统或是轻量级数据库。如涉及的数据量较大,一般会使用关系型数据库、云数据库等服务进行存储。

数据爬取过程是一个循环迭代的过程,从获取数据开始,到处理数据和存储数据,每一步均建立在上一步的结果之上。而在网络舆情数据爬虫实际操作中,可能还需要应对各种困难和挑战,如网站反爬虫机制、多重登录认证、会话校验等。因此,针对网络舆情数据设计和实现一个普适、高效且符合法规的数据爬虫系统是一项需要综合考虑技术和伦理因素的任务。

1.2 API 接口获取

在当今信息爆炸的时代,单一的数据爬虫技术可能无法满足所有数据采集的需求,尤其是当涉及网络舆情这一特定领域或其他实时性要求较高的数据场景时,该技术存在一定的局限性。因此除了利用数据爬虫技术外,还需要配合各大信息开放门户的API(Application  Programming Interface) 接口功能来获取更多的舆情数据,从而保证数据的完整性[10]。

第三方API接口是各大门户网站、各大数据库运营商等专业机构提供的数据调用、传输和共享的标准服务工具。API接口在设计之初已规定好标准的调用和返回流程,通过标准化的请求来获取指定的回传数据,提供了安全和便捷地获取公开信息的手段。使用第三方API 接口时,通常需要建立统一的数据库系统,以便高效地管理和使用接口数据,系统主要功能需求包括对数据的检索、分析和可视化等。

综上,通过整合数据爬虫和第三方API接口两种数据采集方式,能更高效地采集和预处理海量数据。建立标准的舆情数据库,构建尽量真实的网络舆情数据模型,为后续数据的分析和网络舆情预警系统的搭建提供坚实的基础。

2 舆情数据的挖掘与分析

在采集到舆情数据后,需要对舆情数据进行挖掘分析。舆情数据的挖掘与分析是网络预警系统的核心部分,本系统采用数据挖掘和文本分析技术,对采集的舆情数据进行深入挖掘与分析,如图2所示。

2.1 数据挖掘

数据挖掘是网络舆情分析的重要步骤,其主要目的是从已采集的网络舆情数据中提取符合需求的有效信息,为决策者提供科学依据。为了实现该目标,系统采取了一系列的数据挖掘方法,包括数据清洗、数据集成和变换及数据可视化等[11]。

在数据清洗阶段,需要对采集到的舆情数据进行了严格的筛选和处理,移除重复数据,以避免在后续分析中产生误导。同时需要剔除无效和错误的数据,和对数据进行标准化处理,如统一时间格式、消除缩写等,保证分析结果准确性的同时便于后续分析。

在数据集成和转换阶段,将不同来源、不同格式的数据整合成统一的格式。主要通过数据类型的转换、字段的映射等操作,使得原本分散的网络舆情数据能够相互关联。同时,结合降维、抽样等技术,减少数据的冗余和复杂性及提高挖掘效率,以便于进行综合分析。

在输出数据结果阶段,可将挖掘出的数据输出为标准格式,并可视化展示在系统的前端页面中。

通过以上文本分析方法的应用,可较好地对舆情数据进行分类,同时可构建关联分析模型,通过对不同信息之间的关联性进行挖掘,发现潜在的联系和模式。另一方面,建立情感分析模型,判断舆情文本的情感态度,进一步了解舆情的情感态势和倾向。

3 舆情预警系统构建

3.1 整体框架

在舆情数据的采集和分析基础上,构建了一套结构完整的网络舆情预警系统,系统架构如图3所示。预警系统整体框架主要分为采集层、处理层和应用层三个层次。采集层主要负责舆情数据的采集和存储;处理层主要负责对采集到的数据进行挖掘处理和挖掘和文本分析;应用层则主要提供舆情预警和可视化展示功能。

3.2 功能模块

基于数据挖掘技术的网络舆情预警系统主要由舆情数据采集模块、舆情分析模块和舆情预警模块等三个主要模块搭建而成,如图4所示。

舆情数据采集模块是整个系统的数据来源,主要是利用采集技术将网络舆情相关数据取回本地入库。通过网络爬虫技术和API接口,舆情采集模块能够自动、高效和实时地获取散落在各大新媒体平台、公开网站上的网络舆情数据。采集到的数据经过预处理可统一为标准化的数据格式后存入舆情数据库中,方便下一模块的进一步处理。

舆情数据库主要是对采集的舆情数据进行统一存储和管理。为了高效便捷地存储大规模的舆情数据,可采用云上高性能关系数据库,利用云上的多副本保存机制,最大程度地确保数据的安全性,同时可以满足其他系统对此系统采集到的舆情数据的访问需求。

舆情分析模块利用数据挖掘技术和文本分析技术,对标准数据进行深层次处理。在具体数据的挖掘分析之前,需要进行数据预处理,如对原始的网络舆情爬虫数据进行清洗、去噪和标准化等操作,以提高数据的可用性和准确性。在挖掘分析阶段,结合各类数据挖掘和深度学习的智能算法对数据的关联性进行深入分析,提取舆情数据的潜在规律,从而识别出可能的舆情风险和变化趋势。

舆情预警模块根据数据挖掘和分析结果,对网络舆情数据进行展示和预警。在配置相应的预警阈值和规则后,系统能够实时地分析和同步上报相应的网络舆情事件信息和情绪波动而使用者接收到预警后,即可采取相应的应对措施,避免网络舆情的进一步升级和发酵。此模块的可视化展示功能,确保将预警信息以直观的方式呈现出来,帮助用户更好地理解和分析舆情数据,做出明智的决策。

4 网络舆情系统应用场景

在当前大数据时代背景下,网络舆情分析预警系统已经成为政府获取民意、企业了解口碑、公司发展需求以及个人了解热点的重要参考。通过基于数据挖掘技术的网络舆情预警系统,可实现对互联网海量信息的全天候监测、高效准确地分析和管理,为各个领域提供相应的数据支持和决策依据,及时预警可能出现的风险和危机,从而支撑使用者做出明智的决策和应对措施。

4.1 社会舆情监测与管控

政府部门及事业单位可借助基于数据挖掘技术的网络舆情预警系统了解公众对于各类政府事件、各类制定的政策和各类政府行为等舆论情况的态度,在可能引发社会舆情的事件前,利用系统的能力提前做好监测和管控,从而维护社会整体秩序的稳定。

4.2 社会舆论氛围构建

通过对网络舆论的分析,系统可实时监测不良舆论的传播路径,提供舆论传播源头信息至决策者,避免虚假信息等对社会造成的不良影响。通过系统助力网络舆论净化,从而进一步保护公众的合法权益,营造风清气正的社会言论空间。

4.3 企业舆情监测与保护

网络舆情预警系统在商业领域中也具有重要的应用价值,如企业可以借助该系统收集、分析和实时预警网络上对本企业多方面的网络舆情情况。深入了解客户对企业的直接评价和真实体验,有助于企业及时发现和处理负面舆情,并根据反馈进一步构造企业正面的品牌形象。

5 结论

基于数据挖掘技术构建了一套框架完整、功能体系较为完备的网络舆情预警系统,实现了对网络舆情数据的自动识别和预警。该系统不仅能够监测和分析网络舆情数据,还能够及时预警和应对可能的舆情风险。未来将研究如何进一步提高预警的准确性和时效性,以更好地应对更复杂的网络舆情问题。

经典小说推荐

杂志订阅