基于概率模型与人工智能的下一代数据分类与链接创新研究
作者: 王森 张志霄
摘要:文章提出并验证了一种基于概率模型与人工智能的下一代数据分类与链接方法。该方法通过多级聚类过程,结合概率模型和机器学习技术,有效处理缺失值,提高数据链接准确性,并生成完整实体记录。实验结果表明,该方法显著优于传统概率模型方法。该框架具有可扩展性和成本效益,为不同领域的数据分析提供有力支持。
关键词:大数据;分类;数据链接;机器学习;概率模型
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)31-0071-03
开放科学(资源服务)标识码(OSID) :
0 引言
全球数据量爆炸式增长,覆盖医疗、个人、行政、执法及新闻报道等多个领域,对数据分析技术提出了巨大挑战。数据分类与链接成为连接不同数据源、提取有价值信息的关键。传统方法如纽科姆模型[1]和Fellegi-Sunter模型[2-3]在处理大规模、多源、异构数据时存在可扩展性差、定制化强、缺失值处理困难等问题。为此,本文提出一种基于概率模型与人工智能[4]的下一代数据分类与链接方法,利用机器学习技术智能提取关键属性,有效处理缺失值,构建高效的字符串匹配算法,以提高数据链接的准确性和效率,并满足广泛用户群体的需求。
1 数据链接模型
研究问题之前,有必要探讨一下目前最广泛使用的两种概率数据链接模型。
1.1 纽科姆模型
纽科姆的模型基于两个基本但重要的决策规则。首先,一个值(如姓氏)在匹配和不匹配中出现的相对频率可以用于计算与两个记录匹配相关的权重或分数。第二种是根据姓氏、名字、年龄等不同字段计算的分数。它们可以相加得到一个总体匹配分数。更具体地说,重点是如下所示的优势比:
log2 ( pL ) - log2 ( pF ) (1)
式中:pL 为匹配(链接)之间的相对频率,pR 为不匹配(非链接)之间的相对频率。由于真实的匹配状态通常是未知的,因此引入了上述比值比的近似。
log2 ( pR ) - log2 ( pR )2 (2)
式中:pR 是特定字符串(名字、首字母、出生地等)出现的频率,当一个大的宇宙文件与其自身匹配时,第二个比率提供了一个非常接近的第一个比率。
1.2 Fellegi and Sunter 模型
Fellegi和Sunter在1969年引入了记录联动的正式数学基础。所提出的方法是通过考虑两个文件的叉乘所产生的所有可能的记录来匹配两个文件A和B。其思想是将乘积空间A X B中的对分类为匹配集M和不匹配集U。费莱吉和桑特利用纽科姆引入的严格概念,提出了这种形式的概率比率:
式中:γ 是Γ给出的比较空间中的任意协议模式。例如,比较空间可能由八个模式组成,表示三个属性(如人名、街道名称和城市)的简单一致或不一致(二进制值)。比值R或R的任意单调递增函数,如自然对数,称为匹配权值(分数)[5]。
2 新的数据链接模型和通用框架
R = P (γεΓ|M )/P (γεΓ|U ) (3)
如前所述,下一代数据链接系统必须能够处理与不同问题域相关的任务。因此,系统必须是可扩展的,并提供通用功能,以允许用户以最小的修改在其基础上构建特定于应用程序的需求。为此,必须设计一个框架,其中包含解决前面提到的需求实现的泛型类以及允许用户与框架交互的应用程序编程接口(API)。系统的基本设计示意图如图1所示。
该框架需要包含用于诸如数据清理和标准化、分类和预测、NLP、字符串比较和链接等任务的类。API 将为用户提供一个与框架交互的接口,并使用框架中的类来实现数据链接应用程序。这些类可能有不同的实现,以满足各种各样的需求,并允许用户测试不同的技术,提高链接任务的准确性。下一代数据链接应用程序的一般流程如图2所示。
为了验证对使用概率和人工智能例程的下一代数据链接模型的建议和建议,构建了一个原型。然而,在这一点上,图2所示的文本分析任务的例程是不完整的。图2所示的其他任务的例程和类是可用的,尽管有足够的改进和进一步添加的空间。下面将介绍一个建立在框架之上的示例应用程序,并比较仅由概率例程产生的结果和由数据链接的新模型产生的结果。
该框架提供了实现前文中描述的需求的类,这些需求是下一代数据分类和链接系统所追求的。API为用户提供了这种功能修改和微调类的功能,以实现特定于应用程序的需求。其思想是提供一个可以轻松扩展到不同问题领域的系统。
预期框架内提供的类别将促进这一进程,并由用户根据其具体应用要求进行必要调整。
3 测试应用程序
作为一项测试,在该框架上构建了一个应用程序,用于链接与侵犯人权行为有关的报纸文章的数据。测试中,该数据集包含1 500条记录,涉及从不同报纸收集的400个不同事件,其中一些记录包含某些属性的缺失值。任务是识别那些记录属于同一事件的数据源汇总统计实体,利用属于同一事件的多条记录的信息,生成一条记录来表示该事件。根据结果,对部分属性的缺失值进行了替换,最后进行聚类和链接。字典永久存储在数据集中找到的任何新单词,以便将来按字母顺序引用。字典被实现为一个二叉搜索树,每当找到一个新词时,它就被分配到搜索树的正确位置,从而始终保持按字母顺序排序的单词列表。接着,对数据集进行分析,以找到可用于预测数据集缺失值的属性之间的任何关系。作为此过程的第一步,识别具有大量缺失值的属性。接下来,需要确定一组最优的属性,这些属性最好描述感兴趣的特定属性的行为。这是通过使用基于GAs的随机特征选择技术来实现的。候选特征子集使用遗传算法生成,而最佳子集的选择基于测试数据集的预测精度。采用三层人工神经网络计算预测精度,对于每个候选子集,使用反向传播学习规则以监督模式训练人工神经网。训练和测试数据集是使用初始数据集自动生成的。作为一个案例,对犯罪者类别缺失值的预测如下所述。
随机特征选择技术以及比较这些特征集的预测准确性的例程表明,可以使用事件类型和受害者数量来预测犯罪者类别。利用这些信息,设计了一个三层神经网络,输入层有2个节点,隐藏层和输出层各有5个节点,如图3所示,用于预测犯罪者类别的缺失值。首先,使用犯罪者类别值可用的记录以监督模式训练人工神经网络。接下来,使用训练好的网络预测缺失值。例如,如果有5个主要的犯罪者类别,那么输出层中的5个神经元就足以唯一地识别每个类别。如果有5个以上的类,则输出值的组合可以清楚地识别这些类。
一旦缺失值的预测完成,就可以执行实体的聚类。在聚类过程中考虑属性的顺序可能取决于根据其影响为每个属性分配的权重。为了进行聚类,该框架提供了支持k-最近邻分类(kNN)、k-means 聚类、SOM等功能。然而,为了在聚类中使用SOM,需要有一个训练数据集来训练网络,以便以后可以对新实体进行分类。对于这个特殊的应用程序,没有训练数据集,其中的实体已经被分类到组中。
因此,作为一种方法,本文使用了kNN。在kNN 方法中,每个实体根据其字符串属性和数字属性的编码技术排列在二维映射中,如图4所示。对二维排列的实体使用kNN算法,利用字符串型属性和数字型属性得到的两个编码值对其进行聚类。
图3所示,两层神经网络有两个输入节点,隐藏层和输出层各有5个节点。输入节点接受事故类型和受害者人数的值,并根据训练预测犯罪者的类别。第二层节点的虚线表示每个节点连接到输出层的所有5个节点。犯罪者类别是通过分析5个输出节点的输出来确定的,最后需要处理分组到单个集群中的实体的实例,以便生成提供单个实体的完整图像的单个实例。基于为实体的每个实例(每个记录)的字符串类型属性和数字类型属性提取的两个编码。
图4所示,通过比较每个实体的单个属性生成的集群的卡通插图,第一级集群是通过比较所有实体的单个属性找到匹配项并将它们分组在一起来生成的。接下来,在第一级集群中,比较第二个属性的值以生成第二级集群。考虑属性的顺序可以基于分配给它们的权重。
4 结果与讨论
为了强调新方法和数据链接框架的使用和适用性,下面将介绍上述数据集聚类任务的结果,并就所提出的方法的结果与单独使用概率模型的结果之间的准确性进行比较。表2总结了用于在数据集中查找链接的3种不同方法及其准确性。数据集含1 500条记录,涉及400个事件,存在多种缺陷。方法1(概率模型)识别了297个实体,但错误率高。方法2通过特定聚类算法提升了准确性至383个正确实体,但仍有误归类。方法3进一步优化,识别390个实体。
方法1的低准确率和高错误率可能源于数据集的高缺陷率,以及方法1没有完全具备处理这种情况的技术。仅涉及概率模型的方法在存在大量缺失值时可能会失败。另外,方法2和方法3不仅研究实体之间的关系,而且还寻找同一实体的属性之间的关系,并利用这些关系在聚类之前最小化数据集的缺陷,从而获得更高的精度。
5 结束语
本研究围绕基于概率模型与人工智能的下一代数据分类与链接方法展开,针对当前数据链接系统普遍存在的可扩展性差、定制化强、属性值缺失、实体识别特征模糊及语音字符串匹配不确定性等挑战,提出了一种创新的数据链接模型与通用框架。该方法利用机器学习算法有效处理缺失值,智能提取关键属性,并减少人为干预与错误,同时构建了一个高效且语言适应性强的语音字符串匹配算法,旨在促进全球范围内的数据链接工作。经过研究测试所提出的方法在实际测试应用程序中表现出更高的聚类和链接准确性,优于仅使用概率模型的传统方法。
尽管本研究在数据分类与链接领域取得了显著进展,但在与文本分析相关的概念、机器学习任务的改进、计算资源的使用以及覆盖数据链接中需要考虑的社会问题的机制方面,仍存在改进空间。未来工作将进一步优化算法性能,提升数据链接的效率和准确性,为数据分析和应用提供更强大的技术支持。
参考文献:
[1] 戚冬伟.纽科姆ABX论战的意义[J].消费导刊,2008(18):223.
[2] WINKLER W E. String comparator metrics and enhanced deci⁃sion rules in the Fellegi-Sunter model of record linkage[R].Working Paper, 1990.
[3] DUVALL S L, KERBER R A, THOMAS A. Extending the Fellegi-Sunter probabilistic record linkage method for approxi⁃mate field comparators[J]. Journal of Biomedical Informatics,2010,43(1):24-30.
[4] 刘世华.基于密度峰值和维度概率模型的混合属性数据聚类研究[D].杭州:浙江工业大学,2017.
[5] 李亚旋,谢红薇,王春丹,等.多分量权值的树结构立体匹配算法[J].计算机工程与设计,2020,41(9):2501-2506.
【通联编辑:代影】
基金项目:河南省重点研发专项(231111210500)