基于Python 的异常数据处理与分析实践探究
作者: 蔡振海
摘要:大数据时代,数据在各行各业扮演着重要的角色。人们越来越重视数据,充分挖掘、分析数据背后的价值。但由于各种原因经常会存在异常数据,异常数据对数据分析有着非常大的影响,因此如何对异常数据进行科学处理在数据分析中有着十分重要的作用。Python 语言在数据处理上有着极大的优势,对数据处理、清洗简单易上手。以采集的天气温度数据为基础,通过Python 的开源发行版本Anaconda3 语言对异常数据进行处理后得出合理数据,最后绘制出温度曲线。
关键词:大数据;异常数据;Python;数据处理;数据分析
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2023)27-0062-04
0 引言
随着技术的发展,生活中处处有数据,处处用数据。但因为种种原因,经常会存在一些异常数据,比如采集手段、仪器精度、存储运输不当等造成数据精度不够、数据项缺失、数据单位不对等,这些异常数据对结果有着极大的影响[1]。如何消除异常数据并替换为合理数据在大数据分析中是一项十分关键且重要的工作[2]。大数据时代,对数据和大数据进行分析和可视化是一项重要的工作,也是一项重要的技能。对于数据的处理和分析需要借助专业的软件和相应的编程软件,Python拥有非常强的扩展性、运行速度非常快、代码量少、易上手、数据处理包丰富等特点,被广泛运用到人工智能、大数据分析、网络爬虫等方面[3]。本文使用Python的开源发行版本Anaconda3对数据进行处理分析。Anaconda是专门为了方便使用Python进行数据研究而建立的一组软件包,涵盖了数据科学领域常见的Python库[4]。
1 Anaconda 简介
Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于20世纪90年代初设计,作为一门叫作ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程,其简单、易学、易读、易维护、用途广、速度快、免费、开源、可移植性、可嵌入性、丰富的库等优点深受广大使用者喜欢[5]。但Python对于初学使用者来说由于版本和环境配置等问题,往往会让初学者花费许多时间来配置环境,经常因为配置环境或者版本等原因使得Python程序无法运行[6]。Anaconda是一个用于Python科学计算和机器学习的开源工具,它是Python的发行版本,支持Linux、Macocy以及Windows系统,包含numpy等许多工具包和依赖项,提供了管理包和管理环境,能用于解决开发过程中可能遇到的Python多版本问题和第三方库的安装、使用等问题。
Anaconda是基于conda的Python数据和机器学习的开发平台。conda是虚拟环境工具和包管理工具集合体,可以用于各种开发语言。其资源库上有上万个第三方库供学习和开发者使用[7]。Python是Anaconda 自带的,无须使用者再次安装,并且配置好了运行环境,免去了麻烦的配置环境步骤,因此受到广大使用者的喜欢。Anaconda由于其自带的大量数据科学包和依赖项,使用者可以在安装后立即进行数据处理。
2 数据读取
采集的天气数据以CSV格式进行保存,包含温度和相对湿度两个数据项。表1和表2显示了天气数据表的前15行和后15行,需要读取的温度数据在数据表的第二列。从数据表中可以看出存在数据缺项以及数据异常的情况,比如序号5的温度值为空格,序号8的温度值为100摄氏度,正常天气温度应该在40摄氏度以下。为了方便处理数据,使用NumPy读取采集的天气数据。