ARTICLE

数据

定义 数据(Data)是对客观事物的数量、属性、位置和关系等进行记录的符号集合,是信息与知识的原始素材。在最基础的层面上,数据是未经处理的原始事实与数字,可以是数字、文字、符号、图像、声音或其他观测结果。数据本身并不具备直接意义,需要通过组织、处理和分析才能转化为信息(Information)、知识(Knowledge)乃至智慧(Wisdom),这一递进关系

浏览 50 更新 2026-07-17

定义

数据(Data)是对客观事物的数量、属性、位置和关系等进行记录的符号集合,是信息与知识的原始素材。在最基础的层面上,数据是未经处理的原始事实与数字,可以是数字、文字、符号、图像、声音或其他观测结果。数据本身并不具备直接意义,需要通过组织、处理和分析才能转化为信息(Information)、知识(Knowledge)乃至智慧(Wisdom),这一递进关系在DIKW金字塔模型中得到了经典诠释。数据既是统计学与计量经济学分析的起点,也是机器学习与人工智能算法训练的基础材料,其质量、结构与来源直接决定了后续分析结论的可靠性与有效性。

数据结构分类

依据数据模型的规范程度,可将数据划分为结构化数据、半结构化数据与非结构化数据三类。结构化数据具有固定的格式和明确的模式,通常以行和列的形式存储在关系型数据库的表格中,每一列定义了明确的数据类型与含义,典型的例子包括员工信息表、股票交易记录和银行流水。非结构化数据则没有预定义的数据模型或组织形式,构成了当今世界数据的绝大部分,包括电子邮件正文、社交媒体帖子、图像、音频和视频等,其分析往往需要借助自然语言处理或计算机视觉等复杂技术。半结构化数据介于两者之间,虽不符合关系数据库的严格结构,但通过标签或键值对标记语义元素与层级关系,XML和JSON文件是其典型代表,这些格式在Web应用程序和API通信中被广泛采用。

测量尺度分类

在统计学中,依据测量尺度可将数据分为分类数据与数值数据两大类。分类数据表示事物的类别或属性,不能进行算术运算,进一步可分为定类数据与定序数据:定类数据中的类别之间不存在内在顺序,如性别、血型和国家;定序数据则含有明确等级,如教育程度和满意度评级,但等级间的差距未必可量化。数值数据表示可以测量或计数的数量,分为离散数据与连续数据:离散数据通过计数得到,只能取有限个整数值,如班级人数和书籍页数;连续数据通过测量得到,可在给定区间内取任意值,如身高、体重和温度。这一分类决定了分析者可使用的统计方法,例如对定类数据只能进行频率分析,而对连续数据则可应用均值比较与回归分析。

时间维度分类

在经济学与金融学的实证研究中,数据根据收集的时间维度和对象范围分为横截面数据、时间序列数据和面板数据。横截面数据在同一个时间点对多个观测对象进行收集,提供了一个特定时刻的快照,例如某一年各省的GDP数据或某一天股市所有成分股的市盈率。时间序列数据对同一个观测对象在多个时间点上进行追踪,揭示了变量随时间演变的动态规律,如苹果公司历年季度收入或中国的年度通货膨胀率序列。面板数据则是横截面与时间序列的结合,在多个时间点对多个观测对象进行跟踪,例如对中国各省份多年的GDP、人口与投资数据进行系统记录。面板数据因其同时涵盖个体差异与时间动态的双重特性,成为实证经济学中最富有信息量的数据形式之一。

数据的生命周期与管理

数据的有效利用需要一个贯穿其完整生命周期的管理流程。首先进行数据采集,通过调查、实验、传感器或网络爬虫等方式获取原始数据;随后将数据存储在数据库、数据仓库或数据湖等适当媒介中。数据清洗识别并纠正数据中的错误、不一致和缺失值,是保障数据质量的关键步骤。经过清洗的数据被进一步处理、转换和整合,使之适用于后续分析。分析环节使用统计方法与机器学习算法从数据中提取洞察,并将结果通过可视化手段直观呈现以辅助决策制定。在数据的全生命周期中,数据质量的保障——包括准确性、完整性、一致性、及时性和有效性——是任何有意义分析的前提条件。

重要考量

在数据的采集与应用过程中,三个问题尤为值得关注。第一是数据偏见,即数据在采集或选择过程中可能存在的系统性偏差,导致样本不能代表总体,从而产生误导性结论;例如仅对线上用户进行调查可能无法反映全体人口的真实意见。第二是数据隐私与安全,在欧盟《通用数据保护条例》(GDPR)等法律法规框架下,保护个人隐私和防止数据泄露成为基本要求,需借助加密、访问控制等技术手段加以落实。第三是数据的可解释性与伦理责任,尤其是在人工智能与自动化决策系统中,数据的采集方式、特征选择与标注过程可能隐含着不公平或歧视性因素,分析者有义务审视数据来源的合理性与模型输出的社会影响。随着大数据时代的到来,数据的海量性、高速生成性和多样性对传统的数据分析方法与存储架构提出了持续挑战,也推动着数据科学领域的不断创新。