ARTICLE

关系型数据库

关系型数据库 (Relational Database) 关系型数据库（Relational Database）是一种基于关系模型（Relational Model）组织数据的数据库管理系统（DBMS）。其核心思想是将数据存储在由行（元组）和列（属性）构成的二维表（Relation）中，并通过严格的数学理论——关系代数与关系演算——来定义查询与操作。1970

浏览 0 更新 2025-12-22

关系型数据库 (Relational Database)

关系型数据库（Relational Database）是一种基于关系模型（Relational Model）组织数据的数据库管理系统（DBMS）。其核心思想是将数据存储在由行（元组）和列（属性）构成的二维表（Relation）中，并通过严格的数学理论——关系代数与关系演算——来定义查询与操作。1970年，埃德加·科德（Edgar F. Codd）在论文《大型共享数据库的数据关系模型》（A Relational Model of Data for Large Shared Data Banks）中首次提出这一范式，彻底改变了数据库领域的面貌。关系型数据库至今仍是企业级应用、金融系统、电商平台等绝大多数业务系统的数据基石，也是数据驱动决策的根本保障。

理论基础：关系模型

关系模型以数学中的集合论和一阶谓词逻辑为根基。一个关系（Relation）是笛卡尔积的一个子集，其直观对应就是一张表。每一行（Tuple）代表一条记录，每一列（Attribute）代表记录的一个字段。关系模型区别于此前流行的层次数据库（Hierarchical Database）和网状数据库（Network Database）的关键在于：

数据的独立性：物理存储与逻辑表示完全分离，用户只需通过声明式语言描述"要什么数据"，无需关心"怎么获取数据"。
集合级的操作：操作的对象和结果都是关系（即表），保证了操作的封闭性（Closure Property），使得复杂查询可嵌套组合。

科德在1970年的论文中定义了规范化（Normalization）理论，用以消除数据冗余和更新异常。规范化通过范式（Normal Form）的形式逐步分解表结构：第一范式（1NF）要求属性不可再分，即每个字段必须是原子值；第二范式（2NF）在满足1NF的基础上消除部分函数依赖，要求每个非主属性完全函数依赖于主键；第三范式（3NF）在满足2NF的基础上消除传递函数依赖，要求非主属性不依赖于其他非主属性；BCNF（Boyce-Codd Normal Form）是更强的版本，要求所有非平凡函数依赖的左边都是超键。随着应用场景的复杂性增长，还发展出了第四范式（4NF）消除多值依赖，以及第五范式（5NF，即投影-连接范式）处理连接依赖。实际工程中，第三范式通常是大多数应用系统的设计目标，但过度规范化反而可能因大量表连接而降低查询性能，因此工程实践中常根据具体场景进行反规范化设计。

核心组件

关系型数据库系统通常由以下组件构成：

存储引擎（Storage Engine）：负责数据在磁盘上的物理组织、索引维护、缓冲区管理。主流引擎包括InnoDB（支持事务与行级锁）、MyISAM（仅支持表级锁）等。
查询处理器（Query Processor）：将SQL（Structured Query Language，结构化查询语言）语句解析为语法树，经优化器（Optimizer）生成最优执行计划，再由执行引擎实际执行。
事务管理器（Transaction Manager）：实现ACID事务特性——原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）。并发控制机制（如两阶段锁协议、多版本并发控制 MVCC）确保多个事务并发执行时仍能维持数据一致性。
索引结构（Indexing）：最常用的是B+树（B+ Tree）索引，支持高效的精确查找和范围扫描。哈希索引（Hash Index）适用于等值查询。位图索引（Bitmap Index）则在数据仓库的复杂多维查询中发挥作用。

SQL：声明式查询语言

SQL 是关系型数据库的标准查询语言，由IBM在1970年代基于科德的理论开发，后经 ANSI 和 ISO 标准化。SQL 按功能可分为以下几类：

数据查询语言（DQL）：以\texttt{SELECT}语句为核心，搭配\texttt{FROM}、\texttt{WHERE}、\texttt{GROUP BY}、\texttt{HAVING}、\texttt{ORDER BY}等子句，实现关系代数中的选择、投影、连接、聚集等操作。
数据操纵语言（DML）：\texttt{INSERT}、\texttt{UPDATE}、\texttt{DELETE}，用于修改数据。
数据定义语言（DDL）：\texttt{CREATE}、\texttt{ALTER}、\texttt{DROP}，用于定义和修改数据库对象（表、视图、索引等）。
数据控制语言（DCL）：\texttt{GRANT}、\texttt{REVOKE}，用于权限管理。

SQL 的最大优势在于其声明式（Declarative）特性：用户只需描述"需要哪些数据"，系统自动决定如何获取。这使得非程序员也能通过简单的查询获取复杂分析结果。SQL 背后的查询优化器是数据库系统的核心智力所在——它基于代价估算（Cost-Based Optimization），在等价执行计划中选择索引扫描、表扫描、哈希连接、嵌套循环连接等不同算法的组合，以求在最短时间内返回结果集。

主流实现

当今最著名且使用最广泛的关系型数据库包括：

MySQL：开源数据库，隶属于 Oracle 公司。以易用性、高性能和活跃的社区生态著称，广泛用于 Web 应用（如LAMP架构）。InnoDB 是其默认存储引擎。
PostgreSQL：功能极为完备的开源数据库，以对 SQL 标准的严格遵循、丰富的扩展机制（支持 JSON、GIS、自定义类型）和强大的并发控制能力闻名，被称为"开源数据库中的瑞士军刀"。
Oracle Database：商业数据库的旗舰产品，在大型企业级市场占据统治地位，提供 RAC（Real Application Clusters）、Data Guard 等高级特性。
Microsoft SQL Server：微软的企业级数据库解决方案，深度集成 .NET 生态和商业智能工具（SSIS、SSAS、SSRS）。
SQLLite：轻量级嵌入式数据库，无需独立服务器进程，广泛用于移动应用、桌面软件和物联网设备。

局限性与替代方案

关系型数据库并非万能。随着互联网规模的急剧膨胀，传统关系型数据库在以下场景面临挑战：

水平扩展（Horizontal Scaling）困难：关系模型强一致性约束使得跨节点分片（Sharding）和分布式事务实现复杂且性能代价高。
非结构化数据：对于 JSON 文档、图片、视频等非结构化数据，关系模型的严格模式（Schema）缺乏灵活性。
高并发写入：在极端写入密集型场景（如日志系统、社交动态流），关系型数据库的 ACID 保障成为性能瓶颈。

针对这些局限，2000 年代后期兴起了NoSQL（Not Only SQL）运动，衍生出文档数据库（如MongoDB）、键值存储（如Redis）、列族数据库（如Cassandra）、图数据库（如Neo4j）等多类非关系型数据库。然而，近十年来数据库领域呈现明显的融合趋势——NewSQL（如Google Spanner、CockroachDB）尝试在保持 SQL 和 ACID 的同时实现水平扩展，而传统关系型数据库也纷纷引入 JSON 支持、地理空间功能等 NoSQL 特性。这一趋势表明，关系型数据库的核心理念——结构化数据管理、一致性保障和声明式查询——在可预见的未来仍难以被完全替代。

\vspace{0.5em} SQL \quad $\cdot$ \quad NoSQL \quad $\cdot$ \quad MySQL \quad $\cdot$ \quad PostgreSQL \quad $\cdot$ \quad ACID \quad $\cdot$ \quad 规范化 \quad $\cdot$ \quad 关系模型

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。