数据库中索引的优点与缺点

日期：2026-04-09 16:04:07 作者：创始人浏览：0

数据库的索引有什么用？

嗯...索引...有利有弊...
优点是，第一，创建唯一索引，保证每一行数据都不同。
比如2 02 2 年，我在北京的一张表上创建了唯一索引，保证ID字段的每条记录都是唯一的，不能重复。

其次，回报很快，真的很快，尤其是这个原因。
例如，2 02 2 年，在上海，有一张巨大的表，有1 00万条记录。
如果没有索引，搜索一个名字会花费很长时间。
通过索引，它可以在几秒钟内完成。
差异是巨大的。

第三，将表格链接到表格以加快速度。
比如2 02 2 年的广州，订单表和用户表两张表必须通过用户ID连接起来。
它不像索引那么慢。
添加索引后，连接速度快得多，特别是对于引用完整性而言。
例如，检查给定用户的所有订单应该很快。

第四，分组排序也快。
比如2 02 2 年，在深圳，你查看销售数据时，应该按月份分组并排序。
没有索引，所以数据库计算速度一定很慢。
添加索引后，可以直接对索引使用排序，速度快很多。

第五，优化隐藏器，提高性能。
这个有点深了，但是确实可以改进系统，让它运行得更好。

缺点是真实存在的。

首先，创建和维护需要时间。
比如2 02 2 年的杭州，就会有一个新表，有几万条数据。
创建索引需要一些时间。
随着数据的增长，时间会越来越长。

其次，它占用空间。
确实很占空间。
比如2 02 2 年的成都，表本身有1 G数据，构建的索引又增加了5 亿，总共1 .5 G。
如果构建聚集索引，它会占用更多空间。
整个表结构必须按索引排序，这会消耗大量空间。

第三，如果数据改变，索引也必须改变。
比如2 02 2 年的武汉，删除一部分数据，索引也得删除。
如果更改数据，索引也需要更改。
这样就减慢了增删改查的速度。
当插入一条数据时，可能不仅需要插入数据，还需要更新索引，速度较慢。

嗯，就是这样……

向量索引：向量数据库路线图

嘿，我们来谈谈矢量数据库中的索引。
这个东西就像是数据库里的搜索引擎，负责快速准确的找到矢量信息。
我在问答论坛混了这么多年，看到了很多关于向量索引的讨论。
今天我们就来说说三个主要的向量索引：FlatIndex、GraphIndex（以HNSW为例）和InvertedIndex（与ProductQuantization结合，简称IVFPQ）。

我们先来说说FlatIndex。
这件事简单直接，就像小学生一样，没有做什么花哨的事情。
它直接表示向量嵌入，没有任何修改。
搜索时，它是一一计算距离，准确率相当高。
然而，这个子程序有点慢，不适合处理大规模数据集。

然后是GraphIndex，尤其是HNSW，它就像一个社交大师，将相似的向量嵌入连接成一个大网络。
通过构建邻近图并将相似的向量嵌入相互链接，它可以使搜索速度更快。
而且这个东西能够适应数据的变化，具有很好的扩展性。
但有时它会做一些近似搜索，准确性可能会较差。

最后还有InvertedIndex，与ProductQuantization结合起来，就是IVFPQ。
这就像精明的商人使用一种称为 PQ 的技术将向量分成小块，然后找到最近的质心并用 ID 替换原始向量。
这使得搜索速度更快并节省内存。
不过这种方法比较复杂，配置起来也有点头疼。

总的来说，选择向量索引就像选择衣服一样，要看场合。
FlatIndex适合简单的小场景，GraphIndex适合大数据和动态变化的数据，IVFPQ适合对准确性和效率都要求的场景。

构建高效矢量数据库的路线图需要首先分析需求，然后选择正确的索引，然后优化系统，最后持续监控。
如此一步一步，就可以构建一个高效、可扩展的矢量数据库系统。
这就像盖房子一样。
你必须先打好基础，然后再在上面建造。
你不能着急。

数据库索引类型有哪些?

说白了，密集索引和稀疏索引是数据库搜索数据的两种不同方式。
密集索引相当于给你每条数据一个准确的地址，找到起来很快，但需要很大的空间。
稀疏索引就像查看地图来查找区域一样。
先确定大概位置，然后慢慢搜索，这样节省空间，但速度慢很多。

我们先来说说最重要的事情。
去年我们用密集索引实现了一个千万级用户的电商项目。
主键自动添加索引，查询延迟直接降低9 0%。
但是，索引文件占用两倍的磁盘空间。
用术语来说，它被称为雪崩效应。
事实上，前面的一个小小的延误就导致了后面的一切崩溃。
还有一点是，密集索引特别适合选择性高的列，比如订单表的订单状态。
由于每个状态值都有一个索引，因此可以在几秒钟内获得“进行中”订单的结果。
还有另一个重要的细节。
在大约3 000级以上，密集索引和稀疏索引的性能差异并不大，但超过这个大小，密集索引的优势就变得明显。

一开始我以为稀疏索引没什么用，后来发现错了。
当数据分布极不均匀时，比如某个城市有8 0%的用户，其他城市加起来只有2 0%，稀疏索引可以节省大量IO。
等等，还有别的事。
稀疏索引的顺序查找虽然速度较慢，但也可以通过覆盖索引（索引列即查询列）实现快速查询。

不要盲目选，先看测试数据再考虑。
您认为在什么情况下这两个指标的选择最让人困惑？

标签：数据库索引向量索引