SQL去重技巧：5招高效清理重复数据

日期：2025-12-21 11:02:34 作者：创始人浏览：0

如何使用 SQL 查询去重技巧去除重复数据？

想要在SQL里清理重复数据？别急，这事儿其实挺多办法可以搞定。
下面我来给你介绍几个常用的去重招数：
1 . 直接上DISTINCT：这个关键字就是用来找出那些独一无二的数据的。
举个例子，你想从“table_name”里只看“column_name”列的独特值，就用“SELECT DISTINCT column_name FROM table_name;”这样一招。

2 . GROUP BY来帮忙：这个子句能帮你按列分组，再配合聚合函数就能得到每组唯一的记录。
比如说，“SELECT column_name FROM table_name GROUP BY column_name;”就能做到这一点。

3 . 左右逢源用LEFT JOIN：要是你在多个表里找数据，又想去除重复，那么LEFT JOIN加上MAX()或MIN()这样的聚合函数就派上用场了。
比如，“SELECT a. FROM a LEFT JOIN (SELECT sid, MAX(tracking_number) AS tracking_number FROM b GROUP BY sid) b ON a.sid = b.sid;”这招能保证每个sid只出现一次。

4 . ROW_NUMBER()来排序：如果你的数据库支持窗口函数，ROW_NUMBER()就能帮你给每行数据排个序，再根据条件去除重复。
比如，“WITH RankedData AS (SELECT , ROW_NUMBER() OVER (PARTITION BY column_name ORDER BY some_column) AS rn FROM table_name) SELECT FROM RankedData WHERE rn = 1 ;”这样就能选出每组的第一条记录。

5 . EXISTS或NOT EXISTS来筛选：有时候，通过检查某个条件是否存在重复项来过滤数据也是个好办法。
例如，“SELECT FROM table_name t1 WHERE NOT EXISTS (SELECT 1 FROM table_name t2 WHERE t1 .column_name = t2 .column_name AND t1 .id < t2>
小贴士：不同数据库可能会有不同的语法规则或者支持的函数不同哦。
用聚合函数或窗口函数时，别忘了它们可能会对性能有影响，尤其是处理大量数据的时候。
还有，设计查询的时候，想想是不是每列的数据都需要，有时候只选必要的列就能简化去重过程啦。

sql中distinct的用法(四种示例分析)

好嘞，给你换种更接地气但又不失专业的说法哈：
---
跟你说个事儿，用 SQL 处理数据的时候，有时候会遇到重复的值，对吧？比如有个 students 表，里面学生名字可能就有重名的。
那咋办呢？用 DISTINCT 就行。

第一招：去掉单个重复值
想象一下，你只想知道 students 表里都有哪些不重样的学生名字。
这时候，你可以写个这样的查询：
sql SELECT DISTINCT name FROM students;
这条命令就是告诉数据库：“嘿，给我看看 students 表里所有不同的 name 值，别给我重复的。
” 返回结果就是个不含重复名字的列表。

第二招：根据多列去重
光看名字可能不够，万一有重名但年龄不同的呢？那你就得同时看多列。
比如，你想找所有独一无二的“名字+年龄”组合，可以这样写：
sql SELECT DISTINCT name, age FROM students;
这条 SQL 告诉数据库：“我只想要 name 和 age 这两列组合起来完全不一样的那些行。
” 这样，哪怕有俩人名字一样但年龄不同，或者年龄一样名字不同，都不会被选出来两次。

第三招：去重后还能排序
去重了之后，有时候你还想按个顺序看。
比如，你想把不重复的名字按字母顺序排一下。
没问题，跟 ORDER BY 搭配着用就行：
sql SELECT DISTINCT name FROM students ORDER BY name ASC;
这条命令的意思是：“先给我把 students 表里不重复的 name 搞出来，然后再按 name 这个字段，从小到大（升序）给我排个序。
”
第四招：在嵌套查询里用
DISTINCT 还能在更复杂的查询里用，比如用在子查询里。
举个例子，假设你想知道每个系有多少个不同的学生，可以这么做：
sql SELECT DISTINCT department, COUNT() AS student_count FROM ( SELECT department FROM students ) AS subquery GROUP BY department;
这里，子查询 SELECT department FROM students 首先选出了所有学生的系别。
然后最外层的查询用了 DISTINCT department，这保证了在计算每个系的学生数量时，系别本身不会重复计算。
最后 GROUP BY department 就把学生按系分组，COUNT() 计算每个组（也就是每个系）的学生总数。
这样一来，结果里每个系只会出现一次，不会有重复的系名。

你看，DISTINCT 用起来还是挺灵活的，根据需要去重单个字段或多字段组合，还能跟排序或者子查询啥的配合着用。

sql count去重

哈喽大家好！今天咱们来聊聊在SQL里怎么数不重复的值。
其实啊，最常用的就是COUNT(DISTINCT)这个函数，但它也不是唯一的方法。
咱们一步步来看。

单列去重
首先说最简单的，单列去重。
它的基本写法是这样的：
sql SELECT COUNT(DISTINCT column_name) FROM table_name;
说白了，就是统计指定列里不重复值的个数。
比如说，我想知道公司里有多少个不同的部门，就可以这么写：
sql SELECT COUNT(DISTINCT department) FROM employees;
这样就能得到不重复的部门数量了。

多列去重
接下来是多列去重。
这个稍微复杂一点，不过有些数据库比如PostgreSQL和SQL Server是支持直接多列去重的，语法也很简单：
sql SELECT COUNT(DISTINCT col1 , col2 ) FROM table_name;
举个例子，假设有个sales表，我想统计不同客户购买不同产品的组合数量，就可以这样写：
sql SELECT COUNT(DISTINCT customer_id, product_id) AS unique_customer_product FROM sales;
不过呢，MySQL就不太一样了，它不支持直接多列去重。
这时候咱们可以先用CONCAT函数把列合并起来，再去重：
sql SELECT COUNT(DISTINCT CONCAT(customer_id, ',', product_id)) AS unique_combinations FROM sales;
另外，还有一种方法是通过子查询来实现多列联合去重统计：
sql SELECT COUNT() FROM (SELECT DISTINCT col1 , col2 FROM table_name) AS subquery;
其他去重统计方法
除了COUNT(DISTINCT)，还有其他方法可以实现去重统计。

子查询 + COUNT()
这种方法是先通过DISTINCT子查询提取出唯一的值，然后再统计行数。
举个例子：
sql SELECT COUNT() AS unique_names FROM (SELECT DISTINCT name FROM student) AS temp;
GROUP BY + COUNT()
还有一种方法是先按目标列分组，然后统计分组的数量，也就是唯一值的数量。
如果只需要总数，可以嵌套一层COUNT()。
比如：
sql SELECT COUNT() AS unique_name_count FROM (SELECT name FROM student GROUP BY name) AS temp;
注意事项
最后，咱们再提几个注意事项。

首先，如果数据量特别大，使用COUNT(DISTINCT)可能会影响性能。
这时候，有些数据库比如Presto提供了approx_distinct(x)函数，可以用来做近似统计，适合趋势分析。

其次，DISTINCT会自动忽略NULL值，不纳入计数。

希望今天的分享对大家有帮助！如果有什么问题，欢迎留言讨论哦！

SQL中distinct的用法（四种示例分析）

Hey小伙伴们，今天咱们来聊聊SQL里的小能手——distinct的用法。
🔍
首先，咱们得知道distinct这个小家伙最基础的技能，就是帮我们筛选出那些独一无二的数据。
比如，你想看看表A里name字段的独特值，就这么写：SELECT DISTINCT name FROM A; 这下子，重复的记录就被剔除了，只留下name的不同值。

再来，distinct还能干点啥呢？它还能在多个字段上施展魔力，帮你找出那些多字段组合的独特记录。
比如这样：SELECT DISTINCT name, id FROM A; 这样一来，name和id的组合一出现重复，就会被distinct无情地剔除。

说到这，你可能还想数数这些独特值的个数。
没问题，用count来帮忙：SELECT COUNT() FROM A; 这个查询就会告诉你表A里有多少个独特的name值。
不过要注意哦，不同的数据库系统可能对count的支持度有所不同，比如在Access里可能就不支持这个功能。

不过，distinct也有它的“小脾气”，它必须老老实实地站在字段列表的最前面，不能中途插科打诨。
比如，你写成这样：SELECT id, DISTINCT name FROM A; 就会出错，因为distinct不能放在中间。
如果需要同时去重和展示其他字段的信息，可能就得用点小技巧，比如子查询。

最后，总结一下，distinct关键字就像是SQL里的清洁工，负责把重复的数据清理干净，让我们看到独一无二的数据面貌。
不过用的时候可得注意它的脾气，还有不同数据库对它的态度哦。
😉

标签： SQL DISTINCT