Легко знайти дублікати з одним полем:
SELECT name, COUNT(email)
FROM users
GROUP BY email
HAVING COUNT(email) > 1
Отже, якщо у нас є таблиця
;ID NAME EMAIL
1 John [email protected]
2 Sam [email protected]
3 Tom [email protected]
4 Bob [email protected]
5 Tom [email protected]
Цей запит дасть нам Джона, Сема, Тома, Тома, тому що всі вони мають однакову email
.
Однак, я хочу отримати дублікати з однаковою email
і ім'ям
.
Тобто, я хочу отримати "Том", "Том".
Причина, по якій мені це потрібно: Я допустив помилку, і дозволив вставити дублікати значень name
і email
. Тепер мені потрібно видалити/змінити дублікати, тому мені потрібно спочатку їх знайти.
SELECT
name, email, COUNT(*)
FROM
users
GROUP BY
name, email
HAVING
COUNT(*) > 1
Просто згрупуйте в обох стовпчиках.
Примітка: за старим стандартом ANSI всі неагреговані стовпці повинні бути в GROUP BY, але це змінилося з ідеєю "функціональної залежності":
У теорії реляційних баз даних функціональна залежність - це обмеження між двома наборами атрибутів у відношенні з бази даних. Іншими словами, функціональна залежність - це обмеження, яке описує зв'язок між атрибутами у відношенні.
Підтримка не є послідовною:
ql_mode=only_full_group_by
:Спробуй це:
declare @YourTable table (id int, name varchar(10), email varchar(50))
INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')
SELECT
name,email, COUNT(*) AS CountOf
FROM @YourTable
GROUP BY name,email
HAVING COUNT(*)>1
ВИХІД:
name email CountOf
---------- ----------- -----------
John John-email 2
sam sam-email 2
(2 row(s) affected)
якщо ви хочете отримати ідентифікатори дублікатів, використовуйте це:
SELECT
y.id,y.name,y.email
FROM @YourTable y
INNER JOIN (SELECT
name,email, COUNT(*) AS CountOf
FROM @YourTable
GROUP BY name,email
HAVING COUNT(*)>1
) dt ON y.name=dt.name AND y.email=dt.email
ВИХІД:
id name email
----------- ---------- ------------
1 John John-email
2 John John-email
5 sam sam-email
6 sam sam-email
(4 row(s) affected)
для видалення дублікатів спробуйте:
DELETE d
FROM @YourTable d
INNER JOIN (SELECT
y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
FROM @YourTable y
INNER JOIN (SELECT
name,email, COUNT(*) AS CountOf
FROM @YourTable
GROUP BY name,email
HAVING COUNT(*)>1
) dt ON y.name=dt.name AND y.email=dt.email
) dt2 ON d.id=dt2.id
WHERE dt2.RowRank!=1
SELECT * FROM @YourTable
ВИХІД:
id name email
----------- ---------- --------------
1 John John-email
3 fred John-email
4 fred fred-email
5 sam sam-email
(4 row(s) affected)
Спробуй це:
SELECT name, email
FROM users
GROUP BY name, email
HAVING ( COUNT(*) > 1 )