Пошук значень, що повторюються в таблиці SQL

Question

Ще

Question

Пошук значень, що повторюються в таблиці SQL

Легко знайти дублікати з одним полем:

SELECT name, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

Отже, якщо у нас є таблиця

;

ID   NAME   EMAIL
1    John   [email protected]
2    Sam    [email protected]
3    Tom    [email protected]
4    Bob    [email protected]
5    Tom    [email protected]

Цей запит дасть нам Джона, Сема, Тома, Тома, тому що всі вони мають однакову email.

Однак, я хочу отримати дублікати з однаковою email і ім'ям.

Тобто, я хочу отримати "Том", "Том".

Причина, по якій мені це потрібно: Я допустив помилку, і дозволив вставити дублікати значень name і email. Тепер мені потрібно видалити/змінити дублікати, тому мені потрібно спочатку їх знайти.

Pang

Edited question 13-го вересня 2019 в 2:18

Програмування

sql

duplicates

Solution / Answer

KM.

7-го квітня 2010 в 6:22

Ще

Спробуй це:

declare @YourTable table (id int, name varchar(10), email varchar(50))

INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')

SELECT
    name,email, COUNT(*) AS CountOf
    FROM @YourTable
    GROUP BY name,email
    HAVING COUNT(*)>1

ВИХІД:

name       email       CountOf
---------- ----------- -----------
John       John-email  2
sam        sam-email   2

(2 row(s) affected)

якщо ви хочете отримати ідентифікатори дублікатів, використовуйте це:

SELECT
    y.id,y.name,y.email
    FROM @YourTable y
        INNER JOIN (SELECT
                        name,email, COUNT(*) AS CountOf
                        FROM @YourTable
                        GROUP BY name,email
                        HAVING COUNT(*)>1
                    ) dt ON y.name=dt.name AND y.email=dt.email

ВИХІД:

id          name       email
----------- ---------- ------------
1           John       John-email
2           John       John-email
5           sam        sam-email
6           sam        sam-email

(4 row(s) affected)

для видалення дублікатів спробуйте:

DELETE d
    FROM @YourTable d
        INNER JOIN (SELECT
                        y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
                        FROM @YourTable y
                            INNER JOIN (SELECT
                                            name,email, COUNT(*) AS CountOf
                                            FROM @YourTable
                                            GROUP BY name,email
                                            HAVING COUNT(*)>1
                                        ) dt ON y.name=dt.name AND y.email=dt.email
                   ) dt2 ON d.id=dt2.id
        WHERE dt2.RowRank!=1
SELECT * FROM @YourTable

ВИХІД:

id          name       email
----------- ---------- --------------
1           John       John-email
3           fred       John-email
4           fred       fred-email
5           sam        sam-email

(4 row(s) affected)

simhumileco

Edited answer 10-го квітня 2018 в 8:46

348

0

Chris Van Opstal

7-го квітня 2010 в 6:20

Ще

Спробуй це:

SELECT name, email
FROM users
GROUP BY name, email
HAVING ( COUNT(*) > 1 )

110

0

Додати питання

Категорії

Все

Технологія

Культура / Відпочинок

Життя / Мистецтво

Наука

Професіонал

Бізнес

Користувачі

All

New

Popular

1

Ксения Комарова

Registered 3 тижні тому

2

Артур «Апер»

Registered 2 місяці тому

3

Viktor Malyutin

Registered 2 місяці тому

4

Viktor Malyutin

Registered 2 місяці тому

5

Syahputra Zhedenk

Registered 2 місяці тому

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

gbn · Accepted Answer · 2010-04-07T18:20:18+00:00

SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

Просто згрупуйте в обох стовпчиках.

Примітка: за старим стандартом ANSI всі неагреговані стовпці повинні бути в GROUP BY, але це змінилося з ідеєю "функціональної залежності":

У теорії реляційних баз даних функціональна залежність - це обмеження між двома наборами атрибутів у відношенні з бази даних. Іншими словами, функціональна залежність - це обмеження, яке описує зв'язок між атрибутами у відношенні.

Підтримка не є послідовною:

Останні версії PostgreSQL підтримує.
SQL Server (як і в SQL Server 2017) як і раніше вимагає всі неагреговані стовпці в GROUP BY.
MySQL непередбачуваний і вам потрібно ql_mode=only_full_group_by:
https://stackoverflow.com/q/10894820/27535;
https://stackoverflow.com/questions/6060241/which-is-the-least-expensive-aggregate-function-in-the-absence-of-any/6060414#6060414 (див. коментар у прийнятій відповіді).
Oracle не є достатньо мейнстрімом (попередження: гумор, я не знаю про Oracle).