Легко найти дубликаты с помощью одного поля:
SELECT name, COUNT(email)
FROM users
GROUP BY email
HAVING COUNT(email) > 1
Итак, если у нас есть таблица
ID NAME EMAIL
1 John [email protected]
2 Sam [email protected]
3 Tom [email protected]
4 Bob [email protected]
5 Tom [email protected]
Этот запрос даст нам John, Sam, Tom, Tom, Tom, потому что у них у всех одинаковый email
.
Однако я хочу получить дубликаты с одинаковой email
и name
.
То есть, я хочу получить "Том", "Том".
Причина, по которой мне это нужно: Я допустил ошибку и позволил вставить дубликаты значений name
и email
. Теперь мне нужно удалить/изменить дубликаты, поэтому мне нужно сначала найти их.
SELECT
name, email, COUNT(*)
FROM
users
GROUP BY
name, email
HAVING
COUNT(*) > 1
Просто сгруппируйте оба столбца.
Примечание: по старому стандарту ANSI в GROUP BY должны быть все неагрегированные столбцы, но это изменилось с появлением идеи "функциональной зависимости":
В теории реляционных баз данных функциональная зависимость - это ограничение между двумя наборами атрибутов в отношении из базы данных. Другими словами, функциональная зависимость - это ограничение, которое описывает связь между атрибутами в отношении.
Поддержка не является последовательной:
sql_mode=only_full_group_by
:попробуйте это:
declare @YourTable table (id int, name varchar(10), email varchar(50))
INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')
SELECT
name,email, COUNT(*) AS CountOf
FROM @YourTable
GROUP BY name,email
HAVING COUNT(*)>1
ВЫХОД:
name email CountOf
---------- ----------- -----------
John John-email 2
sam sam-email 2
(2 row(s) affected)
если вам нужны идентификаторы dups, используйте это:
SELECT
y.id,y.name,y.email
FROM @YourTable y
INNER JOIN (SELECT
name,email, COUNT(*) AS CountOf
FROM @YourTable
GROUP BY name,email
HAVING COUNT(*)>1
) dt ON y.name=dt.name AND y.email=dt.email
OUTPUT:
id name email
----------- ---------- ------------
1 John John-email
2 John John-email
5 sam sam-email
6 sam sam-email
(4 row(s) affected)
для удаления дубликатов попробуйте:
DELETE d
FROM @YourTable d
INNER JOIN (SELECT
y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
FROM @YourTable y
INNER JOIN (SELECT
name,email, COUNT(*) AS CountOf
FROM @YourTable
GROUP BY name,email
HAVING COUNT(*)>1
) dt ON y.name=dt.name AND y.email=dt.email
) dt2 ON d.id=dt2.id
WHERE dt2.RowRank!=1
SELECT * FROM @YourTable
OUTPUT:
id name email
----------- ---------- --------------
1 John John-email
3 fred John-email
4 fred fred-email
5 sam sam-email
(4 row(s) affected)
Попробуйте это:
SELECT name, email
FROM users
GROUP BY name, email
HAVING ( COUNT(*) > 1 )
Если вы хотите удалить дубликаты, здесь'ы гораздо более простой способ сделать это, чем того, чтобы найти четных/нечетных строк в трех суб-выберите:
SELECT id, name, email
FROM users u, users u2
WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id
И так чтобы удалить:
DELETE FROM users
WHERE id IN (
SELECT id/*, name, email*/
FROM users u, users u2
WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id
)
Гораздо легче читать и понимать, ИМХО
Примечание: единственная проблема заключается в том, что вы должны выполнить запрос, пока нет рядов удален, поскольку вы удаляете только 1 из каждого дублировать каждый раз
Попробуйте следующее:
SELECT * FROM
(
SELECT Id, Name, Age, Comments, Row_Number() OVER(PARTITION BY Name, Age ORDER By Name)
AS Rank
FROM Customers
) AS B WHERE Rank>1
SELECT name, email
FROM users
WHERE email in
(SELECT email FROM users
GROUP BY email
HAVING COUNT(*)>1)
Немного опоздала на вечеринку, но я нашел очень крутой обходной путь, чтобы найти все повторяющиеся идентификаторы:
SELECT GROUP_CONCAT( id )
FROM users
GROUP BY email
HAVING ( COUNT(email) > 1 )
попробуйте этот код
WITH CTE AS
( SELECT Id, Name, Age, Comments, RN = ROW_NUMBER()OVER(PARTITION BY Name,Age ORDER BY ccn)
FROM ccnmaster )
select * from CTE
Этот выбор/удаляет все повторяющиеся записи, за исключением одной записи из каждой группы дубликатов. Итак, удалить все уникальные записи + одна запись из каждой группы дубликатов.
Выберите продублирую:
SELECT *
FROM table
WHERE
id NOT IN (
SELECT MIN(id)
FROM table
GROUP BY column1, column2
);
Удалить дубликаты:
DELETE FROM table
WHERE
id NOT IN (
SELECT MIN(id)
FROM table
GROUP BY column1, column2
);
Быть в курсе большого количества записей, это может привести к проблемам с производительностью.
В случае, если вы работаете с Oracle, этот способ будет предпочтительным:
create table my_users(id number, name varchar2(100), email varchar2(100));
insert into my_users values (1, 'John', '[email protected]');
insert into my_users values (2, 'Sam', '[email protected]');
insert into my_users values (3, 'Tom', '[email protected]');
insert into my_users values (4, 'Bob', '[email protected]');
insert into my_users values (5, 'Tom', '[email protected]');
commit;
select *
from my_users
where rowid not in (select min(rowid) from my_users group by name, email);
Если вы хотите, чтобы увидеть, если есть любые повторяющиеся строки в таблице, я использовал ниже запрос:
create table my_table(id int, name varchar(100), email varchar(100));
insert into my_table values (1, 'shekh', '[email protected]');
insert into my_table values (1, 'shekh', '[email protected]');
insert into my_table values (2, 'Aman', '[email protected]');
insert into my_table values (3, 'Tom', '[email protected]');
insert into my_table values (4, 'Raj', '[email protected]');
Select COUNT(1) As Total_Rows from my_table
Select Count(1) As Distinct_Rows from ( Select Distinct * from my_table) abc
Это самая легкая вещь, которую я'вэ придумать. Он использует обобщенное табличное выражение (CTE) и окно перегородки (я думаю, что эти функции в SQL 2008 и позже).
В этом примере выполняется поиск всех студентов с одинаковыми имя и DOB. Поля, которые вы хотите проверить на дублирование перейти в пункт. Вы можете включать любые другие поля, которые вы хотите в проекции.
with cte (StudentId, Fname, LName, DOB, RowCnt)
as (
SELECT StudentId, FirstName, LastName, DateOfBirth as DOB, SUM(1) OVER (Partition By FirstName, LastName, DateOfBirth) as RowCnt
FROM tblStudent
)
SELECT * from CTE where RowCnt > 1
ORDER BY DOB, LName
select id,name,COUNT(*) from India group by Id,Name having COUNT(*)>1
С помощью КТР также мы можем найти повторяющиеся значения такой
with MyCTE
as
(
select Name,EmailId,ROW_NUMBER() over(PARTITION BY EmailId order by id) as Duplicate from [Employees]
)
select * from MyCTE where Duplicate>1
Как мы можем посчитать повторяющиеся значения?? либо он повторяется 2 раза или больше 2. просто подсчитайте их, а не группы мудр.
как просто, как
select COUNT(distinct col_01) from Table_01
select emp.ename, emp.empno, dept.loc
from emp
inner join dept
on dept.deptno=emp.deptno
inner join
(select ename, count(*) from
emp
group by ename, deptno
having count(*) > 1)
t on emp.ename=t.ename order by emp.ename
/
Выберите ID, функция count(ID) из таблицы table1 группы по ID, имеющих счета(идентификатор)>1;
Я думаю, что это будет работать должным образом на поиск повторяющихся значений в определенном столбце.
Это должно также работать, может дать ему попробовать.
Select * from Users a
where EXISTS (Select * from Users b
where ( a.name = b.name
OR a.email = b.email)
and a.ID != b.id)
Особенно хороши в вашем случае, если вы ищите дубликаты, которые имеют какой-то префикс или общие изменения, как, например, новый домен в Почте. затем вы можете использовать замените() на эти колонки