Come posso rimuovere le righe duplicate?

Question

Altro

Question

Come posso rimuovere le righe duplicate?

Qual è il modo migliore per rimuovere le righe duplicate da una tabella SQL Server abbastanza grande (cioè 300.000+ righe)?

Le righe, ovviamente, non saranno duplicati perfetti a causa dell'esistenza del campo di identità RowID.

MyTable

RowID int not null identity(1,1) primary key,
Col1 varchar(20) not null,
Col2 varchar(2048) not null,
Col3 tinyint not null

DineshDB

Domanda modificata 28º marzo 2018 в 10:48

tsql

Solution / Answer

20º agosto 2008 в 9:53

Altro

C'è un buon articolo sulla rimozione dei duplicati sul sito del supporto Microsoft. È piuttosto conservativo - ti fanno fare tutto in passi separati - ma dovrebbe funzionare bene con tabelle grandi.

Ho usato self-join per fare questo in passato, anche se probabilmente potrebbe essere migliorato con una clausola HAVING:

DELETE dupes
FROM MyTable dupes, MyTable fullTable
WHERE dupes.dupField = fullTable.dupField 
AND dupes.secondDupField = fullTable.secondDupField 
AND dupes.uniqueField > fullTable.uniqueField

Ivan Yurchenko

Risposta modificata 19º giugno 2017 в 11:36

Remove duplicate rows from a table in SQL Server - SQL Server | Microsoft Learn

This article provides a script that you can use to remove duplicate rows from a SQL Server table.

support.microsoft.com

146

0

Aggiungi domanda

Categorie

Tutti

Tecnologia

Cultura / Tempo Libero

Vita / Arte

Scienza

Professionista

Business

Utenti

Tutti

Nuovo

Popolare

1

Ксения Комарова

Registrato 2 settimane fa

2

3

4

5

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

Mark Brackett · Accepted Answer · 2008-08-20T22:00:00+00:00

Supponendo che non ci siano null, si GROUP BY le colonne uniche, e SELECT il MIN (o MAX) RowId come riga da mantenere. Poi, cancella semplicemente tutto ciò che non ha un id di riga:

DELETE FROM MyTable
LEFT OUTER JOIN (
   SELECT MIN(RowId) as RowId, Col1, Col2, Col3 
   FROM MyTable 
   GROUP BY Col1, Col2, Col3
) as KeepRows ON
   MyTable.RowId = KeepRows.RowId
WHERE
   KeepRows.RowId IS NULL

Nel caso tu abbia un GUID invece di un intero, puoi sostituire

MIN(RowId)

con

CONVERT(uniqueidentifier, MIN(CONVERT(char(36), MyGuidColumn)))