複数の列でSELECT DISTINCTを行うにはどうしたらいいですか？

Question

さらに

質問

複数の列でSELECT DISTINCTを行うにはどうしたらいいですか？

2つの列の組み合わせがすべて異なるテーブルから、すべての行を取得する必要があります。つまり、同じ日に同じ価格で発生した他の売上がないすべての売上を取得したいのです。日にちと価格に基づいてユニークな売上は、アクティブなステータスに更新されます。

と考えています。

UPDATE sales
SET status = 'ACTIVE'
WHERE id IN (SELECT DISTINCT (saleprice, saledate), id, count(id)
             FROM sales
             HAVING count = 1)

しかし、それ以上になると頭が痛くなります。

Erwin Brandstetter

編集された質問 22日 8月 2014 в 12:07

sql

解決策・回答

28日 9月 2012 в 12:50

さらに

これまでの答えをまとめ、整理し、改善していくと、このような優れた問いにたどり着きます。

UPDATE sales
SET    status = 'ACTIVE'
WHERE  (saleprice, saledate) IN (
    SELECT saleprice, saledate
    FROM   sales
    GROUP  BY saleprice, saledate
    HAVING count(*) = 1 
    );

これはどちらよりもはるかに高速です。PostgreSQL 8.4と9.1での私のテストでは）現在受け入れられている答えの性能を10～15倍にしています。

しかし、これはまだ最適とは言えません。より良いパフォーマンスを得るためには、NOT EXISTS` (アンチ)セミジョインを使用してください。EXISTS`は標準的なSQLで、ずっと存在しており（少なくともPostgreSQL 7.2以降、この質問がされるずっと前から存在していました）、提示された要件に完全に適合します。

UPDATE sales s
SET    status = 'ACTIVE'
WHERE  NOT EXISTS (
   SELECT FROM sales s1                     -- SELECT list can be empty for EXISTS
   WHERE  s.saleprice = s1.saleprice
   AND    s.saledate  = s1.saledate
   AND    s.id <> s1.id                     -- except for row itself
   )
AND    s.status IS DISTINCT FROM 'ACTIVE';  -- avoid empty updates. see below

db<>fiddle here 古いSQLフィドルを参照してください。

行を識別する一意のキー

テーブルの主キーやユニークキー(例では id)がない場合、このクエリの目的ではシステムカラム ctid で代用できます(他の目的では使えません)。

   AND    s1.ctid <> s.ctid

_{すべてのテーブルには主キーが必要です。まだ持っていない場合は追加してください。Postgres 10+では、serialまたはIDENTITYカラムをお勧めします。}

どうやって速くなったの？

EXISTS`アンチセミジョインのサブクエリは、最初の重複が見つかった時点で評価を停止することができます（それ以上調べる意味がありません）。重複が少ない基本テーブルでは、これはわずかに効率が良いだけです。重複が多い場合、これは非常に効率的になります。

空の更新を除外する

すでに「status = 'ACTIVE'」となっている行に対して、この更新は何も変更しませんが、フルコストで新しい行バージョンを挿入します(細かい例外があります)。通常、これは望ましくありません。これを避けるために、上のデモのように別の WHERE 条件を追加し、さらに高速化します。

statusがNOT NULL` と定義されている場合、以下のように単純化することができます。

AND status <> 'ACTIVE';

NULL処理の微妙な違い

このクエリは、現在Joel氏によって受け入れられている回答とは異なり、NULL値を同じものとして扱いません。以下の (saleprice, saledate) の2つの行は、(人間の目には同じに見えるが) "distinct"とみなされます。

(123, NULL)
(123, NULL)

また、SQL標準ではNULL値は比較して等しくならないので、ユニークインデックスや他のほとんどの場所でも通過します。ご覧ください。

https://stackoverflow.com/questions/8289100/create-unique-constraint-with-null-columns/8289253#8289253

一方、GROUP BYやDISTINCT、DISTINCT ON ()では、NULL値は等しいものとして扱われます。何を実現したいかによって、適切なクエリスタイルを使用してください。この高速なクエリでも、すべての比較において = の代わりに IS NOT DISTINCT FROM を使用することで、NULLの比較を等しくすることができます。続きを読む

https://stackoverflow.com/questions/26769454/how-to-delete-duplicate-rows-without-unique-identifier/26773018#26773018

比較されるすべての列が NOT NULL と定義されている場合は、意見の相違はありません。

Erwin Brandstetter

編集した答え 7日 5月 2019 в 10:31

a free online environment to experiment with SQL and other code

dbfiddle.uk

330

0

Christian Berg

10日 9月 2008 в 4:17

さらに

このクエリの問題点は、GROUP BY句（基本的にはdistinctを使用して行います）を使用する場合、グループ化または集約関数を使用したカラムしか使用できないことです。異なる値が存在する可能性があるため、カラムidは使用できません。あなたの場合、HAVING 句を使っているので、値は常に 1 つしかありませんが、ほとんどの RDBMS はそれを認識するほど賢くありません。

しかし、これはうまくいくはずです(そしてjoinは必要ありません)。

UPDATE sales
SET status='ACTIVE'
WHERE id IN (
  SELECT MIN(id) FROM sales
  GROUP BY saleprice, saledate
  HAVING COUNT(id) = 1
)

MINの代わりにMAXやAVGを使用することもできますが、重要なのは、一致する行が1つしかない場合に列の値を返す関数を使用することです。

23

0

質問の追加

カテゴリ

すべて

技術情報

文化・レクリエーション

生活・芸術

科学

プロフェッショナル

事業内容

ユーザー

すべて

新しい