Qual è la differenza tra dati discreti e dati continui?
I dati discreti possono assumere solo valori particolari. Ci può essere potenzialmente un numero infinito di quei valori, ma ognuno è distinto e non c'è un'area grigia in mezzo. I dati discreti possono essere numerici - come il numero di mele - ma possono anche essere categorici - come rosso o blu, o maschio o femmina, o buono o cattivo.
I dati continui non sono limitati a valori separati definiti, ma possono occupare qualsiasi valore in un intervallo continuo. Tra due qualsiasi valori di dati continui può essercene un numero infinito di altri. I dati continui sono sempre essenzialmente numerici.
A volte ha senso trattare i dati numerici che sono propriamente di un tipo come se fossero dell'altro. Per esempio, qualcosa come l'altezza è continua, ma spesso non ci importa molto delle differenze minime e invece raggruppiamo le altezze in un certo numero di bin discreti. Al contrario, se stiamo contando grandi quantità di qualche entità discreta - chicchi di riso, o termiti, o penny nell'economia - possiamo scegliere di non pensare a 2.000.006 e 2.000.008 come valori crucialmente diversi ma invece come punti vicini su un continuum approssimativo.
A volte può anche essere utile trattare i dati numerici come categorici, ad esempio: sottopeso, normale, obeso. Questo è di solito solo un altro tipo di binning.
Raramente ha senso considerare i dati categorici come continui.
I dati sono sempre discreti. Dato un campione di n
valori di una variabile, il numero massimo di valori distinti che la variabile può assumere è uguale a n
. Vedi questa citazione
Tutti gli spazi campione reali sono discreti, e tutte le variabili casuali osservabili
le variabili hanno distribuzioni discrete. La distribuzione continua è una costruzione matematica, adatta al trattamento matematico, ma non praticamente osservabile. E.J.G. Pitman (1979, p. 1).
I dati su una variabile sono tipicamente assunti come tratti da una variabile casuale. La variabile casuale è continua su un intervallo se c'è un numero infinito di possibili valori che la variabile può assumere tra qualsiasi due punti diversi nell'intervallo. Per esempio, l'altezza, il peso e il tempo sono tipicamente assunti come continui. Naturalmente, qualsiasi misurazione di queste variabili sarà finitamente accurata e in un certo senso discreto.
È utile distinguere tra variabili ordinate (cioè ordinali), non ordinate (cioè nominali), e variabili discrete binarie.
Alcuni libri di testo introduttivi confondono una variabile continua con una variabile numerica. Per esempio, un punteggio in un gioco per computer è discreto anche se è numerico.
Alcuni libri di testo introduttivi confondono una variabile di rapporto con le variabili continue. Una variabile di conteggio è una variabile di rapporto, ma non è continua.
Nella pratica, una variabile è spesso trattata come continua quando può assumere un numero sufficientemente grande di valori diversi.
Le temperature sono continue. Può essere 23 gradi, 23,1 gradi, 23,100004 gradi.
Il sesso è discreto. Puoi essere solo maschio o femmina (nel pensiero classico, comunque). Qualcosa che si può rappresentare con un numero intero come 1, 2, ecc.
La differenza è importante perché molti algoritmi statistici e di data mining possono gestire un tipo ma non l'altro. Per esempio nella regressione regolare, la Y deve essere continua. Nella regressione logistica la Y è discreta.