Was ist der Unterschied zwischen diskreten Daten und kontinuierlichen Daten?
Diskrete Daten können nur bestimmte Werte annehmen. Es kann potenziell eine unendliche Anzahl dieser Werte geben, aber jeder ist eindeutig und es gibt keine Grauzone dazwischen. Diskrete Daten können numerisch sein - wie die Anzahl der Äpfel - aber sie können auch kategorisch sein - wie rot oder blau, männlich oder weiblich, gut oder schlecht.
Kontinuierliche Daten sind nicht auf definierte Einzelwerte beschränkt, sondern können jeden beliebigen Wert innerhalb eines kontinuierlichen Bereichs annehmen. Zwischen zwei beliebigen kontinuierlichen Datenwerten kann es unendlich viele andere geben. Kontinuierliche Daten sind im Wesentlichen immer numerisch.
Manchmal ist es sinnvoll, numerische Daten, die eigentlich dem einen Typ angehören, als Daten des anderen Typs zu behandeln. So ist z. B. die Höhe ein kontinuierlicher Wert, aber oft sind uns winzige Unterschiede egal und wir gruppieren die Höhe in eine Reihe von diskreten Bins. Umgekehrt, wenn wir große Mengen einer diskreten Einheit zählen - Reiskörner, Termiten oder Pfennige in der Wirtschaft - können wir 2.000.006 und 2.000.008 nicht als entscheidend unterschiedliche Werte betrachten, sondern als nahegelegene Punkte auf einem ungefähren Kontinuum.
Manchmal kann es auch sinnvoll sein, numerische Daten als kategorisch zu behandeln, z. B. untergewichtig, normal, fettleibig. Dies ist in der Regel nur eine andere Art von Binning.
Selten ist es sinnvoll, kategorische Daten als kontinuierlich zu betrachten.
Daten sind immer diskret. Bei einer Stichprobe von n
Werten für eine Variable ist die maximale Anzahl der unterschiedlichen Werte, die die Variable annehmen kann, gleich n
. Siehe dieses Zitat
Alle tatsächlichen Stichprobenräume sind diskret, und alle beobachtbaren Zufalls
Variablen haben diskrete Verteilungen. Die kontinuierliche Verteilung ist eine mathematische Konstruktion, die sich für eine mathematische Behandlung eignet, aber nicht praktisch beobachtbar. E.J.G. Pitman (1979, S. 1).
Bei Daten über eine Variable wird in der Regel davon ausgegangen, dass sie aus einer Zufallsvariablen gezogen werden. Die Zufallsvariable ist über einen Bereich kontinuierlich, wenn es eine unendliche Anzahl möglicher Werte gibt, die die Variable zwischen zwei verschiedenen Punkten in dem Bereich annehmen kann. Zum Beispiel werden Größe, Gewicht und Zeit normalerweise als kontinuierlich angenommen. Natürlich ist jede Messung dieser Variablen endlich genau und in gewisser Weise Sinne diskret.
Es ist sinnvoll, zwischen geordneten (d.h. ordinalen), ungeordneten (d.h. nominalen), und binären diskreten Variablen.
Einige Einführungslehrbücher verwechseln eine kontinuierliche Variable mit einer numerischen Variable. So ist z. B. eine Punktzahl bei einem Computerspiel diskret, obwohl sie numerisch ist.
In manchen Einführungslehrbüchern werden Verhältnisvariablen mit kontinuierlichen Variablen verwechselt. Eine Zählvariable ist eine Verhältnisvariable, aber sie ist nicht kontinuierlich.
In der Praxis wird eine Variable oft als kontinuierlich behandelt, wenn sie eine ausreichend große Anzahl verschiedener Werte annehmen kann.
Die Temperaturen sind kontinuierlich. Sie kann 23 Grad, 23,1 Grad, 23,100004 Grad betragen.
Das Geschlecht ist diskret. Man kann nur männlich oder weiblich sein (jedenfalls im klassischen Denken). Etwas, das man mit einer ganzen Zahl wie 1, 2, etc. darstellen kann.
Der Unterschied ist wichtig, da viele Statistik- und Data-Mining-Algorithmen mit dem einen Typ umgehen können, mit dem anderen aber nicht. Bei einer normalen Regression muss Y beispielsweise kontinuierlich sein. Bei der logistischen Regression ist das Y diskret.