Data Science Missing Values?
Servus, ich habe mal eine Frage zu fehlenden Werten in Datensätzen.
Es gibt ja verschiedene Methoden, wie man mit fehlenden Werten umgehen kann (Median, Mittelwert, Lineare Regression, deletion usw.)
Ich frage mich jedoch, was wann Sinn macht?
Ist eine Lineare Regression immer besser als imputation (soweit Korrelation vorhanden)?
Wann sollte man eine Zeile oder Spalte löschen?
Gibt es da vielleicht ein paar Faustregeln, an die man sich orientieren kann?
Mir ist schon klar, dass man das nicht zu 100 Prozent pauschalisieren kann, da es auf den jeweiligen Fall ankommt, aber ein paar Anhaltspunkte wären mal ganz gut :)
Danke im Voraus!
1 Antwort
Das kann von der zu lösenden Aufgabe nicht getrennt werden.
Spannend ist einmal die Frage, ob ein Wert NULL oder Null ist. Das kannst Du in vielen Datenbanken einstellen, was dann passieren soll, indem Du Trigger definierst.
Etwa bei einem Datum wirst Du Null-Werte tunlichst filtern oder negative Werte. Wobei manche negative Werte als Daten vor dem 1.1.1900 interpretiert werden. Steht bei einem Datum kein Wert, dann kann Löschen Sinn machen.
Bei Zahlenreihen ist relevant, worauf es ankommt. Willst Du etwa den maximalen Wasserstand für einen Deich berechnen, wäre es gar nicht günstig, etwa den Median zu verwenden.
Zusammenfassung: es kommt darauf an.