Data Science Missing Values?

Servus, ich habe mal eine Frage zu fehlenden Werten in Datensätzen.

Es gibt ja verschiedene Methoden, wie man mit fehlenden Werten umgehen kann (Median, Mittelwert, Lineare Regression, deletion usw.)

Ich frage mich jedoch, was wann Sinn macht?

Ist eine Lineare Regression immer besser als imputation (soweit Korrelation vorhanden)?

Wann sollte man eine Zeile oder Spalte löschen?

Gibt es da vielleicht ein paar Faustregeln, an die man sich orientieren kann?

Mir ist schon klar, dass man das nicht zu 100 Prozent pauschalisieren kann, da es auf den jeweiligen Fall ankommt, aber ein paar Anhaltspunkte wären mal ganz gut :)

Danke im Voraus!

1 Antwort

Mauritan

15.05.2024, 16:49

Das kann von der zu lösenden Aufgabe nicht getrennt werden.

Spannend ist einmal die Frage, ob ein Wert NULL oder Null ist. Das kannst Du in vielen Datenbanken einstellen, was dann passieren soll, indem Du Trigger definierst.

Etwa bei einem Datum wirst Du Null-Werte tunlichst filtern oder negative Werte. Wobei manche negative Werte als Daten vor dem 1.1.1900 interpretiert werden. Steht bei einem Datum kein Wert, dann kann Löschen Sinn machen.

Bei Zahlenreihen ist relevant, worauf es ankommt. Willst Du etwa den maximalen Wasserstand für einen Deich berechnen, wäre es gar nicht günstig, etwa den Median zu verwenden.

Zusammenfassung: es kommt darauf an.

Woher ich das weiß:Studium / Ausbildung – siehe auch Computer

Ähnliche Beiträge

Wie behandle ich fehlende Werte bei Excel zur Berechnung des Mittelwertes der Abweichung zum Median?

Hallo liebe Excel-Freunde,

ich habe folgendes Problem. Ich habe eine Wertetabelle bei welcher ich je Spalte einen Median und das Mittel der absoluten Abweichung zum Median berechnen möchte. Das Problem. An manchen Stellen fehlen Werte. Bisher habe ich die einfach frei gelassen. Für den Median funktioniert das problemlos. Nur leider kommt dann bei der Abweichungsberechnung immer die berühmte Fehlermeldung #WERT!. Ich berechne den Mittelwert der Abweichungen zum Median bisher so:

=SUMME(ABS(AM11:AM14-MEDIAN(AM11:AM14)))/ANZAHL(AM11:AM14)

Weiß jemand, wie ich zu verfahren habe, damit das trotz fehlender Werte berechnet werden kann? Vielen Dank an alle die zu helfen wissen!!!

Viele Grüße

...zum Beitrag

Erreicht man mit Ausbildung Fachinformatiker 3000-4.000€ Netto?

Laut jemandem Ja.

Laut diesem Artikel

3.782 € Bruttogehalt (Median) bei 40 Wochenstunden: 50% der Datensätze liegen über diesem Wert und 50% darunter.

https://www.gehalt.de/beruf/fachinformatiker-fachinformatikerin

...zum Beitrag

Probleme mit dem Programm "R" Lineare Regression?

Hallo zusammen,

mein Problem ist, dass ich eine statistische Auswertung mit dem Programm "R" machen muss.

Meine Aufgabe ist einen Plot zu erstellen mit einer Regressionsgerade, aber jedes mal wenn ich diesen Befehl eingebe erhalte ich folgende Fehlermeldung.

plot(Bluehende_Pflanzenarten ~ Probestelle, data=Biodiversitaet)
Fehler in plot.window(...) : endliche 'xlim' Werte nötig
Zusätzlich: Warnmeldungen:
1: In xy.coords(x, y, xlabel, ylabel, log) : NAs durch Umwandlung erzeugt
2: In min(x) : kein nicht-fehlendes Argument für min; gebe Inf zurück
3: In max(x) : kein nicht-fehlendes Argument für max; gebe -Inf zurück

Ich habe keine Ahnung was ich falsch mache,

Hilfe wäre wirklich nett.

...zum Beitrag

Mittelwert-, Mediansplit bei SPSS

Hallo,

für eine lineare Regressionsanalyse muss ich einen Mittelwert- und Mediansplit durchführen. Bedeutet das, es wird kategorisiert in zwei Bereiche, und die Grenze ist der Mittelwert bzw. Median? Oder steckt noch mehr dahinter? Wie kann ich bei SPSS den Median berechnen lassen?

Vielen Dank für eure Hilfe!

Grüße

Patrick

...zum Beitrag

Fehlende Werte --> Wie Daten ersetzen in SPSS?

Hallo,

ich hatte hier eben schon eine Frage zu dem Thema gestellt und eine hilfreiche Antwort bekommen (danke an dieser Stelle). Leider kam dabei raus, dass ich wohl einen anderen Weg einschlagen muss, daher nun folgende Frage:

Wie ersetze ich in SPSS am besten fehlende Werte? Ich habe schon rausgefunden, dass man das über "Transformieren" --> "Fehlende Werte" macht. Hier kann man dann auswählen, auf welche Art man ersetzt, nämlich durch den: 1. Zeitreihen Mittelwert 2. Mittel der Nachbarpunkte 3. Median der Nachbarpunkte 4. Lineare Interpolation 5. Linearer Trend am Punkt

Was wählt man nun wann? Was ist am "besten"/genauesten? Ich hatte eben den Mittel der Nachbarpunkte gewählt und nun ein signifikantes Ergebnis. Für's erste natürlich erfreulich, ABER: wie aussagekräftig ist das nun??

Danke schon mal! Lieben Gruß Mariekje

...zum Beitrag

Mathematisches Pendel - wie kann man die Lineare Regression machen?

Hallo, wir haben ein Versuch gehabt zum mathematischen Pendel. Wir haben folgende Ergebnisse gemacht, nun weiß ich nicht, wie ich aus diesen werten eine Lineare Regression mache. Ich weiß nicht, was ich in die y und x Achse eintragen soll.

Links oben sieht man die Länge (l) des Fadens unten drunnter 0,97m . Das haben wir benutzt. Wir haben 9 Schwingungsdauern festgehalten. Das war dann die 1 Messung.

Danach haben wir eine zweite Messung gemacht usw....

Wie soll ich aus den Werten eine Lineare Regression machen? Wenn ich doch bloß wüsste, was ich in die x und y Achse eintragen sollte

...zum Beitrag

Daten auswertung mit Python ideen gesucht?

Servus ich brühte gerade über meinen Daten. ich habe mal einen Standard Graphen angehängt. Ich habe effektiv viele Datensätze die dem bsp plot ähnlich sehen. Ich muss immer den Hochpunkt und diesen 2 "Hügel" extrahieren. Benötigen tue ich nur den x Wert.

Erstmal der Graph:

Nun dachte ich erst dass ich einfach über mein array die amin und amax Funktion drüber rennen lasse, dies hat nicht so recht funktioniert (makiert im ersten Diagramm).
Der 2 Ansatz war dass ich die numerische Ableitung bilde ( Also einfach die Steigung?) und die mal plotte.

Nun ist mir klar dass ich einfach immer den bereich suche in dem meine Steigung "Konstant" ist. Nun stehe ich gerade einwenig auf dem Schlauch wie ich dass gut machen könnte? Dachte an einen Dynmaischen Mittelwert der immer aus x Datenpunkten generiert wird um den Datenpunkt den ich gerade überprüfen möchte. Ist aber auch nicht so gut umsetzbar.

Wäre super wenn jemand eine idee hat.

...zum Beitrag

Mittelwert aus ordinal skalierten Werten?

Hallo,

offiziell "darf" man ja keinen MIttelwert aus ordinal skalierten Werten bilden, sondern nur einen Median.

Warum eigentlich nicht? Wenn ich eine Bewertungs-Skala von 1-5 in einer Befragung habe, dann ist der Median z.B. 3 oder 4. Aber wenn ich jetzt einen Mittelwert von 3,51 bekomme, ist das doch viel genauer.

Könnt Ihr mir das erklären?

...zum Beitrag

SPSS Regression vs Correlation?

Ich bräuche dringend eure Hilfe.

Im Screenshot seht ihr wie ich zuerst eine Korrelation durchgeführt habe.

Dann eine lineare Regression mit drei unabhängigen Variablen.

Dann eine lineare Regression mit nur einer unabhängigen Variable.

(Es handelt sich immer um die gleichen Variablen)

Bei der Regression mit nur einer unabhängigen Variable (Social Benefit) erhalte ich den gleichen Beta wie in der Correlationstabelle und Social Benefits --> Revisit ist signifikant!

Wenn ich jedoch alle drei unabhängigen Variablen in die Regression packe, dann erhalte ich ein ganz anderes Beta und auch nicht signifikant.

Nun weiß ich nicht was ich für meine Hypothesenn verwenden muss. Alle drei unabhängigen Variablen in der Regression oder die unabhängigen Variablen jeweils einzeln testen?

H1: Je höher der soziale Nutzen, desto höher ist die Wiederkaufsabsicht

H2: Je höher der finanzielle Nutzen, desto höher ist die Wiederkaufsabsicht

H3: Je höher der hedonische Nutzen, desto höher ist die Wiederkaufsabsicht

Ich bitte um dringende Hilfe.

DANKE

...zum Beitrag

Addition Standardabweichungen/ Mediane usw.

Hallo, ich hab das mal eine kurze Frage. Ich hab drei Zahlenreihen mit einer verschieden Anzahl von Werten, welche Zeitabschnitte (Wartezeiten) angeben.

Bsp. Zahlenreihe1 n=50; Zahlenreihe2 n=50; Zahlenreihe3 n=30 ZR steht später für Zahlenreihe

Für jede dieser Zahlenreihen habe ich Min, Max, Spannweite, Median, Mittel und Standardabweichung errechnet. Jetzt strebe ich eine Zusammenführung der Werte an. Ich beabsichtige Min, Max, Spannweite und Mittelwerte der einzelnen Zahlenreihen einfach zu addieren, das sollte ja klappen. Nun zur Frage:

Kann ich die Mediane einfach addieren? Ist dies zulässig?
Ist es korrekt folgende Formel zur Zusammenführung der Standardabweichungen zu nutzen: Staabw.gesamt = Wurzel (StaabwZR1²+StaabwZR2²+StaabwZR3²)

...zum Beitrag

Lineare Regression - kategoriale UV - wie interpretieren?

Ich habe in meiner linearen Regression unter anderem eine binäre kategoriale Variable als UV (Verletzung ja/ Verletzung nein. Die AV sind Depressionssymptome, die zum Baseline-Zeitpunkt und nach einem Follow-up von sechs Monaten erhoben wurden.

Deskriptive Analysen mit den Follow-Up-Werten zeigen, dass anfänglich Verletzte nach 6 Monaten im Schnitt leicht höhere Werte haben als Nicht-Verletze (zwar nicht signifikant).
Hingegen zeigt die Regressionsanalyse, dass eine Verletzung ein signifikanter Prädiktor ist, indem sie die Symptome senken kann. Beziehungsweise, dass verletzte Athleten im Schnitt eine tiefere Symptomatik aufweisen als nicht-verletzte.

Kann das sein?

...zum Beitrag

Wie generiert man Zufallswerte aus einem Mittelwert?

Hallo zusammen,

Mein Anliegen ist wie folgt: ich möchte alte Datensätze vervollständigen habe jedoch nur noch die Mittelwerte, die damals aus vier einzelnen Werten errechnet wurden sind. Beispiel der Mittelwert 11.5 und ich suche ein Programm, Formel oder ähnliches der mir vier Zufallszahlen generiert die zusammen den Mittelwert ergeben. Die zahlen sollen aber unterschiedlich sein also nicht einfach 11.5/4 rechnen.

Kennt jemand eine Formel oder Angehensweise um dieses Problem zu lösen?

Vielen Dank!

...zum Beitrag

Warum wird mir der Mittelwert falsch ausgespuckt in Excel?

Hallo , leider spuckt mir excel immer den falschen Mittelwert aus, der Linke unten ist der welcher falsch ist und der Rechte unten in dem blauen Feld ist der, welcher der richtige sein soll. Zuerst habe ich die Formel angewendet:

=MEDIAN(B3:B32)

in einem fall habe ich sogar in die leeren Felder den Wert 0 eingetragen, doch auch das hat nichts gebracht

dann habe ich diese angewendet in welcher ich die freien Tage diesmal rausgelassen habe:

=MEDIAN(B3:B10;B12:B17;B19:B24;B26:B31;B33) leider erscheint dann wieder ein falscher Wert

Hat jemand eine Idee ?

...zum Beitrag

Wie kann ich bei einer gefilterten Liste in Excel den Median berechnen?

Hallo,

wie kann ich in Excel in einer gefilterten Liste den Median berechnen?

Bei den Funktionen Durchschnitt, Min und Max funktioniert das wunderbar mit der Teilergebnis-Funktion. Die Kennzahlen beziehen sich hier im Anfangszustand (wenn noch kein Filter aktiv ist) auf alle vorhandenen Werte. Sobald man einen Filter aktiviert und z.B. nur noch 20 Datensätze angezeigt werden, werden die Kennzahlen automatisch angepasst.

Leider funktioniert diese Vorgehensweise nicht beim Median. Kann mir jemand erklären, wie ich das bewerkstelligen kann?

Vielen Dank!

MfG

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen