Statistik Datensatz: Wie werte ich richtig aus?
Ich habe ein allgemeines Problem mit einem Datensatz im Modul Statistik:
Ich habe einen Datensatz über Autos vorliegen. Dieser besteht aus den Spezifikationen eines Autos (Marke,Typ,Anzahl PS etc.), der Risikoeinstufung von -3(ziemlich sicher) bis +3 (riskant) und der durchschnittlichen Schadenszahlung pro versichertes Fahrzeugjahr.
Wir sollen zu diesem Datensatz (es handelt sich um eine Tabelle mit den entsprechenden Daten) eine Auswertung machen (Exposé schreiben, diskriptive und analytische Ergebnisse darlegen mit dem Programm R)
Leider hakt es schon beim Exposé. Unser Prof hat uns nicht gesagt, ob wir alle 3 Teilbereiche (Spezifikationen, Risikoeinstufung und Schadenszahlungen) miteinander vergleichen sollen oder ob wir uns ein Teilgebiet aussuchen sollen (z.B Spezifikationen). Würde es überhaupt Sinn ergeben die 3 Teilbereiche miteinander zu vergleichen? Oder macht es nur Sinn die Daten eines Teilbereiches miteinander zu vergleichen?
Leider habe ich auch überhaupt keine Ahnung von Autos.
Hier der Datensatz: https://www.kaggle.com/code/dronax/car-prices-dataset/notebook
Vorab vielen Dank für eure Hilfe !
1 Antwort
Da ich leider auch nicht so viel Ahnung von Autos habe, jedoch von meinen Mitmenschen das ein oder andere mitbekomme, würde ich mir ad-hoc anschauen, ob bestimmte Automarken (hier v.a. BMW, Mercedes, Audi) mit höheren Schadenszahlungen zusammenhängen. Grund: Vor allem jüngere und daher unerfahrenere Fahrer fahren vermehrt diese Automarken (gut, alte Leute fahren auch oft Mercedes), da sie generell leistungsstark sind und es daher zu häufigeren Unfällen führen.
Ein erster analytischer Ansatz wäre eine Anova, wo die AV die Schadenzahlungen und die UV die Automarken wären. Deskriptiv ließe sich dies gut mit Box-Plots visualisieren. Sollten sich aus der Anova signifikante Unterschiede ergeben, würde ich ein Regressionsmodell mit der gleichen AV bauen, jedoch um mehr UVs erweitern, z.B. PS, Typ etc.
Vielen lieben Dank für deine Antwort! Der Ansatz hört sich sehr interessant und sinnvoll an, damit werde ich arbeiten :)