ImmobilienScout24 Mining Teil 4.3: Zusammenhänge mit Scatterplots
Nachdem wir uns im letzten Artikel Boxplots angesehen haben, beschäftigen wir uns jetzt mit einer Art der Visualisierung, mit der man alle Daten auf einmal darstellen und Zusammenhänge entdecken kann – nämlich Scatterplots.
Bis jetzt haben wir schon einiges gelernt:
- wie man einen Screen Scraper baut
- wie man einen Datensatz grundlegend säubert
- was EDA ist und wie man Verteilungen visualisieren kann
- was Boxplots sind und wie man sie nutzt
Was sind Scatterplots?
Scatterplots sind Diagramme, wie wir sie noch aus der Schule kennen. Eine X-Achse, eine Y-Achse, viele Punkte. Sie dienen dazu, zwei Merkmale eines Elements aus einer Stichprobe gleichzeitig darzustellen. Oft kann man mit ihrer Hilfe schon erahnen, ob es einen Zusammenhang zwischen zwei Variablen gibt oder nicht. Schauen wir uns anhand der Wohnungsdaten ein Beispiel an.
plt.scatter(df.obj_livingSpace,df.obj_baseRent,marker=".",alpha=0.2) plt.xlabel("Wohnfläche in m²") plt.ylabel("Kaltmiete") plt.xlim(0,250) plt.ylim(0,4000) plt.show()
Das Diagramm zeigt einen Scatterplot der Kaltmiete in Abhängigkeit von der Wohnfläche aller Wohnungen im Datensatz (um genau zu sein sind es 99,81%, der Rest sind starke Ausreißer). Wie schon gesagt werden die Daten hier keinen Berechnungen unterzogen. Sie werden einfach gezeigt, wie sie sind. Deshalb sind Streudiagramme ein geeignetes Mittel, um sich mit einem Datensatz vertraut zu machen. Allein durch scharfes hinsehen kann man erkennen, dass die meisten Wohnungen wohl kleiner sind als 150m² und weniger kosten als 1.500 Euro (Danke, Captain Obvious). Darüber hinaus sieht man einen positiven Zusammenhang zwischen der Wohnfläche und der Kaltmiete einer Wohnung. Man braucht keinerlei Wissen über p-Werte oder Korrelationskoeffizienten, um diese Aussagen treffen zu können. Ob und wie man solche erahnten Zusammenhänge überprüfen, beweisen oder widerlegen kann, werden wir später herausfinden.
Hi,
ich habe deine Serie gerade eben bemerkt und finde die Erklärungen super!
Wann können wir auf den nächsten Teil hoffen?
Grüße,
Markus
Hi Markus, danke für dein Interesse an der Beitragsreihe! Einer der nächsten Beiträge wird eine Fortführung der Reihe sein. Was interessiert dich denn besonders an dem Thema? 🙂
Viele Grüße
Chris
Coole Artikelserie. Interessant faende ich noch, Verkaufspreise und Mieten (pro m2) zu vergleichen um zu sehen wo sich kaufen gegen mieten lohnt.