ImmobilienScout24 Mining Teil 1: Worum geht es?

In dieser Artikelreihe grabe ich tief in den Daten von ImmobilienScout24. Dabei zeige ich dir, wie Data Mining funktionieren kann und wie leicht man an interessante Daten kommt, wenn man mit einer gut strukturierten Webseite arbeitet. Außerdem werden wir zusammen in die Welt der explorativen Datenanalyse eintauchen und uns am einen oder anderen Machine-Learning-Algorithmus versuchen.

Der Anfang war vorn – Zillow & Zestimate

Vor einer Weile bin ich auf einen Podcast von DATA SKEPTIC gestoßen, in dem es um die Immobiliensuchmaschine Zillow geht. Hier kannst du – ähnlich wie bei ImmobilienScout24 – nach Immobilien suchen oder diese anbieten. Mit monatlich über 160 Mio.  Besuchern scheint das Geschäftsmodell aufzugehen. Auch kann Zillow auf Daten von 110 Mio. Häusern und Wohnungen zurückgreifen. Wenn das mal keine Goldgrube für jeden Daten-Connaisseur ist! Welch schöne Scatterplots mit riesigen Punktwolken man mit so einer Datenbasis erstellen könnte: Mal positiv oder negativ korreliert, mal ohne sichtbaren Zusammenhang. Neben den zwei grundlegenden Variablen macht man die Größe der Datenpunkte abhängig von einer dritten Variable. Ein Traum! Doch ich schweife ab…

Was ist mein Haus wert?

Eines der Features von Zillow ist Zestimate. Mit dieser Funktion kannst du den Wert deines Eigenheims schätzen lassen, was für den Verkauf sehr hilfreich sein kann. Doch wie errechnet Zestimate diesen Wert überhaupt? Dafür braucht es erst einmal eine Datengrundlage. Laut Andrew Martin – dem Senior Data Scientist bei Zillow – stützt sich Zestimate auf zwei Hauptarten von Daten. Zum einen öffentliche Daten der jeweiligen Gemeinden. Da die Gemeinden Grundsteuern erheben und damit ein Interesse am Wert der Grundstücke haben, sammeln sie Daten über deren Eigenschaften. Zum anderen werden Daten genutzt, die von privaten Maklerbüros und Agenturen zur Verfügung gestellt werden. Schon das Zusammenführen der Daten aus Hunderten von Agenturen und Gemeinden ist eine Kunst für sich. Dafür gibt es den sogenannten Data Engineer. Dieser bereitet die Daten vor, er erschafft also die Dateninfrastruktur in einer Weise, dass anschließend der Data Analyst oder Data Scientist hoffentlich problemfrei mit ihr arbeiten kann.

Zurück zur Berechnung

Eins vorweg: Sie ist komplex. Um genau zu sein ist sie so komplex, dass sie auf kein Blatt Papier passt. Und genau darum geht es im Podcast. Zillow veranstaltet nämlich gerade einen Wettbewerb, in dem sich das Team mit der genausten Methode zur Berechnung von Immobilienwerten über ein Preisgeld von 1,2 Mio. Dollar freuen darf. Um solch ein statistisches Modell aufzustellen, braucht man zu allererst Daten. Und diese bekommen die Teams auch. Jeder kann – nach Anmeldung – die Daten herunterladen. Und was soll ich sagen? Ein ganzer Haufen an Daten! Eine der Tabellen beinhaltet knapp 3 Mio. Immobilien, welche sich im Jahr 2016 in den USA auf dem Markt befanden. Damit kann man doch arbeiten!

Zillow selbst arbeitet momentan mit einem eigens entwickelten Modell, dessen Vorhersagen bezüglich des Verkaufspreises im Mittel um rund 5 Prozent vom tatsächlichen Verkaufspreis abweichen. Das kann sich sehen lassen. Deshalb ist Zestimate auch jetzt schon ein guter Anhaltspunkt für Menschen, die ihr Haus verkaufen wollen.

Und weiter zurück zum Immo-Mining

Der Podcast hat mich ziemlich beeindruckt und ich habe mir die Frage gestellt, ob man ähnliches nicht auch auf dem deutschen Immobilienmarkt versuchen könnte? Alles schön und gut, aber dafür benötigt man erst mal genug Daten von Immobilien. Eine Sekunde nachgedacht: ImmobilienScout24! Wegen ihrer einheitlichen Struktur ist die Seite wie gemacht zum Daten sammeln.

ImmobilienScout24? Kennste?

Dürfte den meisten wohl ein Begriff sein. Viele haben die Seite bestimmt schon genutzt, um nach einer Wohnung oder vielleicht sogar einem Haus zu suchen. Doch nicht nur Menschen mit dem Bedürfnis nach einer neuen Bleibe werden von Immobilienscout angezogen. Auch der gemeine Statistikliebhaber sieht in der Website enormes Potenzial. Er malt sich nämlich die Möglichkeiten aus, wie er mit den gezeigten Daten den deutschen Immobilienmarkt auswerten könnte. Klar, Wohnfläche mit Kaltmiete zusammen in ein Diagramm zu packen und dann einen signifikant positiven Zusammenhang zu beobachten… das kann man natürlich machen (langweilig (ich werde es trotzdem tun)). Aber ist es nicht viel interessanter, herauszufinden, ob zum Beispiel die Zahl der Balkons mit dem Baujahr korreliert? Wie viel man im Schnitt an Miete drauf zahlt, um einen Keller zu bekommen? Oder wie viele Hektar das Wohnzimmer einer Wohnung in Klein-Kleckersdorf hat, die genauso viel kostet wie ein WG-Zimmer in Berlin Prenzlauer Berg? Letzteres natürlich mit Internet.

Beim durchstöbern von Immobilienscout ist mir aufgefallen, dass es weit mehr als 30 auswertbare Eigenschaften pro Wohnung gibt. Auf data-deutsch sagt man natürlich Features und nicht Eigenschaften. Über die rein empirische Analyse hinaus könnte man auch noch weitergehen und zum Beispiel ein statistisches Modell aufstellen, das den Mietpreis der jeweiligen Wohnung aufgrund ihrer Features schätzt. Vielleicht ist das Modell ja genauso gut wie das von Zestimate. Zugegeben sehr optimistisch, aber was soll’s? Was genau ich mit den ergatterten Daten mache, erfährst du in den folgenden Teilen der Artikelreihe. Also bleib dran!

Chris

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.