Predictive Analytics: Aus Daten Vorhersagen treffen

Im letzten picalike Workshop haben uns die Data Analysten und Scientisten Bendix Sältz und sein Kollege Dr. Christoph Ölschläger in die Welt der Daten, Analysen und Statistik begleitet. Das Thema “Predictive Analytics mit Python” wurde dabei nicht nur in der Theorie besprochen, sondern es wurde auch direkt via Jupyter Lab mit der Datenanalyse in Python losgelegt.

Diese 4 Schritte sollten für eine gute “Prediction” durchgeführt werden:

Zunächst einmal muss man sich eine konkrete Fragestellung überlegen: Was möchte ich überhaupt mit meiner Analyse für eine Frage beantworten? Wenn ich mir über mein eigentliches Ziel im Klaren bin, dann muss ich die richtigen Daten sammeln. Alle sprechen von Big Data, aber das Gros an Daten benötige ich oftmals für meine Fragestellung gar nicht. Daher muss ich mir genau die Daten “einsammeln” oder anfordern, die ich für meine Analyse auch tatsächlich benötige.
Als zweiten Schritt muss ich die Daten bereinigen. Im Workshop haben wir eine CSV bearbeitet. Die Daten gelesen und alle Informationen eliminiert, die uns für unsere Fragestellung nicht wichtig erschienen. Im Anschluss haben wir die Daten so aufbereitet, dass wir für jedes Feld der CSV auch tatsächliche Werte hatten, mit denen wir arbeiten können. Also z.B. Textfelder “entcoded”.
Je nach Fragestellung entscheidet man sich dann für ein Modell und Framework, um diese zu beantworten. Im Workshop haben wir über den Random Forest und über unterschiedliche Regressionsmodelle gesprochen, wie z.B. dem linearen Regressionsmodell.
Im vierten Schritt muss das Modell dann interpretiert werden, um daraus dann eine Prediction abzuleiten. Diese sollte dann visuell aufbereitet werden und in einer Präsentation gut verständlich (nicht nur für Statistiker) eingepflegt werden.
How to automate Machine Learning pipeline : Axel de Romblay

It is a capital mistake to theorize before one has data. Sherlock Holmes, “A Study in Scarlett” (Sir Arthur Conan Doyle)

Und hier sind unsere Top 4 Take Aways aus dem Workshop:

Datenaufbereitung kostet Zeit
Ohne saubere Daten kann kein gutes Modell erstellt werden. Saubere Daten sind unbedingt notwendig zum Verständnis des Problems. Das kostet Zeit, muss aber sein.
Nicht immer gute Modelle
Nicht auf allen Datensätzen, seien sie noch so groß, lässt sich ein gutes Modell aufbauen. Manchmal sind die Prädikatoren nicht aussagekräftig.
Je mehr Daten, desto besser
Kleine Datensätze unterliegen größeren Schwankungen (Gesetz der großen Zahl). Aber: Große Daten erschweren das Handling.
Enttäuschungen akzeptieren
Manchmal kann man einen Datensatz so oft man möchte hin und her wenden: Es können einfach keine konkreten Vorhersagen zu der ursprünglichen Fragestellung getroffen werden. Aber: Durch die Analyse der Daten bekommt man dennoch Erkenntnisse über vielerlei Dinge und man kann seine Schlüsse daraus ziehen und ggf. eine andere Frage beantworten.