Gerade am Anfang arbeiten Data Science Teams anders als Produktentwicklungsteams oder Entwicklerteams, die feste zeitliche Meilensteine oder Sprints haben. Das ist für Data Science Teams schwierig, weil v.a. am Anfang viel Zeit benötigt wird, um festzustellen ob die Frage überhaupt beantwortet werden kann und für die Datenaufbereitung. Gerade in den ersten Wochen müssen die Daten gesammelt und aufbereitet werden. Und dann geht es darum Fragen zu beantworten, wie „Können wir das Problem lösen? Können wir es effizient lösen?“
Nun, es heißt ja auch DatenWISSENSCHAFT. Echte Wissenschaft braucht ihre Zeit, v.a. wenn es sich um ein neuartiges Problem oder Fragestellung handelt. Man muss eben etwas mehr Zeit damit verbringen Hypothesen aufzustellen und dann diese zu bestätigen oder zu widerlegen.
In gewinnorientierten Unternehmen ist diese Zeit oftmals nicht gegeben oder man möchte sich diese Zeit nicht nehmen, um tief genug in die Daten einzusteigen und die Hypothesen zu validieren. Deshalb sind die meisten Fragen, die man beantwortet eher kurzfristiger Natur. Die Folge ist, dass die Antworten, die gefunden werden „gut genug“ sind aber nicht optimal. Die Gefahr ist dann, dass diese Antworten von einem Bias beeinflusst wurden oder einfach nur fehlerbehaftet sind.
Wenn es nicht wirklich Wissenschaft ist, was bedeutet, dass Sie eine Hypothese mit einer wissenschaftlichen Methode bestätigen, dann werfen Sie einfach Daten in einige Algorithmen, um Ihre eigenen Annahmen zu bestätigen.
Ziel der Datenwissenschaft ist es Erkenntnisse aus Daten eines Unternehmens zu extrahieren und so geschäftsorientierte Mehrwerte zu schaffen. Das heißt auch, man muss verstehen, wie die Prozesse in diesem Unternehmen aussehen und wie Informationen im Unternehmen fließen. Dieses Wissen kann man dann nutzen, um Möglichkeiten zur Verbesserung zu identifizieren und Probleme zu lösen. In der Regel versuchen Data Science Teams verschiedene Datenquellen, die erforderlich für die Lösung sind, einzubinden und eine langfristige Verbindung und nutzbare Tools bzw. Anwendungen zu programmieren. Idealerweise werden diese Lösungen in die bestehende Systemlandschaft des Unternehmens nahtlos eingebettet und können dauerhaft genutzt werden.