Ich habe mich erst 2022 entschieden, noch mal eine neue Programmiersprache zu lernen. Rein zufällig startete dann auch der erste Python Kurs bei openSAP, mit dem ich einen sehr schnellen guten Einstieg in diese Sprache bekam. Vor allem durch unzählige gute Video im Internet – z.B. auf youtube konnte ich mir einige Dinge schnell selbst bei bringen, die ich aus anderen Bereichen kenne und wissen wollte.
Mein erster Versuch, vor allem meine Erfahrung aus dem SAP Bereich auch mit Python nutzen zu können, ist PyDEEN – Python Data Engineer Enterprise Notebook. Das ist kurz gesagt eine Python Bibliothek, die es einem Data Scientist im Enterprise Umfeld (zurzeit vor allem mit Funktionen für SAP Systeme) im Stile von Jupyter Notebooks den Umgang mit Daten vereinfachen soll. Ihr findet sie bereits auf PyPi.org.
Ich habe mal gelesen, dass Data Scientists > 70% Ihrer Zeit mit der Extraktion und dem “Vorbereiten” der Daten stecken, bevor sie mit der eigentlichen Analysearbeit beginnen können. Diese Information ist schon ein paar Jahre alt. Ich befürchte aber, dass sich hier nicht viel geändert hat.
Daher habe ich mich entschieden, dieses Problem zuerst zu lösen. Bereits sehr weit fortgeschritten ist deshalb eine Funktion, mit der man Daten in Echtzeit aus dem SAP extrahieren kann und sie bereits als Pandas Dataframe bekommt. Man kann also sofort mit den “normalen” Aktivitäten eines Data Scientist fortfahren.
Ein paar weitere konkrete Ideen sind in der Pipe. Ich mache das davon abhängig, wie weit das Feedback aus der Community ist. Das Ziel ist für mich eine gut gepflegte Open Source Bibliothek.
Also schaut mal wieder vorbei, gebt mit Feedback und Anregungen. Vielen Dank!