ADMIN

2024

06

2024-05-30T12:00:00

Datenbanken

SCHWERPUNKT

084

Berufsbild

Data Scientist

Berufsbild Data Scientist

Die unbekannte Tierart

von Tam Hanna

Veröffentlicht in Ausgabe 06/2024 - SCHWERPUNKT

Mit dem Siegeszug der künstlichen Intelligenz ist häufig auch vom Berufsbild des Data Scientist die Rede. Oft ist allerdings nicht scharf umrissen, was die Tätigkeit am Ende konkret ausmacht und wie sich IT-Profis die benötigten Kenntnisse auf eine nachweisbare Art und Weise aneignen. Beide Fragen beantworten wir in unserem Artikel.

Im Bereich der künstlichen Intelligenz gibt es eine Vielzahl von Berufsbezeichnungen, die sich teilweise ergänzen, aber auch diametral gegenüberstehen. Wir starten deshalb mit einer kurzen Abgrenzung der unterschiedlichen Berufsgruppen.
Abgrenzung verschiedener Berufe
Beginnen wir mit dem Data Engineer. Bei ihm handelt es sich um einen Datenbankexperten, der sich um die als Ingestion bezeichnete Aufnahme der zu bearbeitenden Informationen kümmert und außerdem für das Warten und Bereitstellen der Infrastruktur zur Vorhaltung der Daten verantwortlich zeichnet.
Die vom Data Engineer zur Verfügung gestellten beziehungsweise verwalteten Informationen nutzt dann wiederum der Data Scientist, um für das jeweilige Unternehmen geeignete Modelle und Systeme zu kreieren. Im Fall eines Kaffeehauses könnte dies etwa ein neuronales Netzwerk sein, das den Bedarf an Produkten oder die erwartete Frequenz an Besuchern berechnet beziehungsweise vorherzusagen hilft.
Im Bereich der künstlichen Intelligenz gibt es eine Vielzahl von Berufsbezeichnungen, die sich teilweise ergänzen, aber auch diametral gegenüberstehen. Wir starten deshalb mit einer kurzen Abgrenzung der unterschiedlichen Berufsgruppen.
Abgrenzung verschiedener Berufe
Beginnen wir mit dem Data Engineer. Bei ihm handelt es sich um einen Datenbankexperten, der sich um die als Ingestion bezeichnete Aufnahme der zu bearbeitenden Informationen kümmert und außerdem für das Warten und Bereitstellen der Infrastruktur zur Vorhaltung der Daten verantwortlich zeichnet.
Die vom Data Engineer zur Verfügung gestellten beziehungsweise verwalteten Informationen nutzt dann wiederum der Data Scientist, um für das jeweilige Unternehmen geeignete Modelle und Systeme zu kreieren. Im Fall eines Kaffeehauses könnte dies etwa ein neuronales Netzwerk sein, das den Bedarf an Produkten oder die erwartete Frequenz an Besuchern berechnet beziehungsweise vorherzusagen hilft.
Der Data Scientist steht oft an der Spitze der ML-Hierarchie und wird in vielen Fällen auch als Interface zum nichttechnischen Management angesehen. Aus diesem Grund sind Kommunikationsfähigkeit und Umgang mit Visualisierungswerkzeugen für diese Rolle von eminenter Bedeutung. Dies beginnt beispielsweise beim Erstellen aussagekräftiger Dashboards, gelten diese doch als effizienter Weg, um nichttechnische Entscheidungsträger zum Freigeben von Budgets zu bewegen.
Die vom Data Scientist generierten Modelle sind allein allerdings noch nicht in der Lage, Werte zu schaffen. Hierfür ist eine dritte Rolle verantwortlich, die sich um die Produktiv-Mobilisierung und das Am-Laufen-Halten der ML-basierten Systeme kümmert. Dabei handelt es sich um den Machine Learning Engineer – eine im Allgemeinen dem klassischen Systemadministrator beziehungsweise Netzwerk-Programmierer nachempfundene Funktion, die jedoch von zusätzlichen Kenntnissen im Bereich Machine Learning profitiert. Im Fall des vorher genannten Kaffehauses würde er sich beispielsweise darum kümmern, dass das Modell permanent weiterrechnet und seine Ergebnisse für das Personal sichtbar sind.
Eine weitere, noch recht neue Funktion ist der Prompt Engineer. Dabei handelt es sich um einen Ingenieur, der meist von der Stange erworbene LLMs (Large Language Model) mit für sie bekömmlichen und zur Rückgabe von nützlichen Werten animierenden Eingaben befüllt.
Unter dem Strich gilt, dass die enge Zusammenarbeit zwischen den verschiedenen im ML-Bereich anzutreffenden Gewerken immer zu einer Interdisziplinarität führt – einem Data Engineer schadet es beispielsweise nicht, wenn er auch über Grundkenntnisse im Bereich Python verfügt. Denn die Kommunikation mit dem Data Scientist lässt sich naturgemäß leichter erledigen, wenn klar ist, wie die Informationen aus Sicht des Python-Programms aussehen.
Wichtigstes Handwerkszeug: Programmierung
Obwohl sich in manchen Betrieben noch "Fachexperten im mathematischen Bereich" finden, die ohne praktische Programmierkenntnisse auskommen, sind diese für die Karriere als Data Scientist in höchstem Maße hilfreich. Über die Frage jedoch, welche Programmiersprache für die Bedürfnisse der Datenwissenschaft am besten geeignet ist, lässt sich hervorragend streiten.
Angemerkt sei, dass Benchmarks wie der in Bild 1 gezeigte TIOBE-Index für die Karriereplanung eines Data Scientist nur leidlich geeignet sind. Data Science hat sich im Laufe der letzten Jahre immer mehr zu einem geschlossenen Ökosystem entwickelt, in dem sich eine eigene Art der Programmierung samt dazugehörenden Bibliotheken durchgesetzt hat.
Bild 1: Für die Frage nach der nützlichsten Programmiersprache für einen Data Scientist sind Benchmarks wie hier der TIOBE-Index nur begrenzt hilfreich, können jedoch Anhaltspunkte geben.
Die Führungsposition von Python ist allerdings ein eindeutiger Beleg dafür, dass sich Guido van Rossums einst als Lehrersystem entwickelte Programmiersprache in verschiedensten Märkten nach oben arbeitet. Für Python spricht einerseits die vergleichsweise einfache Syntax, die zwar häufige Stolpersteine gerade für Anfänger (Stichwort: Indentierung) eliminiert, andererseits aber ausreichend Flexibilität bietet, um komplexe Aufgaben, beispielsweise im Bereich der Datenverwaltung, mit geringem Codieraufwand abbilden zu können.
Mindestens ebenso wichtig ist nach unserer Ansicht die sehr umfangreiche Verfügbarkeit von Bibliotheken. Die Tabelle zeigt dabei einen Auszug verschiedener Produkte, die nicht nur bei der Lösung von im ML-Bereich relevanten Problemen hilfreich sind.
Python-Kenntnisse stark gefragt
Ob der Verfügbarkeit hochentwickelter ML-Bibliotheken beziehungsweise ML-Frameworks lässt sich davon ausgehen, dass das von Data Scientists verwendete Python nicht unbedingt eins zu eins mit dem übereinstimmt, was beispielsweise ein Systemadministrator benötigt. In vielen Fällen fungiert der Data Scientist vielmehr wie eine Art Klempner, der vorgefertigte Algorithmen wie Bausteine miteinander verbindet. Diese Vorgehensweise ist anderen Bereichen der IT nicht fremd, wenn es darum geht, verschiedenste Funktionsblöcke hintereinanderzuschalten, die sich dann mehr oder weniger selbsttätig um die Bewerkstelligung der ihnen jeweils zugeschriebenen Aufgaben kümmern.
Aus dieser Herangehensweise folgt für den an Data Science Interessierten eine durchaus wichtige Feststellung: Die Einarbeitung in Python sollte nach Möglichkeit unter Verwendung von Lehrbüchern erfolgen, die die Programmiersprache als Werkzeug für die Ausübung der Data-Scientist-Tätigkeit avisieren. Die Nutzung generischer Lehrbücher führt zu Ineffizienzen. Außerdem kann es empfehlenswert sein, sich Grundlagen im Bereich der verschiedenen in der Tabelle genannten Frameworks und Bibliotheken anzueignen.
Hervorzuheben ist, dass die Python-Programmierung im Data-Science-Bereich oft nicht mit den von der gewöhnlichen Arbeit mit Python bekannten IDEs passiert. Ursache dafür ist die Notwendigkeit, die generierten Ergebnisse attraktiv zu präsentieren – eine Fähigkeit, die im Werkzeugkasten eines Data Scientist auf keinen Fall fehlen sollte.
Nützliche Python-Bibliotheken
Bibliothek Kurzbeschreibung
NumPy
Bibliothek, die verschiedene in C++ implementierte Speicherklassen für mathematische Daten zur Verfügung stellt.
SciPy
Algorithmen-Baukasten, der – im Zusammenspiel mit NumPy – mathematische Verfahren schlüsselfertig bereitstellt.
SymPy
Bibliothek, die auf symbolisches Rechnen spezialisiert ist und an wissenschaftliche Taschenrechner erinnernde Umformungen automatisiert erledigt.
scikit-learn
Weit verbreitete ML-Bibliothek, die Entwicklern diverse Verfahren zur Verfügung stellt.
TensorFlow
Alternative weit verbreitete ML-Bibliothek, der mehr Tiefgang nachgesagt wird.
OpenCV
Bibliothek mit Primitiva zur Realisierung von Systemen zur "Computer Vision".
Pillow (PIL)
Universelle Bildbearbeitungsbibliothek, die beispielsweise Kontrastanpassungen erleichtert.
MatPlotLib
Diagrammbibliothek mit verschiedenen Visualisierungsdatentypen.
R und SQL nicht vergessen
Im als Scientific Computing bezeichneten Bereich der rechnerunterstützten Erledigung von Berechnungen aller Arten bekommen es Datenprofis mit zwei weiteren Sprachen zu tun. Besondere Priorität hat in den letzten Jahren das quelloffene R erlangt. Dabei handelt es sich – analog zu Python – um eine einst als Lehrersystem entwickelte Programmiersprache, die sich verselbstständigt hat. Ihre Stärke liegt darin, dass sie verschiedenste Algorithmen als baufertige Versatzstücke anbietet. Experimente, die fortgeschrittene mathematische Verfahren verlangen, lassen sich so oft mit sehr geringem Codeumfang durchführen.
Eine weitere Erwähnung verdient an dieser Stelle Mathematica. Dabei handelt es sich um ein kostenpflichtiges Programm, das im Bereich der Modellierung erhebliche Marktanteile hält. Im Data-Science-Sektor hat es sich zwar noch nicht allzu stark durchgesetzt, wer jedoch damit experimentieren möchte, ist gut beraten, einen Raspberry Pi zu erwerben. Dank der Zusammenarbeit zwischen Eben Upton und Wolfram Research gilt nämlich, dass jeder Raspberry Pi eine vollständige Version für die nichtkommerzielle Nutzung mitbringt.
Dritte und letzte bei der Data Science nicht wegzudenkende Programmiersprache ist SQL. Das hängt damit zusammen, dass der Data Scientist seine Verfahren und Prozesse unter "Aberntung" der vom Data Engineer bereitgestellten Informationen erledigt. Und hier erfreuen sich relationale Datenbanken immenser Beliebtheit – wer sich also mit SQL gar nicht auskennt, hat Probleme mit der eingangs erwähnten Ingestion von Daten.
Bild 2: DB-Engines liefert Informationen zur Nutzungshäufigkeit verschiedener Datenbanksysteme. Ganz weit vorn befinden sich SQL-basierte Varianten.
Visualisierung ermöglicht Handeln
Die Realisierung funktionierender algorithmischer Modelle ist aus Sicht des Data Scientist jedoch nur die halbe Miete. Geht es um das Überzeugen von Entscheidungsträgern, ist es vernünftig, tabellarische Informationen in eine grafische Form zu bringen. Aus dieser Logik folgt, dass das Einlesen in die verschiedenen Diagrammtypen hilfreich ist: Wer sich mit Linien-, Torten- und Co-Diagrammen nicht auskennt, hat bei der Wahl der passenden Visualisierungsform Probleme.
Mindestens ebenso wichtig ist, grundlegende Kenntnisse in einem der diversen im Markt verfügbaren Visualisierungsbaukästen mitzubringen. Das manuelle Zusammenstellen von Diagrammen unter Nutzung von Bitmap, HTML5-Canvas und Co. ist eine Aufgabe, die angehende Data Scientists nur in den seltensten Fällen auf sich nehmen sollten – klüger fährt, wer diese Arbeit an ein Programm delegiert.
Über die Frage, welches Visualisierungswerkzeug am besten geeignet ist, lässt sich dann hervorragend diskutieren. Wer den Großteil seiner Dateninfrastruktur von Microsoft bezieht, ist auf jeden Fall gut beraten, Zeit in Power BI zu investieren. Das System ist in die restliche Azure-Cloud integriert und erleichtert das Erzeugen von Visualisierungen auf Basis von im Microsoft-Ökosystem lebenden Informationen. Außerdem gibt es für Power BI verschiedenste Zertifikationen, die den Kompetenznachweis erleichtern.
Ein populärer Player ist auch das mittlerweile zu SalesForce gehörende Unternehmen Tableau, das ähnliche Visualisierungsdienste anbietet. Ein weiterer Kandidat im Bereich Visualisierung ist das Unternehmen Plotly. Für die Nutzung des Ökosystems spricht, dass es – siehe Bild 3 – eine Gruppe quelloffener Chart-Bibliotheken anbietet, die in sehr vielen Programmiersprachen funktionieren. Für Python-Programmierer ist es außerdem empfehlenswert, Grundkenntnisse in der Arbeit mit MatPlotLib mitzubringen. Die Ergebnisse mögen dabei nicht immer druckreif sein – andererseits ist es möglich, einfache Diagramme schnell mit sehr simplen Snippets zu generieren.
Wie im Fall vieler anderer Technologien gilt auch bei der Visualisierung ein gewisser Herdeneffekt: Es ist empfehlenswert, einen genauen Blick auf die in Stellenanzeigen geforderten Kompetenzen zu werfen, und sich diese dann gezielt anzueignen.
Bild 3: Das Visualisierungs-Ökosystem von Plotly steht auch in Form von Bibliotheken für viele Programmiersprachen zur Verfügung.
Lästig, aber wichtig: Soft Skills
Aus der zentralen Rolle des Data Scientist im AI-Wertschöpfungsprozess folgt, dass Grundlagen der Kommunikation und Menschenführung bei der Erledigung der Gefechtsaufgaben hilfreich sind. Während ein Embedded-Entwickler oder Elektroniker in vielen Fällen im stillen Kämmerchen Werte schafft, muss ein Data Scientist zur Erhöhung der Effizienz mit den anderen Gewerken zusammenarbeiten.
Zur Beantwortung der Frage, wie sich Soft Skills am besten vermitteln, gibt es mehrere Ansätze. Hier empfiehlt sich erstens die praktische Interaktion mit Personen – das Fitnessstudio oder der Fußballverein eines Unternehmens ist hierfür beispielsweise gut geeignet. Zweitens gibt es auch einige nützliche Lehrbücher, etwa Kevin Mitnicks Klassiker "Die Kunst der Täuschung". Das Werk ist schon deshalb empfehlenswert, weil es technisch denkenden Personen eine neue Herangehensweise an soziale Interaktionen aufzeigt. "The Magic Blackberry" von David Thompson ist zwar alt, aber auch heute noch relevant – wer seine E-Mails glatt formuliert, entschärft die eine oder andere Konfliktsituation. Ein weitere eher betagte Publikation ist "Herding Cats" von Geoff Garrett und Graeme Davies, das sich der Verwaltung von IT-Teams und den in ihnen weilenden Charakterköpfen zuwendet.
Unbedingt erforderlich: Mathematik und Statistik
Mathematik ist eine der gefürchtetsten Wissenschaften. In der Praxis gilt, dass ein Data Scientist ohne grundlegende Mathematikkenntnisse über kurz oder lang an einen Punkt kommt, wo er sich nicht mehr weiterentwickeln kann. Denn das Zusammenstellen von vorgefertigten Building Blocks ist nun einmal nicht unbedingt der Weisheit letzter Schluss.
Die praktische Erfahrung mit dem eng verwandten Themenkreis der Erzeugung dreidimensionaler Grafik-Engines lehrt, dass der Erwerb von Mathematik-Lehrbüchern für den universitären Einsatz kein gangbarer Weg zur Lösung des Problems ist. Ursache dafür ist, dass universitäre Lehrbuch-Autoren versuchen, Themen so umfangreich wie möglich abzuhandeln.
Erfreulich ist, dass es mittlerweile verschiedenste Lehrbücher gibt, die sich auf das für Machine Learning relevante Subset der Mathematik konzentrieren. Der Fokus liegt dabei vor allem auf Statistik und – in einem geringeren Maße – den hinter neuronalen Netzwerken und Regressionsverfahren stehenden mathematischen Theoreme. Der aus der (Rüstungs-) Elektronik stammende Autor möchte explizit anmerken, dass es sich dabei um einen komplett anderen Teilbereich der Mathematik handelt – mit Integral, Differenzial und Co., die beispielsweise in der Drohnenentwicklung benötigt werden, hat dieses Wissensgebiet nur höchst wenig gemein.
Zertifikationen: Der Weg zur Beförderung
Am wichtigsten für eine Gehaltserhöhung ist, dass der Arbeitgeber in der Lage ist, schnell einen Überblick über die Kompetenzen im Bereich der künstlichen Intelligenz zu gewinnen. Da das Abschließen von Universitätsstudien in der Praxis ein zeitaufwendiger Weg ist, gibt es mittlerweile Dutzende von Zertifikationsanbietern. Im Prinzip handelt es sich dabei um Unternehmen, die dem Kandidaten mehr oder weniger umfangreiche Examen vorlegen und nach dem Bestehen ein auf LinkedIn oder in der Bewerbungsmappe platzierbares Dokument ausspeien.
Wie in so vielen anderen Fällen der IT gilt auch hier, dass das primäre Problem das Treffen einer klugen Auswahl ist. Am einfachsten fahren angehende Data Scientists, wenn sie sich für eine der von den AI-Cloudanbietern angebotenen Zertifikationen entscheiden: Microsoft und Amazon bieten für ihre jeweiligen Systeme umfangreiche Zertifikationspfade an. Der Nachteil dieser Vorgehensweise ist, dass diese Schulungsprogramme – Nomen est Omen – scharf auf die Angebote des jeweiligen Herstellers zugeschnitten sind. Ein Unternehmen, das ein Produkt der Konkurrenz verwendet, wird im Allgemeinen wenig erfreut darüber sein, wenn ein Bewerber nur eine Zertifikation der anderen Fraktion aufzuweisen hat.
Zertifikationsweg Nummero zwei sind die bekannten Anbieter von Onlinekursen: Sowohl Coursera als etwa auch Udemy bieten dedizierte Kurs-Tracks an, die den Teilnehmer auf die Laufzeit als Data Scientist vorbereiten. Zu guter Letzt gibt es lokale Schulungszentren. Der Nachteil dieser ist aber, dass die Schulungen meistens in Präsenz abgehalten werden. Außerdem ist nicht immer sicher, ob eine ungarische oder deutsche Firma ein Zertifikat aus dem jeweils anderen Land akzeptieren wird.
Fazit
Die Tätigkeit des Data Scientist fasziniert durch Interdisziplinarität und die Diversität der zu erledigenden Aufgaben. Ob sich die Schulung in der Praxis allerdings lohnt, ist vor allem von den Grundinteressen abhängig: Wer sich nicht für Mathematik und Python-Programmierung interessiert, wird als Data Scientist nur wenig Freude im Beruf haben.
(ln)