Daten sind das neue Gold. Egal, ob IT-Verantwortliche diesem plakativen Zitat zustimmen oder nicht: Das Volumen an Informationen wächst jährlich um etliche ZByte an. Entsprechend groß und diffus ist der Markt für Werkzeuge für das Management und die Sicherheit von Daten. Dazu gehören die Bereiche Data Governance und Data Security, die unverzichtbar sind, um die wertvollen Informationen richtig zu schützen. Wir erklären beide Ansätze und geben Tipps zur praktischen Auswahl entsprechender Produkte.
Bei der Vielzahl an sich oft auch funktional überschneidenden Angeboten rund um das Management und die Analyse von Daten ist es nicht einfach, den Überblick zu behalten. Zwischen den Datenquellen und ihrer Nutzung in unterschiedlichsten Anwendungsfällen finden sich Metadata Management mit Data Catalogs, Data Quality & Integration einschließlich des Master Data Managements (MDM) und das große Feld von Data Analytics und Business Intelligence.
Data Catalogs unterstützen in der Katalogisierung von Daten und dabei, Daten auffindbar, bekannt und damit nutzbar zu machen. Data Quality & Integration helfen bei der Reduktion von Redundanzen und der Sicherstellung einer hohen Datenqualität, die die Voraussetzung dafür ist, auf Basis der Daten sinnvolle und korrekte Analysen fahren zu können und diese nutzen zu können.
Begriffe des Datenmanagements
Data Governance ist eine übergreifende Funktion für alle Ebenen der Verwaltung und Nutzung von Daten. Sie lässt sich wiederum in drei Bereiche gliedern. Data Privacy Management fokussiert spezifisch auf personenbezogene Daten und die Einhaltung von regulatorischen Anforderungen. Dieses Marktsegment ist mit der Verabschiedung der DSGVO schnell gewachsen, wobei die meisten Anbieter inzwischen ein deutlich breiteres Portfolio mit Data-Governance- und Data-Catalog-Funktionalität haben.
Bei der Vielzahl an sich oft auch funktional überschneidenden Angeboten rund um das Management und die Analyse von Daten ist es nicht einfach, den Überblick zu behalten. Zwischen den Datenquellen und ihrer Nutzung in unterschiedlichsten Anwendungsfällen finden sich Metadata Management mit Data Catalogs, Data Quality & Integration einschließlich des Master Data Managements (MDM) und das große Feld von Data Analytics und Business Intelligence.
Data Catalogs unterstützen in der Katalogisierung von Daten und dabei, Daten auffindbar, bekannt und damit nutzbar zu machen. Data Quality & Integration helfen bei der Reduktion von Redundanzen und der Sicherstellung einer hohen Datenqualität, die die Voraussetzung dafür ist, auf Basis der Daten sinnvolle und korrekte Analysen fahren zu können und diese nutzen zu können.
Begriffe des Datenmanagements
Data Governance ist eine übergreifende Funktion für alle Ebenen der Verwaltung und Nutzung von Daten. Sie lässt sich wiederum in drei Bereiche gliedern. Data Privacy Management fokussiert spezifisch auf personenbezogene Daten und die Einhaltung von regulatorischen Anforderungen. Dieses Marktsegment ist mit der Verabschiedung der DSGVO schnell gewachsen, wobei die meisten Anbieter inzwischen ein deutlich breiteres Portfolio mit Data-Governance- und Data-Catalog-Funktionalität haben.
Data Governance & Risk bezieht sich auf das Management, die Steuerung und den Schutz von wichtigen Daten durch die Durchsetzung von Regeln für die Datenqualität, -integrität und -konsistenz über den gesamten Lebenszyklus. Der Fokus von Data Governance ist die Schaffung eines Rahmens, innerhalb dessen Organisationen ihre Daten verwalten, regulatorische Anforderungen erfüllen und die Daten nutzen können. Governance ist dabei immer die steuernde und kontrollierende Funktion und das Regelwerk für die funktionalen Bereiche wie Data Quality & Integration.
Data Security, früher häufig auch als Database Security bezeichnet, sind technische Ansätze für den Schutz von Datenbanken und anderen Speichern für strukturierte digitale Daten gegen die Kompromittierung von Integrität, Vertraulichkeit und Verfügbarkeit. Data Security kann sowohl die datenspeichernden Systeme selbst schützen als auch Zugriffe auf diese Systeme.
Eine wichtige Bedeutung für Data Governance haben Data Catalogs, weil sie den Überblick darüber bieten, welche Daten es wo gibt, welche Relevanz diese haben und damit auch, wie diese aus einer Governance-Sicht zu behandeln sind. "You can’t protect what you don't know" ist hier der Kernsatz: Ohne Data Catalogs gibt es auch keine funktionierende Data Governance und keine hinreichende Data Security. Deshalb sind die Überschneidungen zwischen dem Data-Catalogs-Marktsegment und Data-Governance-Angeboten auch groß. Viele Data-Governance-Spezialisten haben eigene Data-Catalog-Funktionen in ihrem Portfolio.
Data Governance: Die Kontrollfunktion
Data Governance übernimmt die Rolle der Kontrollfunktion. Diese Plattformen befähigen Organisationen dazu, eine zentralisierte Sicht über die Daten ("data Assets") zu schaffen und zu pflegen. Dazu gehört die Ownership für Daten und die Zuständigkeit und Verantwortlichkeit, aber auch die Durchsetzung von Standards und Richtlinien, die Nachverfolgung der Herkunft von Daten ("Data Lineage") und die Zusammenarbeit mit Data Security-Verantwortlichen und die Integration mit den entsprechenden technischen Ansätzen.
Der Markt für Data-Governance-Plattformen ist in den vergangenen Jahren signifikant gewachsen, einerseits getrieben durch den Wert und die Kritikalität von Daten für Geschäftsprozesse und Geschäftsmodelle, andererseits aber auch durch regulatorische Anforderungen.
Unternehmen sollten ein Gesamtkonzept für den Umgang mit Daten und einer Definition von Data Governance als zentralem Architekturelement entwickeln. Entsprechende Plattformen müssen dabei flexibel sein, um neue Arten von Daten, von Datenflüssen und Veränderungen in der Organisation ebenso wie sich verändernde regulatorische Vorschriften reflektieren zu können. Kernfunktionen von Data-Governance-Ökosystemen umfassen
- Compliance-Support für globale und lokale Regulierungen der Datensammlung und -nutzung einschließlich DSGVO, CCPA (California Consumer Privacy Act) und andere.
- Überblick über die Bewegung von Daten und ihren Schutz innerhalb und aus dem Unternehmen heraus.
- Unterstützung für die Entwicklung, Implementierung und Nutzung von Data-Governance-Architekturen und -Funktionen.
- Identifikation von strukturierten Daten und, je nach Produkt, auch unstrukturierten Daten direkt oder im Zusammenspiel mit Data Catalogs.
Eine besondere Bedeutung haben dabei Konzepte, bei denen sich unterschiedliche Verantwortlichkeiten wie Data Stewards als die Verantwortlichen für Daten und unterschiedliche Nutzergruppen abbilden lassen, aber auch die Übersetzung von technischen Informationen wie Datenbank- und Tabellennamen in Business-Terminologie.
Data Catalogs: Übersicht über die Daten
Data Catalogs sind häufig Teil von Data-Governance-Produkten, oft aber auch separate Tools. Aus einer Architektursicht sollten sie in jedem Fall Teil der Data-Governance-Architektur sein, auch wenn sie zusätzliche technische Aufgaben übernehmen, auch als Basis von Data-Quality-Werkzeugen und anderen Funktionen einer umfassenden Datenarchitektur.
Data Catalogs sind eng verbunden mit dem Metadata-Management, das Kontext zu Daten herstellt und damit Benutzer darin unterstützt, die richtigen Daten für ihre Businessaufgaben zu identifizieren und Zusammenhänge zwischen Daten herzustellen. Data Catalogs liefern den Überblick über vorhandene Daten und damit eine zentrale Basis für Datensicherheit, weil sie aufzeigen, welche Daten vorhanden sind, wem sie gehören und damit erlauben, Sicherheitsfunktionen in geeigneter Weise umzusetzen. Gleichzeitig sind sie durch die enge Integration mit Data Governance-Diensten auch eine wesentliche Grundlage für die Erfüllung von regulatorischen Auflagen im Datenschutz.
Zentrale Funktionen von Data Catalogs sind das genannte Management von Metadata, die Erkennung von Daten im Sinne der Analyse davon, wo welche Daten liegen, die Nachverfolgung der Datenherkunft, meist als Data Lineage bezeichnet, und die Übersetzung technischer Informationen für die Benutzer in eine geeignete Business-Terminologie. Auch hier wird die Überlappung zu Data Governance-Plattformen deutlich.
Data Catalogs stellen immer auch umfassende Suchfunktionen für Daten bereit, damit Nutzer über Metadaten und andere Informationen herausfinden können, wo sich die für ihren Anwendungsfall benötigten Daten befinden. Sie konsolidieren diese Daten aber nicht in einen großen Speicher, sondern liefern nur über den Katalog und die Metadaten die Verknüpfung zwischen unterschiedlichen Daten.
In der Regel werden Data Catalog-Projekte aus dem Business getrieben und entwickeln sich oft aus dezentralen Einzelwerkzeugen hin zu zentralen Plattformen. Dabei wird leider immer noch oft die Relevanz und damit auch der Integrationsbedarf zu Data-Security-Software unterschätzt, obwohl die Kataloge eine unverzichtbare Basis für eine gezielte Umsetzung von Data Security darstellen.
Wie auch andere Teilmärkte im Bereich des Datenmanagements hat sich auch der Data-Catalogs-Markt in den vergangenen Jahren stark weiterentwickelt. Es gibt viele neue Angebote, insbesondere aber auch eine deutliche funktionale Erweiterung gerade im Bereich der Data Lineage, die auch für Data Security wichtig ist, um Daten nicht nur punktuell, sondern über den gesamten Datenfluss hinweg schützen zu können. Integrationsschnittstellen zu Data-Security-Software sind damit eine Kernanforderung für Produkte in diesem Bereich.
Ein Modell für die Strukturierung der Werkzeuge im Bereich des Managements und der Nutzung von Daten.
Data Security: Konkreter Schutz von Daten
Data Security, inzwischen deutlich über reine Datenbank-Sicherheit für relationale Datenbankmanagementsysteme (DBMS) hinausgewachsen, muss heute eine breite Palette unterschiedlicher Ansätze für die Speicherung strukturierter Daten unterstützen. Auch "Big Data" als Konzept ist inzwischen aufgegangen in einer breiten Palette von Ansätzen für die Speicherung von Daten in unterschiedlichsten Formen von Datenbanken.
Auch die Trennlinie zwischen strukturierten Daten (wie in traditionellen Datenbanken) und unstrukturierten Daten (wie beispielsweise auf Fileservern) verschwimmt zunehmend, wie beispielsweise an Hadoop deutlich wird. Entsprechend gibt es, wie bei der Data Governance und für Data Catalogs, eine wachsende Zahl von Anbietern, die zumindest in Teilbereichen auch Systeme für die Speicherung von unstrukturierten Daten unterstützen.
Data-Security-Werkzeuge müssen Datenspeicher gegen eine Reihe von Risiken schützen. Dazu zählen
- Denial-of-Service-Angriffe, die auf die Unterbrechung der Verfügbarkeit der Systeme abzielen.
- Beschädigung (Corruption) von Daten und Datenverluste durch menschliche Fehler, Programmierfehler oder Sabotage und Angriffe.
- Unberechtigte Zugriffe auf sensitive Daten durch Administratoren und über andere Benutzerkonten mit zu weitreichenden Berechtigungen sowie über ungewöhnliches Nutzungsverhalten gewöhnlicher Benutzerkonten nach Cyberangriffen.
- Nicht gepatchte Schwachstellen und Konfigurationsprobleme in der Datenbank, die Angriffe erlauben, zu Datenverlusten führen oder andere Verfügbarkeitsprobleme verursachen können.
- Spezifisch gegen Datenbanken gerichtete Angriffe über APIs wie beispielsweise SQL-Injection bei relationalen Datenbanken oder vergleichbare Lecks bei NoSQL- und Big-Data-Ansätzen.
- Offenlegung sensitiver Daten durch unzureichendes Management des Lebenszyklus der Daten, beispielsweise durch unzureichend geschützte Backups oder Test- und Analysedaten mit fehlender Maskierung sensitiver Informationen.
- Schwachstellen beim Zugriff auf verschlüsselte Daten durch unzureichendes Management von kryptografischen Schlüsseln, insbesondere in der Cloud.
- Unzureichende Überwachung und Auditierung, die zu Audit-Findings führen können und forensische Analysen sowie das Incident Management erschweren.
Wesentliche Anforderungen an Data-Security-Werkzeug
Anforderung
Beschreibung
Vulnerability Assessment
Funktionen für die Identifizierung und Analyse von bekannten Schwachstellen in Datenbankwerkzeugen, aber auch umfassende Analysen für komplexe Datenbank-Infrastrukturen einschließlich der Erkennung von Fehlern und Features für die Bewertung und Beseitigung erkannter Risiken.
Data Discovery & Classification
Funktionen für die Identifikation von zu schützenden Datenquellen und deren Klassifizierung. Dieses Feature lässt sich auch durch Integration mit Data Catalog-Tools bereitstellen.
Data Protection
Funktionen für die Maskierung und Verschlüsselung von Daten sowohl bei der Speicherung als auch beim Transfer und andere Technologien für den Schutz der Integrität und Vertraulichkeit von Daten.
Monitoring & Analyse
Überwachung und Analyse von Datenbanken und Einblick in alle Zugriffe und administrativen Tätigkeiten für alle Instanzen einschließlich Alerting- und Reporting-Funktionen. Features für die Anomalieerkennung und SIEM-Integration sind ebenfalls wünschenswert.
Threat Prevention
Vielfältige Methoden für den Schutz vor Cyberangriffen beispielweise durch DoS-Attacken (Denial of Service) oder SQL Injection. Patchmanagement oder mitigierende Maßnahmen zum Schutz noch nicht gepatchter Systeme und andere Datenbank-spezifische Sicherheitsmaßnahmen.
Access Management
Steuerung der statischen Zugriffsberechtigungen und dynamische, richtlinienbasierte Zugriffssteuerung. Identifikation von überhöhten privilegierten Zugriffsberechtigungen. Erkennung und Blockierung von verdächtigen Benutzeraktivitäten.
Audit & Compliance
Erweiterte Audit-Mechanismen über einfaches Logging hinaus, zentralisiertes Auditing und Reporting für komplexe, heterogene Datenbank-Umgebungen, Durchsetzung von SoD-Regeln (Segregation of Duties) und Werkzeuge für forensische Analysen und Compliance-Audits.
Data Protection
Funktionen für die Maskierung und Verschlüsselung von Daten sowohl bei der Speicherung als auch beim Transfer und andere Technologien für den Schutz der Integrität und Vertraulichkeit von Daten.
Performance & Scalability
Auch wenn es sich um kein Security-Feature im engeren Sinne handelt, sind hohe Verfügbarkeit und Skalierbarkeit auch für Lastspitzen essenziell.
Es gibt eine ganze Reihe von Plattformen am Markt, die unterschiedliche Ansätze wählen, um die meisten oder auch nur einzelne dieser Herausforderungen zu adressieren. So gibt es beispielweise Produkte von Anbietern, die spezifisch auf deren Datenbanksystem ausgelegt sind. Es gibt spezialisierte Software für das Maskieren und die Verschlüsselung von Daten ebenso wie Programme, die vorgelagert richtlinienbasiert die Zugriffe auf Datenbanken kontrollieren und dabei beispielsweise auch SQL-Injection-Angriffe durch Analyse und Anpassung von SQL-Statements verhindern können.
Deshalb reicht es selten aus, nur ein Tool für Data Security im Einsatz zu haben. Je nach den vorhandenen Datenquellen und anderen Werkzeugen für das Data Management wird es mehrere Systeme benötigen, um eine umfassende Sicherheit zu erreichen. Das erschwert allerdings die Umsetzung eines durchgängigen Sicherheitskonzepts, weil die Ansätze verschiedener Hersteller jeweils unterschiedliche Administrations- und Reporting-Schnittstellen haben. Umso wichtiger ist es, Data Security in einen Gesamtansatz für die Data Governance einzubetten, um eine umfassende Governance und Sicherheit zu erreichen.
Eine weitere Herausforderung im Bereich der Data Security ist, dass sich Zugriffsberechtigungen auf Daten über die Vielfalt von Systemen von Datenquellen bis hin zu analytischen und nutzenden Anwendungen nur mit viel Aufwand einheitlich verwalten lassen. Ein Grund sind die vielfältigen Modelle für die Repräsentation von relationalen Datenbanken bis hin zu Cubes in Data Warehouses, die zu jeweils unterschiedlichen Berechtigungsmodellen führen. Zudem sind Berechtigungen nicht in jedem der Systeme einfach und gut von außen steuerbar. Es gibt zwar eine langsame Entwicklung dahin, dass Systeme beispielsweise über Tags eine richtlinienbasierte Zugriffssteuerung ermöglichen. Noch ist der Markt aber von einheitlichen Konzepten für das Berechtigungsmanagement und damit die Zugriffssteuerung über den gesamten Lebenszyklus weit entfernt, was den Aufwand für die Entwicklung und Implementierung solcher Konzepte schnell sehr groß werden lässt.
Auch hier gilt wieder: Eine gute Data Governance, die Informationen dazu liefert, wo welche Daten liegen und wer dafür zuständig ist, erlaubt auch eine bessere Fokussierung der Maßnahmen zum Schutz dieser Daten.
Die Frage nach der richtigen Strategie
In komplexen Umgebungen mit einer Vielzahl von Systemen für die Datenspeicherung, Analyse und deren Nutzung braucht es ein Gesamtkonzept und eine Architektur, die eine zentrale Data Governance und Data Security implementiert. Es bietet sich dabei an, eine weitergehende "Data Fabric" zu definieren, die wie in der Abbildung die verschiedenen Komponenten und ihr Zusammenspiel definiert, zusammen mit den übergreifenden, zentralen Schichten für Data Governance, Data Privacy und Data Security.
Eine solche Data Fabric ermöglicht im ersten Schritt, die Komplexität der vorhandenen Umgebung zu verstehen, aber auch bestehende Lücken wie beispielsweise einen fehlenden Data Catalog zu identifizieren. Beim Vergleich mit dem Ist-Zustand lassen sich auch Redundanzen identifizieren und damit schrittweise eine Komplexitätsreduktion der Umgebung erreichen, die sich positiv auf Lizenzkosten und Betriebskosten auswirkt.
Dabei müssen sich IT-Verantwortliche im Klaren darüber sein, dass durch die Vielzahl an datenhaltenden Systemen und Anwendungsfällen zumindest in größeren Organisationen nie eine perfekte Lösung erreichbar ist. Zumindest die weitere Data Governance sollte aber immer auf alle Systeme wirken, die sensitive Daten halten, seien es businesskritische Informationen oder personenbezogene Daten. Insofern muss der Aufbau und die Durchsetzung einer umfassenden Data Governance mit Data Security als einem Kernbaustein im Mittelpunkt einer solchen Strategie stehen.
Fazit
Daten sind von hohem Wert für Organisationen. Kontrolle und Schutz sind daher essenziell. Dafür sind eine Reihe von Komponenten erforderlich, insbesondere Data Governance, Data Catalogs und Data Security. Diese sollten als zentraler Ansatz umgesetzt werden, um die Governance und Sicherheit für die Nutzung von Daten, am besten im Rahmen einer definierten Data Fabric, sicherzustellen.