Hyperkonvergente Infrastrukturen lassen sich sowohl lokal als auch in der Cloud aufsetzen. Der Artikel beleuchtet, wie Nutanix mit seiner Cloudplattform hier flexible Setups ermöglicht und gleichzeitig Hochverfügbarkeit sowie einfache Verwaltung bietet. Dazu gehen wir genauer auf die zugrunde liegende Architektur und die einzelnen Administrationstools ein und werfen außerdem einen Blick auf die Anbindung des Storage.
Nutanix ist primär ein Softwarehersteller, hat in Form seiner NX-Appliances [1] aber auch schlüsselfertige Hardware im Angebot. Zusätzlich arbeitet das Unternehmen mit verschiedenen OEM-Partnern zusammen, darunter HPE, Lenovo, Fujitsu und Dell EMC, um seine Software auf deren Hardwareplattformen bereitzustellen. Die aktuelle Hardware Compatibility List [2] gibt Aufschluss darüber, auf welchen Systemen die Nutanix-Software lauffähig ist. Dass nur freigegebene Hardware erlaubt ist, hängt unter anderem damit zusammen, dass Firmwareupdates vom automatisierten Patchmanagement der Plattform vorgenommen werden.
HCI – alles in einer Plattform
Nutanix gilt als einer der führenden Anbieter im Bereich Hyperconverged Infrastructure. HCI kombiniert traditionell getrennte IT-Komponenten wie Rechenleistung, Speicher und Netzwerk in einem einzigen, softwaregesteuerten System. Ziel dabei ist es, die Komplexität der Infrastruktur zu reduzieren, die Verwaltung zu vereinfachen und die Skalierbarkeit zu erhöhen. Einer der Vorteile hierbei ist beispielsweise die zentrale Steuerung aller beteiligten Komponenten von einem Punkt aus.
Ein solches Setup können Sie dann über mehrere physische Server hinweg – Stichwort Shared-Nothing-Architektur – verteilt betreiben. Eine derart aufgestellte Infrastruktur stellt sich Ihnen dann als eine große Ressource dar. Steht die HCI-Plattform in Ihrem Rechenzentrum, dann ist sie kurz gesagt Ihre private Cloud. Setzen Sie die Nutanix-HCI auf der Hardware von Microsoft Azure oder AWS ein, betreiben Sie diese off-premises in der Public Cloud.
Nutanix ist primär ein Softwarehersteller, hat in Form seiner NX-Appliances [1] aber auch schlüsselfertige Hardware im Angebot. Zusätzlich arbeitet das Unternehmen mit verschiedenen OEM-Partnern zusammen, darunter HPE, Lenovo, Fujitsu und Dell EMC, um seine Software auf deren Hardwareplattformen bereitzustellen. Die aktuelle Hardware Compatibility List [2] gibt Aufschluss darüber, auf welchen Systemen die Nutanix-Software lauffähig ist. Dass nur freigegebene Hardware erlaubt ist, hängt unter anderem damit zusammen, dass Firmwareupdates vom automatisierten Patchmanagement der Plattform vorgenommen werden.
HCI – alles in einer Plattform
Nutanix gilt als einer der führenden Anbieter im Bereich Hyperconverged Infrastructure. HCI kombiniert traditionell getrennte IT-Komponenten wie Rechenleistung, Speicher und Netzwerk in einem einzigen, softwaregesteuerten System. Ziel dabei ist es, die Komplexität der Infrastruktur zu reduzieren, die Verwaltung zu vereinfachen und die Skalierbarkeit zu erhöhen. Einer der Vorteile hierbei ist beispielsweise die zentrale Steuerung aller beteiligten Komponenten von einem Punkt aus.
Ein solches Setup können Sie dann über mehrere physische Server hinweg – Stichwort Shared-Nothing-Architektur – verteilt betreiben. Eine derart aufgestellte Infrastruktur stellt sich Ihnen dann als eine große Ressource dar. Steht die HCI-Plattform in Ihrem Rechenzentrum, dann ist sie kurz gesagt Ihre private Cloud. Setzen Sie die Nutanix-HCI auf der Hardware von Microsoft Azure oder AWS ein, betreiben Sie diese off-premises in der Public Cloud.
Wie Sie Bild 1 entnehmen können, unterscheidet sich ein Betrieb in der Private Cloud von dem in der Public Cloud eigentlich nur an zwei Stellen: Zum einen können Sie in der Private Cloud VMware ESXi als Hypervisor in Ihren Clustern einsetzen. Zum anderen müssen Sie in der Public Cloud natürlich die Bare-Metal-Hardwarevariationen des Hyperscalers nutzen. Alle anderen (Software-)Komponenten sind identisch.
Architektur von Nutanix
Werfen wir einen genaueren Blick auf die Architektur von Nutanix, zeigen sich sofort die zwei Basiskomponenten, aus denen eine Cloud normalerweise besteht: der Hardwareplattform und der darauf installierten Virtualisierungsschicht, also die Softwareebene. Letztgenannte lässt sich wiederum grob in zwei weitere Bausteine unterteilen. Gemeint sind Hypervisor und Cloudbetriebssystem, dessen Aufgabe es unter anderem auch ist, den Software-defined Storage, kurz SDS, bereitzustellen. Zudem spielt in einer derart eng miteinander verzahnten Struktur das Netzwerk als alles miteinander verbindendes Element eine besondere Rolle.
Nutanix nennt sein Cloud- beziehungsweise verteiltes Betriebssystem AOS (Acropolis Operating System) und den Hypervisor AHV (Acropolis Hypervisor). Letzterer basiert auf KVM und lässt sich nicht als Standalone-Hypervisor verwenden. Möchte Sie AHV nicht nutzen, können Sie ihn aktuell gegen den ESXi von VMware austauschen und die Nutanix-HCI mit diesem "Fremd"-Hypervisor betreiben. In der Vergangenheit war auch Xen von Citrix oder Microsofts Hyper-V als Hypervisor möglich, diese Optionen wurden mittlerweile aber abgekündigt. Aufgrund der Plattformarchitektur ist es jedoch theoretisch möglich, zukünftig jederzeit beliebige Hypervisoren zu integrieren.
Life Cycle Manager
Ein wichtiges Funktionselement und integraler Bestandteil einer Nutanix-Plattform ist der Life Cycle Manager, kurz LCM. Mit ihm halten Sie den Hypervisor und das Betriebssystem sowie die Hardware der Nodes auf dem neuesten Stand. Ob ein neues Firmware-Release geeignet ist, ist dem Updateprozess des LCM bekannt. Das bedeutet, dass sich Admins nicht mehr mit Zuordnungstabellen bezüglich des Aktualisierungsprozesses beschäftigen müssen. Je nachdem, welche Hardwareplattform Sie einsetzen, lädt LCM die benötigten Treiber herunter und installiert sie in den entsprechenden Komponenten der Nodes. Wie LCM im Detail funktioniert und was er leisten kann, erfahren Sie unter [6].
Immer als Cluster
Nutanix basiert auf einer Cluster-Architektur. Im allgemeinen Sprachgebrauch ist sehr oft von einem Nutanix-Cluster die Rede. Node ist ein weiterer Begriff, der in diesem Zusammenhang fällt. Ein Node ist ein einfacher einzelner Server ohne Spezialausstattung – einmal abgesehen von der Möglichkeit, bei entsprechendem Bedarf GPU-Karten für VDI- oder AI-Anwendungen einzubauen. Besteht ein Cluster also beispielsweise aus 24 Servern, handelt es sich dabei um einen 24-Node-Cluster.
Die physische Infrastruktur, also die Server, auf der die Enterprise-Cloud von Nutanix laufen soll, kann wie erwähnt von unterschiedlichen Serverherstellern kommen. Welcher der zertifizierten Hersteller das sein soll, ist eigentlich nur eine Frage Ihres persönlichen Geschmacks. Beachten Sie aber: Innerhalb eines Clusters müssen alle Nodes von einem einzigen Anbieter kommen. Weiterhin dürfen Sie zum Beispiel in einem Cluster mit Intel-CPUs keine Nodes mit AMD-CPUs einfügen. Unterschiedlichen CPU-Generationen von einem Hersteller zu betreiben, stellt in der Regel aber kein Problem dar.
Die Clustergröße kann variieren. Üblicherweise kommen im Data Center nur Cluster mit mindestens drei Nodes zum Einsatz. Sie können aber auch Nutanix-Cluster aufbauen, die aus zwei oder sogar nur aus einem Node bestehen. Ein One-Node-Cluster fungiert zwar als vollständiger Cluster, ist aber natürlich nicht ausfallsicher. Diese Art von Cluster sollten Sie deshalb nicht in Ihrem RZ betreiben, sondern maximal in einer Co- oder ROBO-Location (Remote-Office Back-Office). Noch eine Randnotiz zum Zwei-Node-Cluster: Nur für diesen Fall benötigen Sie einen Witness-Server, bei allen anderen Clustergrößen ist das nicht der Fall. Der Zeugenserver dient zur Feststellung des Cluster-Zustands und sollte sich demzufolge auch in einer separaten Fehlerdomäne befinden.
Hochverfügbare Cloudumgebung
Ob Sie Nutanix off-premises bei AWS oder Azure oder lokal im eigenen Rechenzentrum als Private Cloud betreiben, ist vom Ergebnis her gesehen völlig egal und hängt lediglich von Ihren Anforderungen ab. Natürlich können Sie auch beides gleichzeitig tun und haben dann manche Ihrer Workloads in der Public Cloud laufen und andere im eigenen Data Center. Das Schöne an so einer hybriden Infrastruktur ist, dass Sie alle Ihre virtuellen Servicemaschinen unter einer Benutzeroberfläche verwalten und monitoren können. Letztendlich spielt es dann keine Rolle, wo sich ein Workload befindet.
Hochverfügbarkeit zwischen Rechenzentren ist Teil des Konzepts der Nutanix Cloud Platform. Sie können Cluster, die sich in verschiedenen Brandabschnitten befinden, auf unterschiedlich intensive Art und Weise schützen. Grundsätzlich stehen Ihnen die drei folgenden Replikationsfrequenzen zur Verfügung: Asynchronous Disaster Recovery, kurz Async DR, ermöglicht es Ihnen, einen Workload-zentrischen Schutz durch Replikation im Bereich von mindestens einer Stunde zu konfigurieren. NearSync DR ist ebenfalls ein asynchrones Replikationsverfahren zwischen AHV-Clustern. Es unterscheidet sich allerdings im Hinblick auf die Replikationsfrequenz – hier liegt sie zwischen einer und fünfzehn Minuten – deutlich vom Async DR. Im Hinblick auf den Recovery Point Objective (RPO) müssen Sie mit diesem Verfahren im besten Fall also lediglich einen Transaktionsverlust im Zeitraum von einer Minute hinnehmen.
Haben Sie vor, Ihre Workloads noch intensiver abzusichern, steht Ihnen noch die synchrone, VM-zentrische Replikation zur Verfügung. Hierbei können Sie Ihre Workloads von einem Cluster zu einem zweiten entfernten Cluster mit einem RPO von nahezu null (Zero RPO) schützen. Dabei werden dann alle Schreibvorgänge des jeweiligen Workloads synchron zum Wiederherstellungsstandort repliziert. Letzteres lässt sich auch als Metrokonfiguration betreiben. Denken Sie bei Ihrer Planung aber stets an die üblichen fünf Millisekunden Round Trip Time (RTT), die auch hierbei zu berücksichtigen sind.
Verwaltung mit Prism Central und Move
Schauen wir uns jetzt einmal das Management der Plattform etwas genauer an. Das Tool, mit dem Sie alles zentral verwalten und überwachen, heißt Prism Central [3] und lässt sich als einzelner oder geclusterter Workload auf der Plattform bereitstellen. Das Werkzeug arbeitet mit den genannten Hypervisoren zusammen und fungiert als Steuerzentrale, mit der Sie Ihre gesamte Nutanix-Cloudinfrastruktur managen.
Das Tool dient aber nicht nur dem zentralen Management für die Core-Elemente der Plattform, sondern auch für die weitere, in der Tabelle aufgeführte Software des Herstellers. Gemeint sind hiermit zusätzlichen Services, mit denen Sie die Funktionalität der Plattform erweitern. Dabei handelt es sich zum Beispiel um die Bereitstellung von S3-, iSCSI- oder File-Storage, um automatisiertes Data-Center-Management, Application Lifecycle Automation, die in die Plattform integrierte Kubernetes-Implementierung oder die Netzwerksicherheit.
Nebenbei erwähnt: Wenn Sie weiterhin eine 3-Tier-Architektur mit ESXi als Hypervisor in Ihrem Rechenzentrum betreiben möchten, haben Sie die Möglichkeit, die Workloads aus dieser Umgebung mit in die Verwaltung beziehungsweise das Monitoring von Prism Central einzubinden. Auch arbeitet das Verwaltungstool mit Algorithmen, die auf maschinellem Lernen basieren.
Wenn Sie etwa Anomalien im Verhalten Ihrer Workloads erkennen wollen, um dann automatisierte Maßnahmen zur Optimierung zu starten, kommt diese Technologie zum Einsatz.
Was das Deployment von Prism Central angeht, haben Sie die Auswahl zwischen X-Small, Small, Large und X-Large. Welche Ressourcenanforderungen für Prism Central zu berücksichtigen sind und welche Limitierungen damit einhergehen, hängt im Wesentlichen davon ab, in welcher Verfügbarkeitsklasse Sie es betreiben wollen und wie umfangreich die zu verwaltende Umgebung ist. Die genauen Anforderungen entnehmen Sie dem Installationshandbuch [4] von Prism Central.
Ein weiteres nützliches Admin-Werkzeug ist Nutanix Move [5]. Dabei handelt es sich um ein Konvertierungstool, mit dem Sie Workloads von anderen Plattformen auf Nutanix-Cluster verlagern können – vergleichbar mit dem vCenter Converter.
Hypervisor und Storage verbinden
Dass es AHV als eigenständigen Hypervisor nicht gibt, haben Sie bereits erfahren. Ebenso, dass sich ESXi anstelle von AHV in einem lokalen Nutanix-Cluster nutzen lässt. Aber wie kommen die Hypervisoren an den Storage in einem Nutanix-Cluster? Auf jedem Node befindet sich ein Workload mit der Bezeichnung CVM. Dies steht für Controller Virtual Machine. Die CVMs innerhalb eines Clusters sind untereinander vernetzt und stellen neben vielen anderen Plattformdiensten den Software-defined Storage (SDS) bereit.
Über die Netzwerkverbindung tauschen die einzelnen CVMs ihre Daten aus, wodurch zwischen ihnen ein einheitlicher Informationsstand besteht. Fällt nun eine CVM aus, können andere im Cluster ihre Aufgaben übernehmen.
Die in den einzelnen Nodes verbauten Datenträger lassen sich mittels eines Controllers verwalten. Im Betrieb wird dieser dann basierend auf den Möglichkeiten der Gerätevirtualisierung des Hypervisors via Passthrough-Modus der CVM exklusiv zugeteilt (Bild). Hierdurch steht dann die gesamte Speicherkapazität des Speichermediums, die in einem Node verbaut wurde, ausschließlich der CVM dieses Nodes zur Verfügung.
Der Controller auf einem Nutanix-Node verbindet die einzelnen Datenträger via Passthrough-Modus mit der Virtualisierungsschicht.
Dieses Konzept des verteilten Speichers gilt für alle CVMs im Cluster gleichermaßen. Sämtliche CVMs bilden also innerhalb eines Nutanix-Clusters einen Storage-Pool über alle Datenträger hinweg und der gesamte Direct Attached Storage eines jeden Nodes wird zu einem verteilten SDS zusammengefasst und dem Hypervisor über das bevorzugte Protokoll zugänglich gemacht. AHV kommuniziert über das iSCSI-Protokoll mit dem SDS, ESXi bindet den Storage via NFS an.
Performance trotz Redundanz
Nun bleibt noch die Frage offen, wie die hier dargelegte Architektur eigentlich sicherstellt, dass im Fehlerfall keine Daten verloren gehen und die Plattform trotzdem zu jeder Zeit performant arbeitet. Hier kommen die Begriffe Replication Factor (RF) und Data Locality ins Spiel. Ersterer ist ein Maß für die Redundanz der abgelegten Daten im Cluster, während Data Locality einen Sachverhalt beschreibt, der für eine höchstmögliche Read-Write-Performance sorgt.
Stellen Sie sich dazu Folgendes vor: Jeder Node in einem Cluster ist ja mit einem Hypervisor ausgestattet. Dieser hostet die Workloads, die auch ausschließlich innerhalb des Nodes abgespeichert werden. Das heißt, alle Blöcke, aus denen die einzelnen Workloads bestehen, liegen auf diesem einen Node. Das bedeutet, dass kein Block über ein Netzwerk aus einem entfernten Speichersystem geholt werden muss. Das spart Zeit und ist damit performant.
Und damit es beim Ausfall eines Nodes nicht zu Datenverlust kommt, liegen die Datenblöcke nicht nur auf dem lokalen Speicher eines Nodes, sondern werden aus Gründen der Redundanz zusätzlich auf die anderen Nodes im Cluster verteilt. Das entsprechende Verfahren basiert auf Replikation und wird wie gesagt als RF angegeben. Betreiben Sie beispielsweise einen Cluster mit RF=2, dann existiert jeder Block zweimal innerhalb des Clusters. Brauchen Sie noch mehr Datensicherheit, nutzen Sie einfach RF=3 – dann ist jeder Block dreimal im Cluster vorhanden. Verfahren wie RAID sind hier also gar nicht erforderlich.
Die redundanten Daten laufen über das Netzwerk, weshalb sich die Replikation natürlich auf die Performance auswirkt. An dieser Stelle ist jedoch zwischen Lesen und Schreiben zu unterscheiden. Bei der Verteilung der einzelnen Datenblöcke im Cluster geht es ums Schreiben. Der Write-Anteil ist durch den Transfer via Netzwerk latenzbehaftet. Allerdings erfolgt der Read-Anteil ausschließlich lokal und beim Lesen der Blöcke haben wir dann eine deutliche Zeitersparnis. Dies wirkt sich in der Praxis positiv aus, denn hier überwiegt der Read-Anteil in der Regel deutlich – oft beträgt dieser Anteil zwischen 70 und 80 Prozent, je nach Art der ausgeführten Anwendungen.
Weitere wichtige Nutanix-Dienste
Nutanix Self Service
Application Lifecycle Automation
Cost Governance
Multicloud-Kostenmanagement
Nutanix Data Base (NDB)
PaaS für Datenbanken (Oracle, MS-SQL, PostgreSQL, MongoDB, MariaDB und MySQL)
Nutanix Flow
Software-defined Network und Mikrosegmentation unter AHV
Nutanix Kubernetes Platform (NKP)
PaaS für Containerisierung, integriert in die Nutanix Cloud Platform
Nutanix Move
Migration von Workloads zwischen Virtualisierungsplattformen
Nutanix Objects
Software-defined Object Store (S3)
Nutanix Volumes
Software-defined Block Storage (iSCSI)
Nutanix Files
Software-defined File Storage (SMB und NFS)
Nutanix Enterprise AI (GPT-in-a-Box)
Werkzeug für Scoping, Designing, Installing und Testing von generativer KI und Machine Learning
Blick auf Lizenzmodell und Support
Das Lizenzmodell ist grundsätzlich in zwei Bereiche aufgeteilt: zum einen in die Nutanix Cloud Infrastructure (NCI) und dann noch in den Nutanix Cloud Manager (NCM). Beide Komplexe sind in drei Stufen unterteilt: Starter, Pro und Ultimate. Wenn es um Speicherdienste wie File- und Object-Storage geht, gibt es noch den Nutanix Unified Storage (NUS) mit einigen Add-ons. Ein weiteres Feature-Set ist der Nutanix Database Service (NDB). Was in welcher Lizenzstufe an Funktionen enthalten ist, lässt sich auf der Webseite des Anbieters [7] detailliert nachlesen.
Der Support von Nutanix steht rund um die Uhr zur Verfügung. Möchten Sie einen Service-Request eröffnen, gibt es grundsätzlich zwei unterschiedliche Vorgehensweisen. Entweder loggen Sie sich via "https://portal.nutanix.com" direkt über das Portal ein und starten den Prozess, oder Sie eröffnen einen telefonischen Case – in Deutschland mit inländischer Telefonnummer. Wer zwar Produkte von Nutanix einsetzen möchten, aber noch nicht über das entsprechende Know-how für eine Umsetzung nach Best Practice verfügt, kann sich an den sogenannten Xpert-Service wenden.
Neben der kommerziellen Plattform gibt es noch eine kostenlose Edition, nämlich die Community Edition, kurz CE. Die kostenfreie Variante funktioniert entgegen der kommerziellen Version auch auf Low-End-Hardware oder Mini-PCs und erlaubt es interessierten Firmen, ausgiebig zu testen und sich selbst ein Bild zu machen.
Fazit
Nutanix bietet mit seinem HCI-Ansatz und der Nutanix Cloud Platform die Möglichkeit, eine vollständige Cloudumgebung zu betreiben – und zwar mit allem, was an IT-Services dazugehört. Die Plattform läuft nicht nur im eigenen Rechenzentrum, sondern auch bei den gängigen Hyperscalern. Nicht zuletzt ist es kein Problem, die angebotenen Dienste standortübergreifend hochverfügbar zu halten und dadurch ungeplanten Ausfällen von Rechenzentren vorzubeugen.