Pfeilschnell geliefert

von Ariane Rüdiger

Storage Class Memory sorgt für einen extrem schnellen Zugriff auf persistente Daten. Doch die Technologie ist bislang weniger erfolgreich als erwartet. Intel etwa als wichtigster Player ist ausgestiegen. Und CXL als neuer Verbindungsmechanismus hat das Zeug, Storage Class Memory besonders im Rechenzentrum zu ersetzen. Wir werfen einen Blick auf den Stand der Dinge.

Im Jahr 2009 veröffentlichte die SNIA (Storage Networking Industry Association) die erste Präsentation zum Thema Storage Class Memory, kurz SCM beziehungsweise persistenter Memory, unter dem Titel: "Storage Class Memory – the Future of Solid State Storage". Für die Zeit nach 2013 sagte die Präsentation voraus, Storage Class Memory (SCM) würde Flash-SSDs ablösen. SCM-Technologien sollten, so die Zielvorstellung, nahezu so schnell wie DRAM sein, Daten dauerhaft speichern, keine beweglichen Teile haben und ihre Kosten pro Bits sollten sich bis 2020 denen von SSDs angleichen. Das entpuppte sich als illusorisch: Die Preise liegen zwischen denen einer SSD und denen von DRAM. Insgesamt soll SCM die Grenzen zwischen Storage und Memory verwischen, was durchaus gelungen ist.

Es gibt unterschiedliche Technologien, mit denen sich SCM realisieren lässt. Resistive RAM (ReRAM) beispielsweise nutzt Widerstandsveränderungen in einem dielektrischen Memristor, wenn Strom anliegt. Der Schaltwiderstand entscheidet, ob die Daten in die eine oder die andere Richtung fließen. Fujitsu hat im März des vergangenen Jahres einen 12-MBit-ReRAM-Chip mit besonders hoher Dichte angekündigt. Der Lesestrom des zwei mal drei Millimeter großen Bauelements beträgt nur 0,15 mA. Wettbewerber hinsichtlich dieser Technologie sind Weebit Nano und Crossbar.

Bei Nanotube-RAM (NRAM) bilden Carbon-Nanoröhren eine persistente Speichermöglichkeit. Sie bieten sehr hohe Speicherdichte, extrem geringen Stromverbrauch und große Geschwindigkeit. Nantero ist derzeit der einzige Hersteller mit öffentlicher Sichtbarkeit. Allerdings sind seine Produkte noch nicht marktreif.

Vielversprechender MRAM

Recht erfolgreich ist magnetoresistiver RAM (MRAM). Hier ändert sich der Widerstand durch das Anlegen eines magnetischen Felds, was dann dauerhafte Speicherung ermöglicht. Es gibt eine Reihe von Playern. Dazu gehören Avalanche und Everspin, NVE, Qualcomm und Intel. Das Marktforschungsunternehmen Mordor Intelligence sagt dem Segment zwischen 2019 und 2026 ein durchschnittliches jährliches Wachstum von 62 Prozent voraus. Samsung bietet seit 2019 einen eingebetteten MRAM (eMRAM) an.

Samsung stellte im Januar einen MRAM-Chip fürs In-Memory-Computing vor. Beim In-Memory-Computing, das große Datenmengen bearbeitet, findet die Datenverarbeitung im Speichernetz statt. Den geringen Widerstand von MRAMs, bisher ein Hindernis, hat Samsung erhöht, indem in der In-Memory-Architektur statt der Ströme die Widerstände der diversen MRAM-Chips addiert werden.

Nichtflüchtige DIMMs (NVDIMM) sind derweil schon seit 2012 auf dem Markt. Die SNIA legte Ende 2013 ein erstes Programmiermodell für diese Bausteine vor. Es dauerte nur einige Monate, bis die wichtigen Betriebssysteme und VMwares ESXi die Technologie unterstützten. Mitte 2017 folgte dessen bislang letzte Version.

Optane und PMDK

Am sichtbarsten auf dem Profi-Markt war in den letzten Jahren persistenter Memory, der auf Phasenwechsel-Technologie (Phase Change Memory, PCM) basiert. Bei Erwärmung ändert das Material seine Phase und ist dann beschreibbar. Im Februar 2019 stellte Intel die ersten Optane-PMem-Produkte vor, später folgten Optane-SSDs. Die Produkte basieren auf der gemeinsam mit Micron entwickelten 3D-XPoint-Technologie, die PCM zur Datenspeicherung nutzt. Die transistorlose Architektur hält Daten in Zellen aus einem unbekannten Material vor, die jeweils eine Information enthalten und sich in waagerechten Schichten befinden. Dazu kommen Selektoren. Beide sitzen an den Kreuzungspunkten, die senkrecht verlaufende Drähte mit den waagerechten Speichermedien bilden. Zellen werden geschrieben, indem an der auszulesenden Stelle Strom durch die Drähte fließt, der die betreffenden Zellen erwärmt.

Dazu kam mit dem PMDK (Persistent Memory Development Kit) ein Entwicklungs-Toolset heraus, das bei Anwendungen gern mit einem weiteren Werkzeug zur Performancesteigerung von Software (SPDK) kombiniert wird. Das PMDK umfasst zum Beispiel folgende Libraries:

- libpmem bietet Low-Level-Support für Persistent Memory.

- libpmemobj ist ein transaktionaler Object Store für Memory-Allokation, Transaktionen und andere Funktionen bei der Programmierung für PMem.

- libpmembulk unterstützt Arrays von gleich großen, gleichzeitig automatisch aktualisierten Pmem-Speicherblocks.

- libvmmalloc konvertiert transparent alle dynamischen Speicherallokationen in persistente.

- libpmempool unterstützt die Diagnose sowie das Management von Offline-Speicherpools.

- librmem unterstützt den RDMA-Zugriff auf PMem mit entsprechenden Netzkarten.

- Mit libvmemcache lassen sich mit wenig Aufwand eingebettete In-Memory-Caches aufbauen, zum Beispiel für den direkten Speicherzugriff per AppDirect (DAX).

Dazu kommen mit pmempool und pmemcheck Tools für das Management und die Fehleranalyse in PMem-Pools.

Kurze Freude an 3D XPoint

3D XPoint wurde bereits 2015 angekündigt. 2019 brachte Intel Optane auf den Markt, allerdings währte die Begeisterung nur kurz. Die Technologie erfüllte wirtschaftlich anscheinend nicht die Erwartungen von Micron und Intel. Schon 2021 verkaufte der Speicherspezialist Micron die Fabrik, in der er 3D XPoint fertigte, an TI, das dort andere Chips herstellen will. Micron will sich verstärkt CXL (Compute Express Link) widmen. Der Grund: 3D XPoint generiere zu wenig Nachfrage und sei zu teuer. Intel kündigte im Zuge dieser Entscheidung zunächst im Sommer 2021 seine Optane-SSDs ab und konzentrierte sich auf PMem-DIMM-Module, die direkt in Speicherslots eingebaut werden. Inzwischen verkündete das Unternehmen im zweiten Quartal 2022, das gesamte Optane-Geschäft herunterzufahren – samt dem Investment in PMDK, etwa in Sachen Entwicklung neuer Funktionen. Die Libraries und Tools sollen allerdings auf GitHub verfügbar bleiben, samt Dokumentation auf der PMem-Seite.

Volle PMDK-Unterstützung bietet Intel während derer gesamter Lebensdauer für die Optane-PMem-Module 100 und 200D. Das finale Neuprodukt der Serie ist PMem 300 (Codename Crowpass), lauffähig auf der vierten Generation von Intels Xeon Scalable (Sapphire Rapids). Dafür wird ein Teil der Libraries getestet und freigegeben und zusammen mit weiteren Ressourcen wie der Dokumentation regelmäßig aktualisiert, heißt es auf der PMem-Website [1].

Intel ermutigt zwar die Community zur Pflege und Weiterentwicklung von PMem-Software, allerdings darf bezweifelt werden, dass diese Aufrufe auf viel Widerhall stoßen. Dafür spricht, dass auf der PMem-Website derzeit nur insgesamt 15 Lösungen beschrieben werden, die sich des PMDK-Toolsets bedienen. Sollten sich andere finden, die die Verantwortung für Pflege und Weiterentwicklung der Bibliotheken übernehmen wollen, könnten diese aber weitergehen. Doch fragt sich, welchen Sinn solche Aktivitäten ergeben angesichts der Tatsache, dass Intel als Hardwarelieferant sein Engagement derart deutlich zurückfährt.

Das letzte Produkt der Optane-Serie, das soeben auf den Markt kam, gibt es in drei Ausfertigungen zwischen 128 und 512 GByte Speicherkapazität. Es kostet laut Hersteller zwischen 1499 und 4194 US-Dollar und ist damit nicht gerade ein Schnäppchen. Module der Vorgenerationen mit 128 GByte werden im Web schon ab etwa 650 Euro angeboten. Alle Varianten nutzen die DDR-T2-Schnittstelle und schaffen 4000 bis 4400 MT/s (Mega-Transfers pro Sekunde). Die Schreibleistung beim sequentiellen Schreiben liegt bei 6 GByte/s. Das Modul eignet sich für den Direktzugriff durch Applikationen, aber auch als Memory-Modul oder für die gemischte Nutzung.

PMem-Zugriffsformen

Ein Grund für den relativ geringen Erfolg von Intel Optane, des PMem-Modells und 3D XPoint dürfte darin liegen, dass Intels PMem nur mit hauseigenen Prozessoren funktioniert. Ein anderer Aspekt ist sicher, dass sich die Speicherzugriffslogik bei bestimmten Einbindungsmethoden verändert. Bei PMem gibt es folgende mögliche Zugriffsmethoden auf den Speicher: den Memory-Modus und den Direktzugriffs-Modus (AppDirect) mit mehreren Untervarianten. Unterformen von AppDirect sind der Raw-Device-Zugriff, der Zugriff über ein File-API und Filesystem, der Zugang über File-API und ein NVM-befähigtes Dateisystem sowie der Zugriff über ein spezielles Daten-API direkt auf den Speicher. Jede dieser Methoden bringt spezifische Eigenschaften mit sich.

Alle genannten Modi sind persistent, mit Ausnahme des Memory-Mode. Bei Letzterem wird das PMem einfach als günstige Memory-Erweiterung verwendet, die aber um einen dreistelligen Faktor langsamer arbeitet als typischer DRAM. Besonders geschwindigkeitssensible Daten werden dabei im DRAM gepuffert. Weil die Persistenz fehlt, können Anwendungen bei Stromausfall nicht auf die Daten im PMem zugreifen.

Im persistenten AppDirect-Modus hängt die Geschwindigkeit des Zugriffs davon ab, wie viele Softwareebenen der Zugriffsbefehl durchlaufen muss, bevor die Daten erreicht werden. Eine Komplikation ergibt sich daraus, dass die meisten Applikationen auf Datenblöcke zugreifen, PMem aber an sich mit byteweisem Access arbeitet.

Beim Raw Device Access erfolgt der Zugriff über einen PMem-Treiber im Host-Betriebssystem. So hat Linux ein Kernel-Modul, DevDAX, entwickelt, das direkt mit der direkten Zugriffsmethode über das Daten-API zusammenarbeitet, das Filesystem also umgeht. Speicherblöcke sind 4 bis 512 KByte groß, wie bei vielen Anwendungen üblich.

Beim Zugriff über File-API/FS läuft die Weitergabe von Dateiein- und ausgaben zunächst über die API des Filesystems. Es leitet sie an den PMem-Treiber weiter, der mit dem PMem spricht. Dieser Modus ist langsamer als die anderen. Ist – und dies ist die dritte Variante – ein Filesystem vorhanden, das mit nichtflüchtigem Memory umgehen kann (File-API/NVM-fähiges Filesystem), geht es deutlich schneller. NVM-fähige Dateisysteme sind beispielsweise SUSE Linux Enterprise Server 12 SP4 und 15, Red Hat Enterprise Linux ab Version 7.6, Windows Server 2019 und später, VMware ESX ab Version 6.7 und HANA In-Memory ab HDB 2.0, Rev. 35.

Am schnellsten erfolgt der direkte Zugriff über einen speziellen Kanal (Direct Access Channel) auf das PMem-Modul im Rahmen von AppDirect, denn es werden alle Softwareschichten umgangen, die ansonsten zu passieren sind. Allerdings hat die Geschwindigkeit einen Preis. Denn normalerweise können Anwendungen diesen Direktverbindungskanal nicht aufrufen, weil sie geschrieben wurden, bevor es PMem gab. Sie müssen also um entsprechende Funktionsaufrufe, die Intel bereitstellt, erweitert werden.

Dies alles zeigt, dass der Umgang mit PMem durchaus kompliziert ist. Neben den Preisen dürfte die Komplexität der Technologie einer der wichtigsten Gründe sein, die ihren Durchbruch verhindert haben. Zwar erleichtern die zu PMDK gehörenden Bibliotheken die Arbeit damit, das hat aber anscheinend nicht ausgereicht, um den Markt zu überzeugen.

PMem-Anwendungsbeispiele

Dennoch gibt es einige interessante Anwendungen So erlaubt SAP HANA den PMem-Einsatz. Auch Oracle verwendet in Exadata X8M seit Frühjahr 2020 PMem und gibt beispielsweise Latenzen von 300 Nanosekunden bei 64-KByte-Blöcken sowie Leistungen von 16 Millionen IOPS an. Dafür wird in der internen Fabric 100-GBit/s-RoCE (RDMA over Converged Ethernet) statt 40-GBit/s-Infiniband eingesetzt. Außerdem verwendet das System intelligente Zwei-Socket-Storage-Server mit 1,5 TByte persistentem Memory pro Storage-Server. Sie umfassen die drei Storage-Tiers PMem, NVMe und HDD.

Ein Persistent Memory Data Accellerator übernimmt das Tiering und verteilt das PMem automatisch über alle angeschlossenen Datenbanken. So dauerten Lesevorgänge in Oracles Datenbanken für einen 8-KByte-Block weniger als 19 Mikrosekunden. Auch Commits werden durch den Beschleuniger schneller. Als Betriebssystem verwendet Oracle das NVM-fähige Linux KVM.

HPE ist ein weiteres Beispiel für einen Anbieter, der Optane-Speicher zumindest der ersten Generation in seinen Servern verfügbar macht. Von der 2015 verkündeten Kooperation mit SanDisk zur Entwicklung von SCM ist allerdings nichts mehr zu hören, wie auch das ganze Thema "The Machine" inzwischen der Greenlake-Strategie gewichen ist. Auch Dell EMC PowerEdge arbeitet mit PMem-Modulen zusammen.

Während des "Persistent Memory + Computational Storage Summit 2022" der SNIA im Mai des vergangenen Jahres präsentierte Intel-Sprecher Andy Rudoff mehrere Anwendungen bei Hypescalern. So setzt Tencent Optane-Storage für seinen Service Cloud Block Storage (CBS) ein. Anwendungszwecke sind betriebliche Kerndatenbanken, Content Distribution Networks und E-Commerce. Verwendet werden Intels SSDs und eine neue Storage-Engine, die Prozessoren der dritten Generation von Intel Xeon Scalable und ein PMem-Modul der Optane-Serie 200. Das alles soll die Schreibverzögerung von 120 auf 50 Mikrosekunden und die Leselatenz von 130 auf 50 Mikrosekunden verringert haben.

Baidu baut seine neue Single-Node-Storage-Engine auf Optane und dem PMDK auf. Auch hier werden Intel PMem-Module der Serie 200 mit einem Intel Xeon Scalable der dritten Generation kombiniert. Zudem verbessert Baidu die Systemleistung seiner Storage-Engine durch den neuen Befehl CLWB (Cache Line Write Back). Das Unternehmen reklamiert, dass sich durch persistentes Memory die Lese-/Schreibleistung der neuen Engine um den Faktor zehn bis 20 erhöht. Ob sich den genannten Applikationen viele neue hinzugesellen werden, darf angesichts der aktuellen Entwicklungen bezweifelt werden.

Allerdings scheint Intels Totalausstieg die Branche doch eher überrascht zu haben. Denn kurz vor der Abkündigung von Optane hat die Standardisierungsorganisation JEDEC (Joint Electronic Device Engineering Council) noch NVDIMM-P (persistenten DRAM) unter ausdrücklicher Berufung auf Optane-Produkte in JESD304-4.01 DDR4 NVDIMM-P standardisiert. Wichtige Merkmale sind: volle DDR-Kompatibilität, keine oder wenige zusätzliche Pins im CPU-Sockel, Unterstützung nichtdeterministischer Latenz beim Lesen sowie Transaktionen, die sicherstellen, dass keine Daten im persistenten Memory verloren gehen. Die Latenzen von NAND-Flash bis DRAM müssen unterstützt werden, ebenso Schutz gegen Speicherfehler und Ausfälle.

SCM-Alternative Kioxia

Wichtigster Konkurrent auf dem SCM-Markt für Profi-IT ist Kioxia. Das Unternehmen ist aus TI hervorgegangen. Dort wurde ab 2007 mit BiCS ebenfalls eine dreidimensionale Flash-Technologie entwickelt, die sich unter anderem als persistentes Memory/SCM eignet. Dabei lassen sich bis zu 3 Bit pro Zelle speichern.

Die SCM-Chips der zweiten Generation der XL-Flash-Serie, angekündigt im Sommer 2022, haben 16 Ebenen und speichern 2 Bit pro Zelle. Bis zu 32 GByte passen auf einen Chip und die verwendeten Protokolle sind Flash-kompatibel. Es kommen dabei besonders zuverlässige Flash-Zellen zum Einsatz. Die Speicherseiten sind 4 KByte groß. Neben Memory bietet Kioxia auch SCM-NVMe-SSDs in der FL6-Serie an, die PCIe 4.0 unterstützen. Die Speicherdichte ist doppelt so hoch wie bei 3D XPoint, was gleichzeitig die Kosten senkt.

Samsung hat ebenfalls eine eigene nichtflüchtige Memory-Technologie entwickelt, Z-NAND, und 2018 mit SZ385 die erste SSD mit dieser Technologie auf den Markt gebracht. Speichermodule für die Direktmontage in DIMM-Slots gibt es nicht. Unverzichtbar sind neuartige Chips jedenfalls nicht, um persistentes Memory zu realisieren. Das beweist IBM: Der Hersteller bietet SAP HANA auf IBM Power 9 mit sogenanntem virtuellen Persistent Memory aus konventionellen DRAM-Modulen an. Das geschieht durch ein einfaches Treiberupdate. Hier wird die Persistenz durch mehrere miteinander über eine Virtualisierungsschicht verbundene und redundant ausgelegte DRAM-Module hergestellt.

Die Rolle von CXL

Was hat nun CXL (Compute Express Link) mit dem Abschied von PMem zu tun und auf welche Zukunft lässt das alles für SCM schließen? CXL ist eine Cache-kohärente Interconnect-Verbindung für Prozessoren, Memory-Erweiterungen und Beschleuniger. Sprich: Memory, der sich irgendwo befindet, kann über CXL besonders schnell mit dem Prozessor verbunden werden. Welche rasante Weiterentwicklung die Technologie durchläuft, lässt sich daran ablesen, dass im vergangenen August bereits Version 3 freigegeben wurde.

Kurz ein Blick auf die Grundlagen: CXL soll helfen, schnelle heterogene Architekturen mit externen Beschleunigern oder anderen Elementen zu bilden, wie sie etwa in KI-Architekturen zum Einsatz kommen. Es soll ein gemeinsamer Speicherraum zwischen Host oder Hosts und allen angeschlossenen Devices entstehen, deren Memory-Ressourcen dann allgemein verfügbar sind. Dabei liegt der Fokus auf Kohärenz; alle Systeme sehen also bei Datenzugriffen auf allen angebundenen Devices die gleichen Speicherinhalte. Die CPU managt vor allem die Cache-Kohärenz.

Das macht komplizierte Architekturen und das Umprogrammieren von Anwendungen, wie sie für Optane teils notwendig sind, weitgehend überflüssig. Die Technologie baut auf bekannten und breit eingesetzten Techniken auf. Grundlegend sind drei neue Protokolle, die mit CXL 1.0 eingeführt wurden:

- CXL.io ähnelt in seinen Grundzügen PCIe 5.0, wurde aber um einige Eigenschaften erweitert. Das Protokoll ist zuständig für die Initialisierung, die Discovery, die Anbindung, die Numerierung und den Registerzugriff auf Devices.

- CXL.cache regelt die Interaktion zwischen Host und Devices, die damit effizient Host-Memory cachen können.

- CLX.mem erlaubt, dass der Host-Prozessor auf an Devices angebundenes Memory zugreifen darf.

Skalierbar und flexibel

Diese Eigenschaften ermöglichen drei Anwendungsmodelle. Eines davon betrifft den Host-Access und das Management von angebundenem Device-Memory. Das umfasst etwa vergrößerte Memory-Puffer oder Erweiterungen eines Systems durch zusätzliches Memory sowie den Einsatz von persistentem Memory, wie es derzeit vor allem Kioxia weiterzuentwickeln scheint. CXL 3.0 enthält zahlreiche Neuerungen, die den Wert des Protokolls weiter erhöhen. Dazu gehören der Aufbau von Fabrics, die aus mehreren Hosts, Device-Typen et cetera bestehen können. Die Datenrate wurde auf 64 Giga-Transfers pro Sekunde verdoppelt, ohne dass die Latenz gegenüber Version 2.0 steigt.

Schon in Version 2.0 war es möglich, den Memory einzelner Devices unter mehreren Hosts aufzuteilen. Nun ist das auch über mehrfach geswitchte Infrastrukturen möglich, so dass sich Hosts und Devices praktisch überall zumindest innerhalb eines Rechenzentrums befinden können, ohne dass das an der allgemeinen Nutzbarkeit vorhandener Memory-Ressourcen etwas ändert. Die Skalierbarkeit und die Flexibilität steigen dadurch erheblich. Das CXL-Konsortium spricht in diesem Zusammenhang von Global Fabric Attached Memory (GFAM). Zu den bisherigen CXL-Varianten ist CXL 3.0 wie bislang bei CXL üblich rückwärtskompatibel.

Allerdings zeigt das In-Memory-Beispiel, dass persistenter Memory auch in Zukunft Anwendungen im Profi-Bereich finden kann und wird. Ein mögliches Beispiel neben dem In-Memory-Computing ist Computational Storage – also Berechnungen, die nicht in einer vom Speicher getrennten CPU stattfinden, sondern in der durch Rechenkapazitäten und Intelligenz angereicherten Storage-Einheit.

Fazit

Es ist davon auszugehen, dass nichtflüchtiger Speicher auch in absehbarer Zukunft eine wichtige und wahrscheinlich auch immer wichtigere Rolle beim Design von Architekturen für datenhungrige Anwendungen wie etwa KI spielt.

Neue technologische Entwicklungen auf Ebene der Speicherchiparchitekturen haben aber hier angesichts der immensen Möglichkeiten von CXL wohl nur Erfolg, wenn sie entweder einen großen Dichte- oder Geschwindigkeitsvorteil bieten. Dazu müssen die Kosten stimmen. Die besten Chancen hat hier derzeit Kioxia. Wir dürfen gespannt sein, ob der Markt in den kommenden Jahren weitere Neuerungen hervorbringt.