The Fort Worth Press - Clockwork.io führt eine neue Klasse der Fehlertoleranz ein, um die durch Ausfälle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden

USD -
AED 3.672504
AFN 63.000368
ALL 82.732897
AMD 367.370222
ANG 1.790403
AOA 917.000367
ARS 1478.086972
AUD 1.450326
AWG 1.80125
AZN 1.70397
BAM 1.716442
BBD 2.015885
BDT 123.112028
BGN 1.69088
BHD 0.377375
BIF 2972.662249
BMD 1
BND 1.295099
BOB 6.916495
BRL 5.177041
BSD 1.000921
BTN 93.946202
BWP 13.602176
BYN 2.902892
BYR 19600
BZD 2.012989
CAD 1.41895
CDF 2267.50392
CHF 0.80956
CLF 0.023471
CLP 922.497696
CNY 6.79815
CNH 6.804685
COP 3438.325508
CRC 454.429769
CUC 1
CUP 26.5
CVE 96.770372
CZK 21.30904
DJF 178.235113
DKK 6.565804
DOP 58.809075
DZD 133.424898
EGP 49.530036
ERN 15
ETB 161.36601
EUR 0.877704
FJD 2.266104
FKP 0.756395
GBP 0.757518
GEL 2.64504
GGP 0.756395
GHS 11.285269
GIP 0.756395
GMD 73.000355
GNF 8770.020624
GTQ 7.63614
GYD 209.469481
HKD 7.84255
HNL 26.780464
HRK 6.617804
HTG 130.8175
HUF 310.850388
IDR 17860.6
ILS 3.00205
IMP 0.756395
INR 94.360504
IQD 1311.158892
IRR 1375250.000352
ISK 126.490386
JEP 0.756395
JMD 157.637457
JOD 0.70904
JPY 161.75504
KES 129.518627
KGS 87.450384
KHR 4017.727851
KMF 434.00035
KPW 900.00035
KRW 1535.290383
KWD 0.30961
KYD 0.834087
KZT 485.637808
LAK 21969.371188
LBP 89630.523498
LKR 336.443021
LRD 182.31603
LSL 16.452675
LTL 2.95274
LVL 0.60489
LYD 6.42503
MAD 9.385493
MDL 17.746281
MGA 4233.621484
MKD 54.091886
MMK 2099.386013
MNT 3578.909161
MOP 8.085217
MRU 39.945588
MUR 47.250378
MVR 15.450378
MWK 1735.574181
MXN 17.504204
MYR 4.088039
MZN 63.903729
NAD 16.452675
NGN 1376.130377
NIO 36.83356
NOK 9.933039
NPR 150.313748
NZD 1.771166
OMR 0.384504
PAB 1.000921
PEN 3.41305
PGK 4.39247
PHP 61.312038
PKR 278.550353
PLN 3.76695
PYG 6109.087718
QAR 3.648427
RON 4.603104
RSD 103.014612
RUB 78.910966
RWF 1465.794901
SAR 3.758743
SBD 8.051953
SCR 14.057835
SDG 600.000339
SEK 9.73761
SGD 1.294204
SHP 0.746601
SLE 24.803667
SLL 20969.503664
SOS 572.030366
SRD 37.483038
STD 20697.981008
STN 21.501602
SVC 8.757734
SYP 110.532098
SZL 16.443021
THB 33.378038
TJS 9.263329
TMT 3.5
TND 2.966607
TOP 2.40776
TRY 46.553304
TTD 6.802405
TWD 31.859804
TZS 2632.322612
UAH 44.926675
UGX 3673.702225
UYU 40.177279
UZS 12022.46698
VES 620.752985
VND 26300
VUV 119.628449
WST 2.780038
XAF 575.678617
XAG 0.017058
XAU 0.000246
XCD 2.70255
XCG 1.803853
XDR 0.715959
XOF 575.678617
XPF 104.664531
YER 238.625037
ZAR 16.987795
ZMK 9001.203584
ZMW 18.029751
ZWL 321.999592
  • MDAX

    -383.9900

    31588.65

    -1.22%

  • SDAX

    -86.7100

    17767.77

    -0.49%

  • Euro STOXX 50

    -45.9800

    6221.55

    -0.74%

  • Goldpreis

    48.7000

    4096.3

    +1.19%

  • DAX

    -323.6100

    24671.22

    -1.31%

  • TecDAX

    -32.5600

    3860.16

    -0.84%

  • EUR/USD

    0.0013

    1.139

    +0.11%

Clockwork.io führt eine neue Klasse der Fehlertoleranz ein, um die durch Ausfälle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden
Clockwork.io führt eine neue Klasse der Fehlertoleranz ein, um die durch Ausfälle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden

Clockwork.io führt eine neue Klasse der Fehlertoleranz ein, um die durch Ausfälle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden

Die neue TorchPass-Lösung bewältigt eine millionenschwere Herausforderung im Bereich der KI-Infrastruktur und nutzt Live-GPU-Migration, um groß angelegte KI-Trainings trotz Hardwareausfällen fortzusetzen, anstatt kostspielige Neustarts zu erzwingen

Textgröße:

PALO ALTO, Kalifornien / ACCESS Newswire / 10. März 2026 / Clockwork.io, der Marktführer im Bereich Software-Driven AI Fabrics - einer programmierbaren, herstellerneutralen Software-Layer, die groß angelegte GPU-Cluster für Echtzeit-Beobachtbarkeit, Fehlertoleranz und deterministische Leistung optimiert - gab heute die allgemeine Verfügbarkeit von TorchPass Workload Fault Tolerance bekannt. Diese neue Klasse softwaregesteuerter Fehlertoleranz beseitigt einen der kostspieligsten Ausfallmodi beim groß angelegten KI-Training: katastrophale Job-Neustarts aufgrund von Infrastrukturfehlern.

TorchPass wird als Kernfunktion der Clockwork.io FleetIQ-Plattform bereitgestellt und wendet die Prinzipien Software-Driven AI Fabrics auf verteiltes Training an. Dabei nutzt es Live-GPU-Migration, um Workloads auch bei GPU-Ausfällen, Netzwerkstörungen, Treiberfehlern und sogar vollständigen Node-Abstürzen weiterlaufen zu lassen - ohne Neustarts an Checkpoints oder Verlust des Fortschritts.

„Unternehmen investieren Milliarden in Chips der nächsten Generation, doch die Kosten für die Ausführung verteilter KI-Jobs sind nach wie vor extrem hoch, da das Ökosystem Ausfälle als unvermeidbar akzeptiert hat", so Suresh Vasudevan, CEO von Clockwork.io. „Wir haben TorchPass entwickelt, um diese Prämisse grundlegend zu widerlegen. Anstatt Ausfälle als unvermeidbar zu betrachten und nachträglich neu zu starten, macht TorchPass Infrastrukturfehler für die Workload unsichtbar - das Training wird trotz Ausfällen transparent in der Software fortgesetzt. Bei einer typischen Bereitstellung mit 2.048 GPUs bedeutet dies eine Einsparung von über 6 Millionen $ pro Jahr an Rechenleistung. Genau dafür wurde unser softwaregesteuerter KI-Fabric-Ansatz entwickelt: eine fehlertolerante KI-Infrastruktur."

Dylan Patel, Gründer und CEO von SemiAnalysis, stimmte zu, dass groß angelegte Trainingsaufgaben durch Unterbrechungen eingeschränkt werden.

„Da Blackwell-Cluster mit einer NVL72-Domäne eingeführt werden und wir mit der NVL576-Domäne von Rubin Ultra in die Zukunft blicken, ist die Vorstellung, dass ein einziger GPU-Fehler oder eine Netzwerkverbindung einen gesamten Lauf zum Erliegen bringen kann, völlig inakzeptabel", so Patel. „TorchPass löst eine große Herausforderung hinsichtlich der Zuverlässigkeit von Clustern: Es bietet transparentes Failover und Live-Workload-Migration, wodurch die MFU hoch bleibt, was wiederum zu einer besseren GPU-Wirtschaftlichkeit führt."

Warum KI-Training in großem Maßstab scheitert

Verteiltes KI-Training ist nach wie vor eine der fehleranfälligsten Workloads in modernen Infrastrukturen. Mit zunehmender Clustergröße steigt die Anfälligkeit stark an. Untersuchungen von Meta FAIR zeigen, dass die mittlere Zeit bis zum Ausfall in einem Cluster mit 1.024 GPUs auf 7,9 Stunden und bei 16.384 GPUs auf nur 1,8 Stunden sinkt. Das bedeutet, dass für die meisten großen, auf KI fokussierten Unternehmen oder KI-Clouds ausfallbedingte Neustarts völlig unvermeidlich sind - was ein großes Hindernis für die Skalierung der Auswirkungen von KI darstellt.

Jeder Ausfall zwingt Trainingsjobs dazu, zum letzten Checkpoint zurückzukehren, wodurch Minuten oder Stunden bereits geleisteter Arbeit verloren gehen und zusätzliche Zeit für manuelle Eingriffe, die Neuzuweisung von Ressourcen und den Neustart des Trainings verschwendet wird. Diese Neustarts begrenzen stillschweigend die GPU-Auslastung, wodurch die Zuverlässigkeit zu einem der größten versteckten Kostenfaktoren in der KI-Infrastruktur wird.

TorchPass behebt dieses Problem, indem es kostspielige Ausfälle von KI-Workloads proaktiv angeht und sie löst, bevor der Job gestoppt wird oder neu gestartet werden muss. TorchPass ist für Unternehmen, die große KI-Workloads und KI-Clouds betreiben, von entscheidender Bedeutung und verbessert die Zuverlässigkeit von Workloads und die Clusterauslastung erheblich. Für KI-Clouds, die nun betroffene GPUs beheben können, während der Trainingslauf wie geplant fortgesetzt wird, bedeutet dies bessere Kunden-SLAs und eine insgesamt bessere Wirtschaftlichkeit der KI-Cloud, wodurch sie ihre Margen besser schützen und neue Modelle schneller bereitstellen können.

„Die Steuerung der Rechenleistung/-kapazität in großen GPU-Clustern ist entscheidend, um sicherzustellen, dass wir unseren Kunden zuverlässige Kapazitäten bieten können. Mit TorchPass haben wir die Unterstützung eines Unternehmens, das sich auf Ausfallsicherheit als Kernfunktion konzentriert: Es ersetzt jede einzelne ausgefallene GPU und sorgt dafür, dass der Rest des Jobs weiterläuft, anstatt dass ein kleines Problem Auswirkungen auf unseren gesamten Betrieb hat", so David Power, CTO von Nscale. „Bei unserer Bewertung hat Live GPU Migration sowohl die Laufkontinuität als auch den Durchsatz unter realen Fehlerbedingungen aufrechterhalten, was genau das ist, was man braucht, um eine vorhersehbare Trainingszeit und ein besseres Kundenerlebnis in großem Maßstab zu erzielen."

So funktioniert Live GPU Migration: Zuverlässigkeit ohne Neustart

TorchPass führt bei Ausfällen eine transparente Migration der betroffenen Trainingsprozesse zu freien Ressourcen durch. TorchPass schließt die Wiederherstellung in der Regel in etwa drei Minuten ab, während der Trainingsprozess ohne Unterbrechung fortgesetzt wird.

Es unterstützt die Ausfallsicherheit in drei Ausfallszenarien:

  • Ungeplante Migration, die plötzliche Ereignisse wie Kernel-Abstürze, Stromausfälle oder GPU-Fehler durch die Rekonstruktion des Zustands aus fehlerfreien Replikaten behandelt

  • Präventive Migration, ausgelöst durch Frühwarnsignale wie steigende Temperaturen oder ECC-Speicherfehler, ermöglicht eine kontrollierte Migration vor einem schwerwiegenden Ausfall

  • Geplante Migration, die Wartungsarbeiten, Patches und die Neuverteilung der Arbeitslast ohne Unterbrechung des Trainings ermöglicht

Dieser Ansatz reduziert den Verlust an Trainingsfortschritt um 95 % und verkürzt die Ausfallzeit von etwa drei Stunden pro Tag auf weniger als zehn Minuten in einem Cluster mit 1.024 GPUs.

Jordan Nanos, Mitglied des technischen Stabs und Hauptautor des unabhängigen Benchmarks von ClusterMAX-SemiAnalysis für groß angelegtes KI-Training, hat Clockwork.io TorchPass einem Stresstest unterzogen und festgestellt, dass es bei groß angelegten verteilten Trainings eine hervorragende Leistung und Effizienz bietet, wodurch Benutzer den Checkpointing-Overhead beim Training reduzieren können. Er teilte die folgenden Ergebnisse mit:

„In unseren Tests lieferte Clockwork.io TorchPass die schnellste und effizienteste fehlertolerante Leistung für einen gpt-oss-120B-Trainingslauf. Wir haben TorchTitan auf einem Kubernetes-Cluster mit 64x H200-GPUs verwendet. Während unserer Tests haben wir die Job-Abschlusszeit (JCT) und die Modell-FLOPs-Auslastung (MFU) im Vergleich zu einem Standardansatz (Checkpoint-Neustart) und dem führenden Open-Source-Fehlertoleranz-Trainingsframework (TorchFT) gemessen. Wir haben mehrere Hardwareausfälle auf dem Cluster simuliert, um die fehlertoleranten Trainingsframeworks einem Stresstest zu unterziehen.

Im Vergleich zu Checkpoint-Restart war TorchPass bei der Wiederherstellung nach Ausfällen deutlich schneller. Dies reduzierte die Gesamt-JCT und sorgte für eine hohe MFU. Im Vergleich zu TorchFT hatte TorchPass eine deutlich höhere MFU. Dies reduzierte die Gesamt-JCT und sorgte gleichzeitig für eine gleichbleibende Zeit zur Wiederherstellung nach Ausfällen.

Die Verwendung von TorchPass hat auch einen Downstream-Effekt, da es Benutzern die Möglichkeit bietet, Checkpoints in ihrem Trainingscode zu reduzieren oder sogar ganz zu entfernen. Dies bedeutet größere effektive Batch-Größen, ein geringeres Risiko für Speicherfehler (OOMs) und weniger Zeitaufwand für Überlegungen zum Speicherplatz. Für eine Forschungsorganisation kann dies letztendlich eine schnellere Erreichung ihrer Trainingsziele bedeuten", schloss Nanos.

Messbare geschäftliche Auswirkungen durch softwaregesteuerte Fehlertoleranz

Für Kunden, die große KI-Cluster betreiben, sind die Auswirkungen unmittelbar und messbar. In einer typischen H200-Bereitstellung mit 2.048 GPUs sorgt TorchPass Workload Fault Tolerance durch die Vermeidung von Rechenleistungsverschwendung für jährliche Einsparungen von über 6 Millionen US-Dollar.

Diese Einsparungen resultieren aus der Eliminierung von Hunderttausenden von GPU-Stunden, die sonst durch fehlerbedingte Neustarts, kaskadierende Wiederholungsversuche und Leerlaufzeiten verloren gehen würden. Indem TorchPass Trainingsjobs trotz Infrastrukturfehlern weiterlaufen lässt, anstatt sie neu zu starten, wandelt es verlorene GPU-Zeit in produktives Training um und verbessert so erheblich die Rendite von GPU-Investitionen, die heute oft nur 30 bis 50 % der theoretischen Leistung erreichen.

Die nächste Generation der KI-Infrastruktur ermöglichen

Indem TorchPass Zuverlässigkeit zu einer softwaredefinierten Funktion statt zu einer Hardwarebeschränkung macht, bietet es die erforderliche Betriebssicherheit für den Einsatz eng gekoppelter Systeme der nächsten Generation wie NVIDIA GB200 und GB300 NVL72 sowie zukünftiger Rack-Scale-Systeme, bei denen dichte Architekturen selbst die Kosten kleinerer Ausfälle vervielfachen.

TorchPass baut auf der früheren Version von Network Fault Tolerance von Clockwork.io auf, die dieselben Prinzipien der softwaregesteuerten KI-Struktur auf die Netzwerkausfallsicherheit anwendet, indem sie den Datenverkehr bei Verbindungsausfällen transparent umleitet.

Zusammen bilden diese Funktionen die Software-Driven AI Fabric von Clockwork.io, eine herstellerneutrale Software-Layer, die Netzwerk, Rechenleistung und Speicher umfasst. Da moderne KI-Workloads auf eng gekoppelten Clustern laufen, auf denen Hunderte oder Tausende von Prozessoren koordiniert im Gleichschritt arbeiten müssen, verhält sich die Infrastruktur wie ein einziges System, in dem Zuverlässigkeit und Leistung direkt die Gesamteffizienz bestimmen. Durch die Verwaltung dieser Komplexität in der Software ermöglicht Clockwork.io den Betreibern, heterogene KI-Infrastrukturen als einheitliche Plattform zu betreiben und dabei eine hohe Auslastung, vorhersehbare Leistung und Ausfallsicherheit zu gewährleisten, während die Flexibilität zur Weiterentwicklung der Hardware und zur Verbesserung der Wirtschaftlichkeit groß angelegter KI-Implementierungen erhalten bleibt.

Um mehr über die Einführung von TorchPass zu erfahren, besuchen Sie das Clockwork.io-Team persönlich auf der NVIDIA GTC vom 16. bis 19. März am Stand Nr. 205 oder besuchen Sie https://clockwork.io.

Über Clockwork.io

Clockwork.io ist ein Pionier im Bereich Software-Driven AI Fabrics™ und bietet eine programmierbare Software-Layer, die große KI-Cluster beobachtbar, deterministisch und von Grund auf widerstandsfähig macht, um einen kontinuierlichen Workload-Fortschritt und eine maximale Cluster-Auslastung zu erzielen. Mit der FleetIQ-Plattform können Unternehmen die anspruchsvollsten KI-Workloads der Welt schneller, zuverlässiger und kostengünstiger trainieren, bereitstellen und bedienen. Unternehmen wie Uber, Wells Fargo, DCAI, Nebius, Nscale und White Fiber vertrauen auf Clockwork.io, um ihre KI-Infrastruktur zu betreiben. Weitere Informationen finden Sie unter www.clockwork.io.

Medienkontakt

Dana Trismen
[email protected]
650-269-7478

QUELLE: Clockwork

T.M.Dan--TFWP