The Fort Worth Press - ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

USD -
AED 3.672504
AFN 64.000368
ALL 80.878301
AMD 368.276037
ANG 1.789884
AOA 918.000367
ARS 1398.655759
AUD 1.37836
AWG 1.8025
AZN 1.70397
BAM 1.65809
BBD 2.008732
BDT 122.377178
BGN 1.668102
BHD 0.376584
BIF 2968.504938
BMD 1
BND 1.264635
BOB 6.891611
BRL 4.915095
BSD 0.997329
BTN 94.180832
BWP 13.389852
BYN 2.818448
BYR 19600
BZD 2.00585
CAD 1.36715
CDF 2265.000362
CHF 0.776955
CLF 0.022646
CLP 890.873638
CNY 6.80075
CNH 6.796265
COP 3727.014539
CRC 458.479929
CUC 1
CUP 26.5
CVE 93.480565
CZK 20.636704
DJF 177.601628
DKK 6.340404
DOP 59.310754
DZD 132.326735
EGP 52.744691
ERN 15
ETB 155.726591
EUR 0.84804
FJD 2.18304
FKP 0.733957
GBP 0.73346
GEL 2.67504
GGP 0.733957
GHS 11.234793
GIP 0.733957
GMD 73.503851
GNF 8750.794795
GTQ 7.614768
GYD 208.672799
HKD 7.83165
HNL 26.513501
HRK 6.393304
HTG 130.575219
HUF 300.190388
IDR 17377.45
ILS 2.901304
IMP 0.733957
INR 94.425504
IQD 1306.515196
IRR 1311500.000352
ISK 122.010386
JEP 0.733957
JMD 157.187063
JOD 0.70904
JPY 156.678504
KES 128.803357
KGS 87.420504
KHR 4001.526006
KMF 418.00035
KPW 899.983822
KRW 1461.810383
KWD 0.30766
KYD 0.831164
KZT 460.946971
LAK 21871.900301
LBP 89311.771438
LKR 321.097029
LRD 183.01047
LSL 16.361918
LTL 2.95274
LVL 0.60489
LYD 6.306642
MAD 9.121445
MDL 17.054809
MGA 4165.995507
MKD 52.257217
MMK 2099.83295
MNT 3581.379784
MOP 8.041456
MRU 39.863507
MUR 46.820378
MVR 15.403739
MWK 1729.049214
MXN 17.177604
MYR 3.921039
MZN 63.910377
NAD 16.361918
NGN 1365.000344
NIO 36.700437
NOK 9.209304
NPR 150.68967
NZD 1.675884
OMR 0.384681
PAB 0.997329
PEN 3.448264
PGK 4.404222
PHP 60.515038
PKR 277.958713
PLN 3.59545
PYG 6092.153787
QAR 3.645458
RON 4.426304
RSD 99.504048
RUB 74.240007
RWF 1462.082998
SAR 3.767486
SBD 8.019432
SCR 14.874401
SDG 600.503676
SEK 9.215704
SGD 1.267404
SHP 0.746601
SLE 24.650371
SLL 20969.496166
SOS 569.963122
SRD 37.399038
STD 20697.981008
STN 20.770633
SVC 8.727057
SYP 110.56358
SZL 16.351151
THB 32.203038
TJS 9.305159
TMT 3.5
TND 2.896867
TOP 2.40776
TRY 45.347504
TTD 6.759357
TWD 31.316038
TZS 2598.109449
UAH 43.809334
UGX 3737.018354
UYU 39.777881
UZS 12097.83392
VES 499.23597
VND 26308
VUV 118.45862
WST 2.707065
XAF 556.107838
XAG 0.012445
XAU 0.000212
XCD 2.70255
XCG 1.797465
XDR 0.69162
XOF 556.107838
XPF 101.106354
YER 238.625037
ZAR 16.38071
ZMK 9001.203584
ZMW 18.98775
ZWL 321.999592
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

La nueva solución TorchPass aborda un desafío multimillonario en la infraestructura de IA; utiliza migración en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios

Tamaño del texto:

PALO ALTO, CA / ACCESS Newswire / 10 de marzo de 2026 / Clockwork.io, líder en Software-Driven AI Fabrics™, una capa de software programable y neutral respecto a proveedores que optimiza clústeres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunció hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por software elimina uno de los modos de fallo más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos de trabajos provocados por fallos de infraestructura.

Ofrecido como una capacidad central de la plataforma FleetIQ de Clockwork.io, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migración en vivo de GPU para permitir que las cargas de trabajo continúen ejecutándose a través de fallos de GPU, interrupciones de red, errores de controladores e incluso caídas completas de nodos, sin reinicios desde checkpoints ni pérdida de progreso.

"Las empresas están invirtiendo miles de millones en chips de nueva generación, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante", afirmó Suresh Vasudevan, CEO de Clockwork.io. "Construimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar después, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento continúa a través de los fallos de forma transparente, en software. Para un despliegue típico de 2.048 GPU, eso se traduce en más de 6 millones de dólares al año en capacidad de cómputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue diseñado para ofrecer: infraestructura de IA tolerante a fallos".

Dylan Patel, fundador y CEO de SemiAnalysis, coincidió en que los trabajos de entrenamiento a gran escala están limitados por interrupciones. "A medida que se despliegan clústeres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuación en un enlace de red pueda detener toda una ejecución es totalmente inaceptable", afirmó Patel. "TorchPass resuelve un enorme desafío de fiabilidad de clústeres: proporciona conmutación por error transparente y migración en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor economía de GPU".

Por qué el entrenamiento de IA falla a escala
El entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo más propensas a fallos en la infraestructura moderna. A medida que crece el tamaño de los clústeres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un clúster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayoría de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.

Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el checkpoint más reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervención manual, reprovisión de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilización de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.

TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolviéndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora drásticamente la fiabilidad de las cargas de trabajo y la utilización de los clústeres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecución del entrenamiento según lo previsto, esto se traduce en mejores SLA para los clientes y una economía global de nube de IA más favorable, mejorando su capacidad para proteger márgenes y ofrecer nuevos modelos antes.

"Gestionar la producción de cómputo en clústeres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una función central del negocio: sustituye cualquier GPU específica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un pequeño problema afecte a nuestras operaciones a gran escala", afirmó David Power, CTO de Nscale.

Habilitando la próxima generación de infraestructura de IA
Al convertir la fiabilidad en una capacidad definida por software en lugar de una limitación de hardware, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generación altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, así como futuros sistemas a escala de rack, donde las arquitecturas densas amplifican el coste incluso de pequeños fallos.

TorchPass se basa en el lanzamiento previo de Network Fault Tolerance de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tráfico alrededor de fallos de enlace.

Para obtener más información sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205, o visitar https://clockwork.io.

Acerca de Clockwork.io
Clockwork.io es pionera en Software-Driven AI Fabrics™, ofreciendo una capa de software programable que hace que los clústeres de IA a gran escala sean observables, deterministas y resilientes por diseño para impulsar el progreso continuo de las cargas de trabajo y la máxima utilización del clúster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA más exigentes del mundo de forma más rápida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber confían en Clockwork.io para impulsar su infraestructura de IA. Más información en www.clockwork.io.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

J.M.Ellis--TFWP