The Fort Worth Press - ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

USD -
AED 3.672499
AFN 63.508409
ALL 83.130137
AMD 367.930065
ANG 1.790403
AOA 917.506766
ARS 1479.237698
AUD 1.450579
AWG 1.80125
AZN 1.700987
BAM 1.724577
BBD 2.013888
BDT 122.992813
BGN 1.69088
BHD 0.377147
BIF 2984.81535
BMD 1
BND 1.298984
BOB 6.909809
BRL 5.209023
BSD 0.999934
BTN 94.624111
BWP 13.680173
BYN 2.818068
BYR 19600
BZD 2.01104
CAD 1.42403
CDF 2268.999938
CHF 0.81271
CLF 0.023343
CLP 918.720455
CNY 6.790498
CNH 6.812925
COP 3444.43
CRC 455.186766
CUC 1
CUP 26.5
CVE 97.22259
CZK 21.340975
DJF 177.719807
DKK 6.584465
DOP 58.613453
DZD 133.503983
EGP 49.614424
ERN 15
ETB 158.650487
EUR 0.8808
FJD 2.2442
FKP 0.758197
GBP 0.759685
GEL 2.639997
GGP 0.758197
GHS 11.199781
GIP 0.758197
GMD 72.497463
GNF 8761.518452
GTQ 7.627362
GYD 209.162776
HKD 7.83898
HNL 26.720332
HRK 6.636201
HTG 130.744947
HUF 313.441501
IDR 18023.55
ILS 2.987898
IMP 0.758197
INR 94.44095
IQD 1310
IRR 1375049.999401
ISK 127.020219
JEP 0.758197
JMD 157.488647
JOD 0.709058
JPY 161.743497
KES 129.529765
KGS 87.449752
KHR 4017.494974
KMF 434.000152
KPW 900.00035
KRW 1546.760063
KWD 0.30949
KYD 0.833297
KZT 486.623047
LAK 22065.000305
LBP 89549.999401
LKR 337.341005
LRD 182.249788
LSL 16.590249
LTL 2.95274
LVL 0.60489
LYD 6.405023
MAD 9.415494
MDL 17.709096
MGA 4224.999504
MKD 54.277626
MMK 2099.539901
MNT 3580.066416
MOP 8.076099
MRU 40.069983
MUR 48.210327
MVR 15.450235
MWK 1737.000468
MXN 17.625155
MYR 4.13703
MZN 63.909571
NAD 16.589564
NGN 1374.123004
NIO 36.610102
NOK 9.856065
NPR 151.394749
NZD 1.772685
OMR 0.384504
PAB 0.999965
PEN 3.422009
PGK 4.38325
PHP 61.441999
PKR 278.049757
PLN 3.77416
PYG 6099.351442
QAR 3.644985
RON 4.592503
RSD 103.387018
RUB 74.902626
RWF 1466
SAR 3.741267
SBD 8.051953
SCR 13.814179
SDG 599.999885
SEK 9.75603
SGD 1.29765
SHP 0.746601
SLE 24.79971
SLL 20969.503664
SOS 571.497058
SRD 37.460182
STD 20697.981008
STN 21.675
SVC 8.749173
SYP 110.532098
SZL 16.590246
THB 33.439499
TJS 9.284423
TMT 3.5
TND 2.9375
TOP 2.40776
TRY 46.5119
TTD 6.780184
TWD 31.822898
TZS 2620.503015
UAH 44.88455
UGX 3689.350352
UYU 39.918699
UZS 12014.999848
VES 620.752985
VND 26335
VUV 118.798432
WST 2.761642
XAF 578.424923
XAG 0.017324
XAU 0.000249
XCD 2.70255
XCG 1.802141
XDR 0.716966
XOF 572.999591
XPF 105.49826
YER 238.624991
ZAR 16.571597
ZMK 9001.200644
ZMW 18.024056
ZWL 321.999592
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

La nueva solución TorchPass aborda un desafío multimillonario en la infraestructura de IA; utiliza migración en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios

Tamaño del texto:

PALO ALTO, CA / ACCESS Newswire / 10 de marzo de 2026 / Clockwork.io, líder en Software-Driven AI Fabrics™, una capa de software programable y neutral respecto a proveedores que optimiza clústeres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunció hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por software elimina uno de los modos de fallo más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos de trabajos provocados por fallos de infraestructura.

Ofrecido como una capacidad central de la plataforma FleetIQ de Clockwork.io, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migración en vivo de GPU para permitir que las cargas de trabajo continúen ejecutándose a través de fallos de GPU, interrupciones de red, errores de controladores e incluso caídas completas de nodos, sin reinicios desde checkpoints ni pérdida de progreso.

"Las empresas están invirtiendo miles de millones en chips de nueva generación, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante", afirmó Suresh Vasudevan, CEO de Clockwork.io. "Construimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar después, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento continúa a través de los fallos de forma transparente, en software. Para un despliegue típico de 2.048 GPU, eso se traduce en más de 6 millones de dólares al año en capacidad de cómputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue diseñado para ofrecer: infraestructura de IA tolerante a fallos".

Dylan Patel, fundador y CEO de SemiAnalysis, coincidió en que los trabajos de entrenamiento a gran escala están limitados por interrupciones. "A medida que se despliegan clústeres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuación en un enlace de red pueda detener toda una ejecución es totalmente inaceptable", afirmó Patel. "TorchPass resuelve un enorme desafío de fiabilidad de clústeres: proporciona conmutación por error transparente y migración en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor economía de GPU".

Por qué el entrenamiento de IA falla a escala
El entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo más propensas a fallos en la infraestructura moderna. A medida que crece el tamaño de los clústeres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un clúster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayoría de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.

Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el checkpoint más reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervención manual, reprovisión de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilización de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.

TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolviéndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora drásticamente la fiabilidad de las cargas de trabajo y la utilización de los clústeres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecución del entrenamiento según lo previsto, esto se traduce en mejores SLA para los clientes y una economía global de nube de IA más favorable, mejorando su capacidad para proteger márgenes y ofrecer nuevos modelos antes.

"Gestionar la producción de cómputo en clústeres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una función central del negocio: sustituye cualquier GPU específica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un pequeño problema afecte a nuestras operaciones a gran escala", afirmó David Power, CTO de Nscale.

Habilitando la próxima generación de infraestructura de IA
Al convertir la fiabilidad en una capacidad definida por software en lugar de una limitación de hardware, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generación altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, así como futuros sistemas a escala de rack, donde las arquitecturas densas amplifican el coste incluso de pequeños fallos.

TorchPass se basa en el lanzamiento previo de Network Fault Tolerance de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tráfico alrededor de fallos de enlace.

Para obtener más información sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205, o visitar https://clockwork.io.

Acerca de Clockwork.io
Clockwork.io es pionera en Software-Driven AI Fabrics™, ofreciendo una capa de software programable que hace que los clústeres de IA a gran escala sean observables, deterministas y resilientes por diseño para impulsar el progreso continuo de las cargas de trabajo y la máxima utilización del clúster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA más exigentes del mundo de forma más rápida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber confían en Clockwork.io para impulsar su infraestructura de IA. Más información en www.clockwork.io.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

J.M.Ellis--TFWP