The Fort Worth Press - ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

USD -
AED 3.672503
AFN 63.502625
ALL 82.607312
AMD 376.86357
ANG 1.789731
AOA 916.999782
ARS 1399.512098
AUD 1.39747
AWG 1.8
AZN 1.69567
BAM 1.682025
BBD 2.016023
BDT 122.60431
BGN 1.647646
BHD 0.377533
BIF 2970.939083
BMD 1
BND 1.272952
BOB 6.916362
BRL 5.199032
BSD 1.001006
BTN 91.901561
BWP 13.376221
BYN 2.939854
BYR 19600
BZD 2.013098
CAD 1.356785
CDF 2174.999989
CHF 0.778797
CLF 0.022584
CLP 891.459604
CNY 6.877005
CNH 6.873895
COP 3711.1
CRC 472.678641
CUC 1
CUP 26.5
CVE 94.830811
CZK 21.02695
DJF 178.243538
DKK 6.44381
DOP 60.091078
DZD 131.480955
EGP 51.968098
ERN 15
ETB 155.264699
EUR 0.86239
FJD 2.196901
FKP 0.743065
GBP 0.744645
GEL 2.720273
GGP 0.743065
GHS 10.800258
GIP 0.743065
GMD 73.000175
GNF 8775.038057
GTQ 7.674876
GYD 209.41733
HKD 7.82665
HNL 26.493569
HRK 6.495802
HTG 131.251451
HUF 334.625016
IDR 16896
ILS 3.108615
IMP 0.743065
INR 92.014549
IQD 1311.282256
IRR 1321700.000082
ISK 125.059867
JEP 0.743065
JMD 157.060723
JOD 0.709024
JPY 158.500499
KES 129.25007
KGS 87.450184
KHR 4017.269701
KMF 423.000139
KPW 900.034295
KRW 1475.120183
KWD 0.30672
KYD 0.83414
KZT 487.763974
LAK 21442.270479
LBP 89636.287014
LKR 311.14169
LRD 183.169999
LSL 16.292238
LTL 2.95274
LVL 0.60489
LYD 6.390134
MAD 9.334079
MDL 17.226699
MGA 4152.278894
MKD 53.109813
MMK 2099.436277
MNT 3580.909464
MOP 8.065895
MRU 39.732183
MUR 45.909767
MVR 15.460214
MWK 1735.649138
MXN 17.62711
MYR 3.916502
MZN 63.902565
NAD 16.292168
NGN 1398.340581
NIO 36.835723
NOK 9.632849
NPR 147.044683
NZD 1.68843
OMR 0.384483
PAB 1.000989
PEN 3.491935
PGK 4.314827
PHP 59.288987
PKR 279.669141
PLN 3.67312
PYG 6517.392183
QAR 3.650124
RON 4.392405
RSD 101.245034
RUB 79.627411
RWF 1463.360095
SAR 3.752159
SBD 8.05166
SCR 13.761001
SDG 601.00046
SEK 9.202225
SGD 1.273455
SHP 0.750259
SLE 24.606089
SLL 20969.49935
SOS 571.067354
SRD 37.53899
STD 20697.981008
STN 21.0711
SVC 8.758509
SYP 111.251279
SZL 16.296921
THB 31.72698
TJS 9.579056
TMT 3.51
TND 2.927358
TOP 2.40776
TRY 44.091898
TTD 6.791658
TWD 31.781299
TZS 2595.000056
UAH 43.91981
UGX 3708.449796
UYU 40.369987
UZS 12166.741202
VES 435.696595
VND 26250
VUV 119.420995
WST 2.730746
XAF 564.150043
XAG 0.011581
XAU 0.000193
XCD 2.70255
XCG 1.803905
XDR 0.701622
XOF 564.152469
XPF 102.566308
YER 238.59594
ZAR 16.385535
ZMK 9001.205413
ZMW 19.41887
ZWL 321.999592
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

La nueva solución TorchPass aborda un desafío multimillonario en la infraestructura de IA; utiliza migración en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios

Tamaño del texto:

PALO ALTO, CA / ACCESS Newswire / 10 de marzo de 2026 / Clockwork.io, líder en Software-Driven AI Fabrics™, una capa de software programable y neutral respecto a proveedores que optimiza clústeres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunció hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por software elimina uno de los modos de fallo más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos de trabajos provocados por fallos de infraestructura.

Ofrecido como una capacidad central de la plataforma FleetIQ de Clockwork.io, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migración en vivo de GPU para permitir que las cargas de trabajo continúen ejecutándose a través de fallos de GPU, interrupciones de red, errores de controladores e incluso caídas completas de nodos, sin reinicios desde checkpoints ni pérdida de progreso.

"Las empresas están invirtiendo miles de millones en chips de nueva generación, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante", afirmó Suresh Vasudevan, CEO de Clockwork.io. "Construimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar después, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento continúa a través de los fallos de forma transparente, en software. Para un despliegue típico de 2.048 GPU, eso se traduce en más de 6 millones de dólares al año en capacidad de cómputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue diseñado para ofrecer: infraestructura de IA tolerante a fallos".

Dylan Patel, fundador y CEO de SemiAnalysis, coincidió en que los trabajos de entrenamiento a gran escala están limitados por interrupciones. "A medida que se despliegan clústeres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuación en un enlace de red pueda detener toda una ejecución es totalmente inaceptable", afirmó Patel. "TorchPass resuelve un enorme desafío de fiabilidad de clústeres: proporciona conmutación por error transparente y migración en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor economía de GPU".

Por qué el entrenamiento de IA falla a escala
El entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo más propensas a fallos en la infraestructura moderna. A medida que crece el tamaño de los clústeres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un clúster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayoría de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.

Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el checkpoint más reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervención manual, reprovisión de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilización de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.

TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolviéndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora drásticamente la fiabilidad de las cargas de trabajo y la utilización de los clústeres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecución del entrenamiento según lo previsto, esto se traduce en mejores SLA para los clientes y una economía global de nube de IA más favorable, mejorando su capacidad para proteger márgenes y ofrecer nuevos modelos antes.

"Gestionar la producción de cómputo en clústeres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una función central del negocio: sustituye cualquier GPU específica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un pequeño problema afecte a nuestras operaciones a gran escala", afirmó David Power, CTO de Nscale.

Habilitando la próxima generación de infraestructura de IA
Al convertir la fiabilidad en una capacidad definida por software en lugar de una limitación de hardware, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generación altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, así como futuros sistemas a escala de rack, donde las arquitecturas densas amplifican el coste incluso de pequeños fallos.

TorchPass se basa en el lanzamiento previo de Network Fault Tolerance de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tráfico alrededor de fallos de enlace.

Para obtener más información sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205, o visitar https://clockwork.io.

Acerca de Clockwork.io
Clockwork.io es pionera en Software-Driven AI Fabrics™, ofreciendo una capa de software programable que hace que los clústeres de IA a gran escala sean observables, deterministas y resilientes por diseño para impulsar el progreso continuo de las cargas de trabajo y la máxima utilización del clúster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA más exigentes del mundo de forma más rápida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber confían en Clockwork.io para impulsar su infraestructura de IA. Más información en www.clockwork.io.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

J.M.Ellis--TFWP