The Fort Worth Press - Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA

USD -
AED 3.673019
AFN 63.501767
ALL 82.650311
AMD 368.049708
ANG 1.790403
AOA 916.999856
ARS 1489.492702
AUD 1.449801
AWG 1.8
AZN 1.700733
BAM 1.716457
BBD 2.014726
BDT 123.242589
BGN 1.69088
BHD 0.377025
BIF 2985
BMD 1
BND 1.296755
BOB 6.937497
BRL 5.215702
BSD 1.000298
BTN 95.33551
BWP 14.280449
BYN 2.914275
BYR 19600
BZD 2.01183
CAD 1.42146
CDF 2274.999872
CHF 0.809026
CLF 0.023531
CLP 926.090138
CNY 6.79445
CNH 6.795485
COP 3390.04
CRC 455.303389
CUC 1
CUP 26.5
CVE 97.125018
CZK 21.29525
DJF 177.720086
DKK 6.56861
DOP 59.449819
DZD 133.326305
EGP 49.089799
ERN 15
ETB 159.149726
EUR 0.87882
FJD 2.245201
FKP 0.754315
GBP 0.753225
GEL 2.640103
GGP 0.754315
GHS 11.365023
GIP 0.754315
GMD 73.495989
GNF 8770.000087
GTQ 7.629052
GYD 209.24824
HKD 7.844215
HNL 26.249971
HRK 6.620099
HTG 130.790023
HUF 312.479003
IDR 17949.45
ILS 2.9855
IMP 0.754315
INR 95.160297
IQD 1310.5
IRR 1375999.999954
ISK 126.359707
JEP 0.754315
JMD 157.314119
JOD 0.708974
JPY 162.538982
KES 129.303533
KGS 87.44978
KHR 4012.497478
KMF 432.999742
KPW 900.00035
KRW 1549.710304
KWD 0.30928
KYD 0.83364
KZT 479.437628
LAK 22499.999851
LBP 89549.999914
LKR 336.036368
LRD 181.874975
LSL 16.398755
LTL 2.95274
LVL 0.60489
LYD 6.415009
MAD 9.407495
MDL 17.690836
MGA 4287.566306
MKD 54.162695
MMK 2099.611597
MNT 3582.983883
MOP 8.081898
MRU 40.130384
MUR 47.199188
MVR 15.450231
MWK 1735.999797
MXN 17.553597
MYR 4.095504
MZN 63.898271
NAD 16.396498
NGN 1375.497874
NIO 36.605036
NOK 9.912198
NPR 152.537167
NZD 1.762725
OMR 0.384498
PAB 1.000298
PEN 3.417999
PGK 4.378004
PHP 61.635503
PKR 278.249804
PLN 3.772025
PYG 6080.073017
QAR 3.645497
RON 4.594199
RSD 103.152958
RUB 77.500044
RWF 1466
SAR 3.751401
SBD 8.049104
SCR 13.428397
SDG 600.498008
SEK 9.728545
SGD 1.2958
SHP 0.746601
SLE 24.374986
SLL 20969.503664
SOS 571.502782
SRD 37.504502
STD 20697.981008
STN 21.9
SVC 8.752391
SYP 110.532098
SZL 16.402996
THB 33.351502
TJS 9.252979
TMT 3.5
TND 2.93875
TOP 2.40776
TRY 46.665401
TTD 6.790936
TWD 31.859867
TZS 2624.997937
UAH 44.843589
UGX 3665.771506
UYU 40.21203
UZS 11932.480153
VES 632.57269
VND 26300.5
VUV 120.098371
WST 2.780884
XAF 575.673565
XAG 0.016694
XAU 0.000246
XCD 2.70255
XCG 1.802784
XDR 0.715018
XOF 574.498585
XPF 105.124967
YER 238.59782
ZAR 16.414976
ZMK 9001.201128
ZMW 18.211258
ZWL 321.999592
Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA
Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA

Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA

La garantía "You Only Compute Once" (YOCO) se compromete a resolver el 90 % de los fallos durante el entrenamiento de modelos de IA sin pérdida de progreso; en caso contrario, los clientes recibirán una compensación económica

Tamaño del texto:

PALO ALTO (California, EE. UU.) / ACCESS Newswire / 1 de julio de 2026 / Clockwork.io, pionera en Software-Driven AI Fabrics™ y la empresa responsable de TorchPass, su solución de tolerancia a fallos para IA, anunció hoy la Garantía YOCO, el primer compromiso contractual del sector destinado a reducir drásticamente el coste oculto y acumulativo que provocan los fallos durante el entrenamiento de modelos de inteligencia artificial a gran escala. El anuncio marca un punto de inflexión en la forma en que la industria mide la fiabilidad de la infraestructura de IA, alejándose de las métricas tradicionales de disponibilidad ("uptime") diseñadas para una era anterior y centrándose en lo que realmente valoran los equipos de IA: que el entrenamiento finalice a tiempo y sin pérdida de trabajo.

En virtud de la garantía YOCO (You Only Compute Once), Clockwork.io se compromete a que al menos el 90 % de los fallos de entrenamiento en cargas de trabajo TorchPass compatibles se resolverán mediante la migración en caliente de las GPU, sin pérdida del progreso del entrenamiento, sin necesidad de volver al último punto de control ("checkpoint") y sin tener que recomputar el trabajo ya realizado. Si Clockwork.io no cumple este compromiso durante cualquier año de contrato, los clientes recibirán un crédito del 25 % aplicable a la siguiente renovación o ampliación de TorchPass.

"Desarrollamos TorchPass para que los fallos durante el entrenamiento dejaran de ser un problema", afirmó Suresh Vasudevan, director ejecutivo de Clockwork.io. "La garantía YOCO queda reflejada en el propio contrato. Ponemos en juego nuestra propia credibilidad porque sabemos que TorchPass cumple lo que promete, y queremos que nuestros clientes también lo sepan".

El coste oculto del progreso en IA
Todas las organizaciones que entrenan modelos de IA a gran escala se enfrentan al mismo problema: los clústeres de GPU fallan constantemente y cada fallo obliga a reiniciar un costoso ciclo de recuperación. Según una investigación publicada por Meta FAIR en HPCA 2025, un clúster de 1.024 GPU presenta un tiempo medio entre fallos de apenas 7,9 horas, mientras que en un clúster de 16.384 GPU esa cifra se reduce a 1,8 horas. Cada fallo obliga a asignar nuevos nodos, restaurar el entrenamiento desde el último punto de control y volver a calcular todos los pasos realizados desde entonces. Ese trabajo recomputado supone un coste completo de GPU: capacidad de cálculo que ya se había pagado y que debe volver a ejecutarse desde cero. Habitualmente, cada incidente implica la pérdida de tres o más horas de progreso, acumulándose estas pérdidas día tras día.

Como consecuencia, los clústeres actuales de GPU funcionan de forma efectiva entre un 30 % y un 50 % de su rendimiento teórico, no porque el hardware sea lento, sino porque el modelo de fiabilidad sobre el que se construye nunca fue diseñado para cargas de trabajo de esta naturaleza, duración y escala.

"Los equipos de IA necesitan que sus modelos se completen, no simplemente que sus nodos permanezcan activos. Durante años, el sector ha medido la disponibilidad de los nodos y la ha llamado fiabilidad. YOCO nos hace responsables de lo único que realmente importa: que el modelo termine de entrenarse", añadió Vasudevan.

El impacto económico es considerable. En una implementación típica de 2.048 GPU H200, los reinicios provocados por fallos generan más de 6 millones de dólares anuales en capacidad de cálculo desperdiciada, con cientos de miles de horas de GPU perdidas debido a reintentos encadenados, tiempos de recuperación y recomputación del entrenamiento. Para quienes desarrollan IA, la verdadera unidad de valor no es el tiempo de disponibilidad de las GPU, sino el tiempo necesario para obtener un modelo entrenado. Sin embargo, los contratos de infraestructura que adquieren garantizan la disponibilidad de los nodos, no la continuidad de los trabajos de entrenamiento. Para los operadores de IA ocurre algo similar: cuando el entrenamiento de un cliente falla, se reinicia y pierde días de progreso, la percepción es de falta de fiabilidad, independientemente de lo que establezca el acuerdo de nivel de servicio (SLA).

"La recomputación y los reinicios constituyen el impuesto oculto del entrenamiento de IA a gran escala", señaló Vasudevan. "La mayoría de los equipos lo consideran inevitable. No lo es".

La garantía YOCO cambia ese planteamiento contractual.

TorchPass: la fiabilidad redefinida mediante software
La respuesta de Clockwork.io consiste en convertir la fiabilidad en una propiedad definida por software, en lugar de depender de la disponibilidad del hardware, mediante un replanteamiento arquitectónico que desvincula la continuidad del entrenamiento de la tasa de fallos de cualquier componente individual.

TorchPass aborda los fallos desde su origen mediante la migración en caliente de GPU. Cuando se produce una incidencia, la solución transfiere todo el estado almacenado en memoria del entrenamiento -incluidos los pesos del modelo, los gradientes y el estado del optimizador- a un nodo de reserva operativo. El entrenamiento continúa exactamente donde se había detenido y, por lo general, la recuperación se completa en aproximadamente tres minutos, sin restaurar puntos de control, sin recomputar y sin pérdida de progreso.

TorchPass gestiona tres tipos de incidencias: migración no planificada para fallos repentinos y graves, como bloqueos del kernel, cortes de suministro eléctrico o averías de GPU; migración preventiva, activada por señales tempranas como el aumento de errores ECC o determinados umbrales térmicos; y migración planificada para tareas de mantenimiento, actualizaciones de seguridad o firmware. En los tres casos, el entrenamiento continúa sin interrupciones.

Disponibilidad
La garantía YOCO estará disponible para los nuevos clientes de TorchPass y para las renovaciones a partir del 3 de agosto de 2026. Los clientes actuales podrán ponerse en contacto con su equipo comercial de Clockwork.io para incorporar la garantía a sus contratos vigentes. Más información en clockwork.io/yoco.

Clockwork.io estará presente en RAISE Summit, que se celebrará en París (Francia) los días 8 y 9 de julio, en el stand 27A. Además, Suresh Vasudevan, director ejecutivo de Clockwork.io, participará el 8 de julio, a las 10:40 horas (hora local), en la mesa redonda "Infrastructure as Destiny: The Compute-Capital-Cloud Trinity", que tendrá lugar en el escenario principal.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

G.George--TFWP