The Fort Worth Press - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

USD -
AED 3.6725
AFN 65.498831
ALL 81.910095
AMD 378.010177
ANG 1.79008
AOA 917.000095
ARS 1442.232097
AUD 1.447974
AWG 1.8
AZN 1.679026
BAM 1.658807
BBD 2.01469
BDT 122.336816
BGN 1.67937
BHD 0.376968
BIF 2960
BMD 1
BND 1.274003
BOB 6.911584
BRL 5.272703
BSD 1.000305
BTN 90.399817
BWP 13.243033
BYN 2.865297
BYR 19600
BZD 2.011721
CAD 1.37165
CDF 2230.000045
CHF 0.777555
CLF 0.02195
CLP 866.710083
CNY 6.93805
CNH 6.939685
COP 3700.85
CRC 495.911928
CUC 1
CUP 26.5
CVE 93.825019
CZK 20.603404
DJF 177.71986
DKK 6.34081
DOP 62.995021
DZD 130.060373
EGP 46.856399
ERN 15
ETB 155.150026
EUR 0.849125
FJD 2.216898
FKP 0.732184
GBP 0.739795
GEL 2.69498
GGP 0.732184
GHS 10.974974
GIP 0.732184
GMD 72.999956
GNF 8760.500761
GTQ 7.672344
GYD 209.27195
HKD 7.81303
HNL 26.454967
HRK 6.3973
HTG 131.225404
HUF 322.782007
IDR 16886.95
ILS 3.119945
IMP 0.732184
INR 90.321502
IQD 1310.5
IRR 42125.000158
ISK 122.900592
JEP 0.732184
JMD 156.449315
JOD 0.708997
JPY 156.633502
KES 129.000438
KGS 87.449771
KHR 4033.000063
KMF 419.000058
KPW 900.030004
KRW 1471.989986
KWD 0.30744
KYD 0.833598
KZT 493.342041
LAK 21500.000573
LBP 85550.000319
LKR 309.548446
LRD 186.150152
LSL 16.260081
LTL 2.95274
LVL 0.60489
LYD 6.324959
MAD 9.185022
MDL 16.999495
MGA 4440.000275
MKD 52.338218
MMK 2099.783213
MNT 3569.156954
MOP 8.049755
MRU 39.849936
MUR 46.050157
MVR 15.450164
MWK 1737.000329
MXN 17.55195
MYR 3.951299
MZN 63.749722
NAD 16.285115
NGN 1367.09822
NIO 36.701015
NOK 9.81742
NPR 144.639707
NZD 1.684896
OMR 0.384507
PAB 1.000314
PEN 3.367497
PGK 4.265974
PHP 58.815021
PKR 279.737212
PLN 3.587406
PYG 6605.373863
QAR 3.641349
RON 4.3236
RSD 99.675965
RUB 76.750999
RWF 1453
SAR 3.750175
SBD 8.058149
SCR 14.65365
SDG 601.502308
SEK 9.06708
SGD 1.27589
SHP 0.750259
SLE 24.450569
SLL 20969.499267
SOS 571.484438
SRD 37.870144
STD 20697.981008
STN 21.05
SVC 8.752036
SYP 11059.574895
SZL 16.305262
THB 31.850216
TJS 9.362532
TMT 3.505
TND 2.847496
TOP 2.40776
TRY 43.61304
TTD 6.773307
TWD 31.665034
TZS 2584.999947
UAH 43.163845
UGX 3570.701588
UYU 38.599199
UZS 12275.000276
VES 377.985125
VND 25955
VUV 119.687673
WST 2.726344
XAF 556.374339
XAG 0.015352
XAU 0.000213
XCD 2.70255
XCG 1.802745
XDR 0.691101
XOF 554.499549
XPF 101.697491
YER 238.401353
ZAR 16.34654
ZMK 9001.196933
ZMW 18.580528
ZWL 321.999592
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: © AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

J.P.Estrada--TFWP