The Fort Worth Press - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

USD -
AED 3.672496
AFN 63.50433
ALL 83.192586
AMD 375.730804
ANG 1.790083
AOA 916.999997
ARS 1390.101098
AUD 1.460771
AWG 1.8
AZN 1.696439
BAM 1.693993
BBD 2.007535
BDT 122.298731
BGN 1.709309
BHD 0.376597
BIF 2960.807241
BMD 1
BND 1.28353
BOB 6.91265
BRL 5.240403
BSD 0.996752
BTN 94.473171
BWP 13.741284
BYN 2.966957
BYR 19600
BZD 2.004591
CAD 1.390035
CDF 2282.50088
CHF 0.799635
CLF 0.023381
CLP 923.219739
CNY 6.91185
CNH 6.92254
COP 3674.03
CRC 462.864319
CUC 1
CUP 26.5
CVE 95.504742
CZK 21.333972
DJF 177.489065
DKK 6.500845
DOP 59.330475
DZD 133.010264
EGP 52.874602
ERN 15
ETB 154.083756
EUR 0.869898
FJD 2.257398
FKP 0.752712
GBP 0.755403
GEL 2.679573
GGP 0.752712
GHS 10.921138
GIP 0.752712
GMD 73.50089
GNF 8739.335672
GTQ 7.62808
GYD 208.64406
HKD 7.83245
HNL 26.46399
HRK 6.557007
HTG 130.656966
HUF 339.504022
IDR 16965
ILS 3.137619
IMP 0.752712
INR 94.78205
IQD 1305.703521
IRR 1313249.999923
ISK 124.940227
JEP 0.752712
JMD 156.892296
JOD 0.708969
JPY 160.0815
KES 129.650234
KGS 87.449953
KHR 3992.031527
KMF 428.000223
KPW 900.00296
KRW 1511.290246
KWD 0.30791
KYD 0.830627
KZT 481.867394
LAK 21678.576069
LBP 89256.247023
LKR 313.975142
LRD 182.893768
LSL 17.115586
LTL 2.95274
LVL 0.60489
LYD 6.362652
MAD 9.315751
MDL 17.507254
MGA 4153.999394
MKD 53.388766
MMK 2098.832611
MNT 3571.142668
MOP 8.042181
MRU 39.797324
MUR 46.770112
MVR 15.450254
MWK 1728.292408
MXN 18.156455
MYR 4.022502
MZN 63.950186
NAD 17.115586
NGN 1378.509666
NIO 36.680958
NOK 9.74951
NPR 151.156728
NZD 1.74604
OMR 0.38408
PAB 0.996752
PEN 3.472089
PGK 4.307306
PHP 60.530976
PKR 278.184401
PLN 3.72839
PYG 6516.824737
QAR 3.634057
RON 4.435203
RSD 101.684639
RUB 81.655379
RWF 1455.545451
SAR 3.752751
SBD 8.042037
SCR 15.03876
SDG 601.000304
SEK 9.478605
SGD 1.28959
SHP 0.750259
SLE 24.550052
SLL 20969.510825
SOS 569.659175
SRD 37.60102
STD 20697.981008
STN 21.220389
SVC 8.721147
SYP 110.527654
SZL 17.114027
THB 32.960288
TJS 9.523624
TMT 3.5
TND 2.938634
TOP 2.40776
TRY 44.461899
TTD 6.772336
TWD 31.991979
TZS 2579.99977
UAH 43.689489
UGX 3713.134988
UYU 40.344723
UZS 12155.385215
VES 467.928355
VND 26337.5
VUV 119.385423
WST 2.775484
XAF 568.149495
XAG 0.014713
XAU 0.000226
XCD 2.70255
XCG 1.796371
XDR 0.706596
XOF 568.149495
XPF 103.295656
YER 238.600239
ZAR 17.166203
ZMK 9001.208457
ZMW 18.763154
ZWL 321.999592
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: © AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

J.P.Estrada--TFWP