The Fort Worth Press - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

USD -
AED 3.672501
AFN 66.067612
ALL 82.8638
AMD 380.809338
ANG 1.790055
AOA 916.999815
ARS 1430.007798
AUD 1.504597
AWG 1.8
AZN 1.699952
BAM 1.678561
BBD 2.013191
BDT 122.291693
BGN 1.679041
BHD 0.376856
BIF 2953.315625
BMD 1
BND 1.294838
BOB 6.907176
BRL 5.437102
BSD 0.999515
BTN 89.869974
BWP 13.279664
BYN 2.873658
BYR 19600
BZD 2.010265
CAD 1.382005
CDF 2231.99976
CHF 0.803596
CLF 0.023592
CLP 925.500129
CNY 7.070104
CNH 7.06784
COP 3834.99
CRC 488.257028
CUC 1
CUP 26.5
CVE 94.635478
CZK 20.76585
DJF 177.991958
DKK 6.40824
DOP 63.973772
DZD 129.665199
EGP 47.448903
ERN 15
ETB 155.039072
EUR 0.85802
FJD 2.26045
FKP 0.749695
GBP 0.749535
GEL 2.695015
GGP 0.749695
GHS 11.370015
GIP 0.749695
GMD 73.000127
GNF 8685.427877
GTQ 7.656525
GYD 209.119699
HKD 7.780405
HNL 26.325885
HRK 6.465703
HTG 130.848421
HUF 327.843502
IDR 16679.7
ILS 3.23571
IMP 0.749695
INR 89.93945
IQD 1309.422659
IRR 42112.497564
ISK 127.839571
JEP 0.749695
JMD 159.985925
JOD 0.708956
JPY 154.986973
KES 129.29674
KGS 87.450159
KHR 4002.008299
KMF 421.999936
KPW 899.999499
KRW 1468.100559
KWD 0.30697
KYD 0.833011
KZT 505.488469
LAK 21674.94872
LBP 89509.084511
LKR 308.306942
LRD 175.925846
LSL 16.940275
LTL 2.95274
LVL 0.60489
LYD 5.433565
MAD 9.231911
MDL 17.00696
MGA 4458.595993
MKD 52.902606
MMK 2099.59745
MNT 3547.373646
MOP 8.015311
MRU 39.859591
MUR 46.069702
MVR 15.402368
MWK 1733.230916
MXN 18.16618
MYR 4.106985
MZN 63.91005
NAD 16.940275
NGN 1449.049919
NIO 36.784332
NOK 10.09833
NPR 143.789935
NZD 1.727105
OMR 0.383619
PAB 0.999601
PEN 3.359867
PGK 4.241441
PHP 58.913989
PKR 280.223059
PLN 3.62896
PYG 6874.56283
QAR 3.643394
RON 4.369102
RSD 100.758694
RUB 76.749823
RWF 1454.300464
SAR 3.753102
SBD 8.230592
SCR 13.516483
SDG 601.492171
SEK 9.38883
SGD 1.295515
SHP 0.750259
SLE 23.690979
SLL 20969.498139
SOS 570.219668
SRD 38.629009
STD 20697.981008
STN 21.026975
SVC 8.746363
SYP 11056.837473
SZL 16.927216
THB 31.846504
TJS 9.171008
TMT 3.51
TND 2.932155
TOP 2.40776
TRY 42.57802
TTD 6.776533
TWD 31.15203
TZS 2465.496472
UAH 41.962469
UGX 3535.964709
UYU 39.093679
UZS 11958.01435
VES 254.551935
VND 26365
VUV 121.361107
WST 2.788611
XAF 562.973484
XAG 0.017279
XAU 0.000238
XCD 2.70255
XCG 1.801454
XDR 0.700158
XOF 562.973484
XPF 102.355041
YER 238.550277
ZAR 16.9287
ZMK 9001.202824
ZMW 23.109173
ZWL 321.999592
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: © AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

J.P.Estrada--TFWP