The Fort Worth Press - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

USD -
AED 3.672498
AFN 62.481732
ALL 82.182944
AMD 369.50071
ANG 1.79046
AOA 917.999653
ARS 1393.261257
AUD 1.398993
AWG 1.80125
AZN 1.704285
BAM 1.682192
BBD 2.018062
BDT 122.986281
BGN 1.66992
BHD 0.37793
BIF 2983.270976
BMD 1
BND 1.280867
BOB 6.923838
BRL 5.056798
BSD 1.001935
BTN 96.102868
BWP 14.172795
BYN 2.788285
BYR 19600
BZD 2.015138
CAD 1.37555
CDF 2247.49805
CHF 0.78696
CLF 0.023076
CLP 898.223885
CNY 6.809903
CNH 6.81438
COP 3789.962585
CRC 454.478992
CUC 1
CUP 26.5
CVE 94.839376
CZK 20.916596
DJF 178.419989
DKK 6.428295
DOP 59.863243
DZD 132.734701
EGP 52.834473
ERN 15
ETB 156.447426
EUR 0.860399
FJD 2.20415
FKP 0.750353
GBP 0.750272
GEL 2.679771
GGP 0.750353
GHS 11.457446
GIP 0.750353
GMD 72.505142
GNF 8785.963102
GTQ 7.643745
GYD 209.624565
HKD 7.83285
HNL 26.646884
HRK 6.481099
HTG 131.183073
HUF 311.209428
IDR 17602.95
ILS 2.91944
IMP 0.750353
INR 95.970502
IQD 1312.604825
IRR 1319000.00008
ISK 123.530303
JEP 0.750353
JMD 158.319357
JOD 0.708971
JPY 158.6955
KES 129.153228
KGS 87.45021
KHR 4020.126435
KMF 424.000368
KPW 899.999784
KRW 1498.055019
KWD 0.30864
KYD 0.834989
KZT 470.382316
LAK 21973.938847
LBP 89725.196749
LKR 329.144626
LRD 183.356986
LSL 16.597084
LTL 2.95274
LVL 0.60489
LYD 6.36219
MAD 9.236056
MDL 17.333677
MGA 4170.644648
MKD 53.021116
MMK 2099.722404
MNT 3578.57919
MOP 8.08128
MRU 40.218466
MUR 47.170141
MVR 15.40991
MWK 1737.410227
MXN 17.336599
MYR 3.949499
MZN 63.898139
NAD 16.597084
NGN 1370.490008
NIO 36.872662
NOK 9.304602
NPR 153.764245
NZD 1.70838
OMR 0.384019
PAB 1.001935
PEN 3.434998
PGK 4.365028
PHP 61.607965
PKR 279.069969
PLN 3.65375
PYG 6105.878811
QAR 3.652432
RON 4.436102
RSD 100.967617
RUB 72.76059
RWF 1465.70335
SAR 3.788656
SBD 8.016322
SCR 13.572442
SDG 600.50857
SEK 9.450798
SGD 1.2807
SHP 0.746601
SLE 24.583536
SLL 20969.502105
SOS 572.657292
SRD 37.453001
STD 20697.981008
STN 21.07255
SVC 8.767041
SYP 110.524999
SZL 16.600009
THB 32.604991
TJS 9.348299
TMT 3.51
TND 2.932525
TOP 2.40776
TRY 45.522501
TTD 6.800843
TWD 31.576498
TZS 2615.146433
UAH 44.241431
UGX 3762.095214
UYU 40.132456
UZS 11998.451813
VES 510.148815
VND 26355
VUV 117.460542
WST 2.70638
XAF 564.191287
XAG 0.01316
XAU 0.00022
XCD 2.70255
XCG 1.805789
XDR 0.701673
XOF 564.191287
XPF 102.576012
YER 238.596888
ZAR 16.68789
ZMK 9001.196008
ZMW 18.862082
ZWL 321.999592
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: © AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

J.P.Estrada--TFWP