The Fort Worth Press - La IA aprende a mentir, manipular y amenazar a sus creadores

USD -
AED 3.672504
AFN 64.000368
ALL 80.878301
AMD 368.276037
ANG 1.789884
AOA 918.000367
ARS 1398.655759
AUD 1.37836
AWG 1.8025
AZN 1.70397
BAM 1.65809
BBD 2.008732
BDT 122.377178
BGN 1.668102
BHD 0.376584
BIF 2968.504938
BMD 1
BND 1.264635
BOB 6.891611
BRL 4.915095
BSD 0.997329
BTN 94.180832
BWP 13.389852
BYN 2.818448
BYR 19600
BZD 2.00585
CAD 1.36715
CDF 2265.000362
CHF 0.776955
CLF 0.022646
CLP 890.873638
CNY 6.80075
CNH 6.796265
COP 3727.014539
CRC 458.479929
CUC 1
CUP 26.5
CVE 93.480565
CZK 20.636704
DJF 177.601628
DKK 6.340404
DOP 59.310754
DZD 132.326735
EGP 52.744691
ERN 15
ETB 155.726591
EUR 0.84804
FJD 2.18304
FKP 0.733957
GBP 0.73346
GEL 2.67504
GGP 0.733957
GHS 11.234793
GIP 0.733957
GMD 73.503851
GNF 8750.794795
GTQ 7.614768
GYD 208.672799
HKD 7.83165
HNL 26.513501
HRK 6.393304
HTG 130.575219
HUF 300.190388
IDR 17377.45
ILS 2.901304
IMP 0.733957
INR 94.425504
IQD 1306.515196
IRR 1311500.000352
ISK 122.010386
JEP 0.733957
JMD 157.187063
JOD 0.70904
JPY 156.678504
KES 128.803357
KGS 87.420504
KHR 4001.526006
KMF 418.00035
KPW 899.983822
KRW 1461.920383
KWD 0.30766
KYD 0.831164
KZT 460.946971
LAK 21871.900301
LBP 89311.771438
LKR 321.097029
LRD 183.01047
LSL 16.361918
LTL 2.95274
LVL 0.60489
LYD 6.306642
MAD 9.121445
MDL 17.054809
MGA 4165.995507
MKD 52.257217
MMK 2099.83295
MNT 3581.379784
MOP 8.041456
MRU 39.863507
MUR 46.820378
MVR 15.403739
MWK 1729.049214
MXN 17.177604
MYR 3.921039
MZN 63.910377
NAD 16.361918
NGN 1365.000344
NIO 36.700437
NOK 9.209304
NPR 150.68967
NZD 1.675884
OMR 0.384681
PAB 0.997329
PEN 3.448264
PGK 4.404222
PHP 60.515038
PKR 277.958713
PLN 3.59545
PYG 6092.153787
QAR 3.645458
RON 4.426304
RSD 99.504048
RUB 74.240007
RWF 1462.082998
SAR 3.767486
SBD 8.019432
SCR 14.874401
SDG 600.503676
SEK 9.215704
SGD 1.267404
SHP 0.746601
SLE 24.650371
SLL 20969.496166
SOS 569.963122
SRD 37.399038
STD 20697.981008
STN 20.770633
SVC 8.727057
SYP 110.56358
SZL 16.351151
THB 32.203038
TJS 9.305159
TMT 3.5
TND 2.896867
TOP 2.40776
TRY 45.347504
TTD 6.759357
TWD 31.316038
TZS 2598.109449
UAH 43.809334
UGX 3737.018354
UYU 39.777881
UZS 12097.83392
VES 499.23597
VND 26308
VUV 118.45862
WST 2.707065
XAF 556.107838
XAG 0.012445
XAU 0.000212
XCD 2.70255
XCG 1.797465
XDR 0.69162
XOF 556.107838
XPF 101.106354
YER 238.625037
ZAR 16.38071
ZMK 9001.203584
ZMW 18.98775
ZWL 321.999592
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: © AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

J.Ayala--TFWP