The Fort Worth Press - La IA aprende a mentir, manipular y amenazar a sus creadores

USD -
AED 3.672497
AFN 66.000258
ALL 81.915831
AMD 380.151858
ANG 1.79008
AOA 917.000383
ARS 1452.018499
AUD 1.423488
AWG 1.8
AZN 1.697068
BAM 1.655536
BBD 2.022821
BDT 122.831966
BGN 1.67937
BHD 0.377034
BIF 2987.661537
BMD 1
BND 1.276711
BOB 6.964795
BRL 5.268305
BSD 1.004342
BTN 91.842522
BWP 13.228461
BYN 2.875814
BYR 19600
BZD 2.019858
CAD 1.367525
CDF 2154.99968
CHF 0.777645
CLF 0.021907
CLP 865.000257
CNY 6.946501
CNH 6.932655
COP 3629
CRC 498.70812
CUC 1
CUP 26.5
CVE 93.33655
CZK 20.57155
DJF 178.843207
DKK 6.32395
DOP 63.484264
DZD 129.858919
EGP 47.007671
ERN 15
ETB 156.676691
EUR 0.84676
FJD 2.19645
FKP 0.729754
GBP 0.73085
GEL 2.69502
GGP 0.729754
GHS 11.012638
GIP 0.729754
GMD 73.494362
GNF 8819.592694
GTQ 7.706307
GYD 210.120453
HKD 7.81279
HNL 26.532255
HRK 6.380201
HTG 131.728867
HUF 322.149967
IDR 16761.8
ILS 3.09082
IMP 0.729754
INR 90.12675
IQD 1315.670299
IRR 42125.000158
ISK 122.940267
JEP 0.729754
JMD 157.811362
JOD 0.70902
JPY 155.584976
KES 128.949828
KGS 87.45004
KHR 4046.744687
KMF 417.999892
KPW 900
KRW 1446.530126
KWD 0.307159
KYD 0.836906
KZT 507.178168
LAK 21598.652412
LBP 89531.701448
LKR 311.010475
LRD 186.300651
LSL 16.079552
LTL 2.95274
LVL 0.60489
LYD 6.345176
MAD 9.158604
MDL 17.00314
MGA 4482.056104
MKD 52.171227
MMK 2099.986463
MNT 3564.625242
MOP 8.079484
MRU 39.911729
MUR 45.889901
MVR 15.449664
MWK 1742.758273
MXN 17.325785
MYR 3.927005
MZN 63.74985
NAD 16.079688
NGN 1398.269932
NIO 36.985739
NOK 9.66906
NPR 147.062561
NZD 1.65375
OMR 0.384511
PAB 1.004342
PEN 3.382683
PGK 4.306869
PHP 59.029499
PKR 281.341223
PLN 3.572805
PYG 6677.840135
QAR 3.671415
RON 4.314602
RSD 99.437023
RUB 76.748664
RWF 1469.427172
SAR 3.750053
SBD 8.058101
SCR 13.898453
SDG 601.487596
SEK 8.92463
SGD 1.26958
SHP 0.750259
SLE 24.475022
SLL 20969.499267
SOS 574.437084
SRD 38.024971
STD 20697.981008
STN 20.754973
SVC 8.788065
SYP 11059.574895
SZL 16.083999
THB 31.458496
TJS 9.380296
TMT 3.51
TND 2.897568
TOP 2.40776
TRY 43.49192
TTD 6.79979
TWD 31.558002
TZS 2586.540198
UAH 43.28509
UGX 3587.360437
UYU 38.963238
UZS 12278.117779
VES 371.640565
VND 25997.5
VUV 119.156711
WST 2.710781
XAF 555.683849
XAG 0.011483
XAU 0.000203
XCD 2.70255
XCG 1.81001
XDR 0.691072
XOF 555.251107
XPF 100.950591
YER 238.374945
ZAR 15.980903
ZMK 9001.198613
ZMW 19.709321
ZWL 321.999592
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: © AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

J.Ayala--TFWP