La IA aprende a mentir, manipular y amenazar a sus creadores

The Fort Worth Press - La IA aprende a mentir, manipular y amenazar a sus creadores

Fort Worth 13°C

USD -

AED 3.672497

AFN 66.000258

ALL 81.915831

AMD 380.151858

ANG 1.79008

AOA 917.000383

ARS 1452.018499

AUD 1.423488

AWG 1.8

AZN 1.697068

BAM 1.655536

BBD 2.022821

BDT 122.831966

BGN 1.67937

BHD 0.377034

BIF 2987.661537

BMD 1

BND 1.276711

BOB 6.964795

BRL 5.268305

BSD 1.004342

BTN 91.842522

BWP 13.228461

BYN 2.875814

BYR 19600

BZD 2.019858

CAD 1.367525

CDF 2154.99968

CHF 0.777645

CLF 0.021907

CLP 865.000257

CNY 6.946501

CNH 6.932655

COP 3629

CRC 498.70812

CUC 1

CUP 26.5

CVE 93.33655

CZK 20.57155

DJF 178.843207

DKK 6.32395

DOP 63.484264

DZD 129.858919

EGP 47.007671

ERN 15

ETB 156.676691

EUR 0.84676

FJD 2.19645

FKP 0.729754

GBP 0.73085

GEL 2.69502

GGP 0.729754

GHS 11.012638

GIP 0.729754

GMD 73.494362

GNF 8819.592694

GTQ 7.706307

GYD 210.120453

HKD 7.81279

HNL 26.532255

HRK 6.380201

HTG 131.728867

HUF 322.149967

IDR 16761.8

ILS 3.09082

IMP 0.729754

INR 90.12675

IQD 1315.670299

IRR 42125.000158

ISK 122.940267

JEP 0.729754

JMD 157.811362

JOD 0.70902

JPY 155.584976

KES 128.949828

KGS 87.45004

KHR 4046.744687

KMF 417.999892

KPW 900

KRW 1446.530126

KWD 0.307159

KYD 0.836906

KZT 507.178168

LAK 21598.652412

LBP 89531.701448

LKR 311.010475

LRD 186.300651

LSL 16.079552

LTL 2.95274

LVL 0.60489

LYD 6.345176

MAD 9.158604

MDL 17.00314

MGA 4482.056104

MKD 52.171227

MMK 2099.986463

MNT 3564.625242

MOP 8.079484

MRU 39.911729

MUR 45.889901

MVR 15.449664

MWK 1742.758273

MXN 17.325785

MYR 3.927005

MZN 63.74985

NAD 16.079688

NGN 1398.269932

NIO 36.985739

NOK 9.66906

NPR 147.062561

NZD 1.65375

OMR 0.384511

PAB 1.004342

PEN 3.382683

PGK 4.306869

PHP 59.029499

PKR 281.341223

PLN 3.572805

PYG 6677.840135

QAR 3.671415

RON 4.314602

RSD 99.437023

RUB 76.748664

RWF 1469.427172

SAR 3.750053

SBD 8.058101

SCR 13.898453

SDG 601.487596

SEK 8.92463

SGD 1.26958

SHP 0.750259

SLE 24.475022

SLL 20969.499267

SOS 574.437084

SRD 38.024971

STD 20697.981008

STN 20.754973

SVC 8.788065

SYP 11059.574895

SZL 16.083999

THB 31.458496

TJS 9.380296

TMT 3.51

TND 2.897568

TOP 2.40776

TRY 43.49192

TTD 6.79979

TWD 31.558002

TZS 2586.540198

UAH 43.28509

UGX 3587.360437

UYU 38.963238

UZS 12278.117779

VES 371.640565

VND 25997.5

VUV 119.156711

WST 2.710781

XAF 555.683849

XAG 0.011483

XAU 0.000203

XCD 2.70255

XCG 1.81001

XDR 0.691072

XOF 555.251107

XPF 100.950591

YER 238.374945

ZAR 15.980903

ZMK 9001.198613

ZMW 19.709321

ZWL 321.999592

La IA aprende a mentir, manipular y amenazar a sus creadores

TECNOLOGíA 29.06.2025

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

J.Ayala--TFWP

The Fort Worth Press - La IA aprende a mentir, manipular y amenazar a sus creadores

La IA aprende a mentir, manipular y amenazar a sus creadores

Destacados

El observatorio astronómico ESO celebra la cancelación de un proyecto de hidrógeno verde en Chile

La NASA realiza pruebas clave antes de lanzar la misión lunar Artemis 2

Blue Origin "pausará" el turismo espacial para enfocarse en el regreso a la Luna

Misión espacial explorará meditación y efectos de microgravedad en los ojos