L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

The Fort Worth Press - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Fort Worth 16°C

USD -

AED 3.672498

AFN 64.496875

ALL 81.380528

AMD 369.184597

ANG 1.789884

AOA 917.999724

ARS 1395.381205

AUD 1.3837

AWG 1.8

AZN 1.697085

BAM 1.667512

BBD 2.020641

BDT 123.098172

BGN 1.668102

BHD 0.378875

BIF 2985.894118

BMD 1

BND 1.270084

BOB 6.932419

BRL 4.930102

BSD 1.003253

BTN 94.565375

BWP 13.432689

BYN 2.835207

BYR 19600

BZD 2.017742

CAD 1.365255

CDF 2315.999881

CHF 0.779175

CLF 0.022638

CLP 890.970154

CNY 6.80505

CNH 6.800575

COP 3738.9

CRC 460.209132

CUC 1

CUP 26.5

CVE 94.012576

CZK 20.69725

DJF 178.651968

DKK 6.36203

DOP 59.661791

DZD 132.335032

EGP 52.717504

ERN 15

ETB 156.643406

EUR 0.85136

FJD 2.18685

FKP 0.734821

GBP 0.736365

GEL 2.680059

GGP 0.734821

GHS 11.286699

GIP 0.734821

GMD 72.999748

GNF 8804.55958

GTQ 7.660794

GYD 209.901226

HKD 7.827605

HNL 26.670759

HRK 6.419303

HTG 131.399121

HUF 303.012017

IDR 17365.95

ILS 2.91051

IMP 0.734821

INR 94.41075

IQD 1314.280599

IRR 1312900.000132

ISK 122.430342

JEP 0.734821

JMD 158.020607

JOD 0.709014

JPY 156.800501

KES 129.150246

KGS 87.420497

KHR 4024.093407

KMF 418.999754

KPW 899.950939

KRW 1467.765006

KWD 0.307795

KYD 0.836058

KZT 464.61503

LAK 22016.463537

LBP 89533.723815

LKR 323.055346

LRD 184.10709

LSL 16.368643

LTL 2.95274

LVL 0.604889

LYD 6.345837

MAD 9.195197

MDL 17.26071

MGA 4165.565455

MKD 52.51478

MMK 2099.606786

MNT 3578.902576

MOP 8.092183

MRU 40.138456

MUR 46.820229

MVR 15.455001

MWK 1739.54559

MXN 17.262901

MYR 3.919502

MZN 63.905048

NAD 16.368783

NGN 1361.979903

NIO 36.917043

NOK 9.29545

NPR 151.292686

NZD 1.679839

OMR 0.384501

PAB 1.003253

PEN 3.475021

PGK 4.365952

PHP 60.544997

PKR 279.534225

PLN 3.600795

PYG 6140.362095

QAR 3.656974

RON 4.479694

RSD 99.945022

RUB 74.639547

RWF 1470.817685

SAR 3.780174

SBD 8.032258

SCR 14.098598

SDG 600.501353

SEK 9.25905

SGD 1.268503

SHP 0.746601

SLE 24.547226

SLL 20969.496166

SOS 573.372496

SRD 37.431033

STD 20697.981008

STN 20.887684

SVC 8.778354

SYP 110.543945

SZL 16.363923

THB 32.219503

TJS 9.375794

TMT 3.51

TND 2.910164

TOP 2.40776

TRY 45.363901

TTD 6.786684

TWD 31.373302

TZS 2608.394049

UAH 43.928641

UGX 3752.28603

UYU 40.11647

UZS 12157.202113

VES 496.20906

VND 26311

VUV 118.026144

WST 2.704092

XAF 559.236967

XAG 0.012394

XAU 0.000212

XCD 2.70255

XCG 1.808106

XDR 0.695511

XOF 559.267959

XPF 101.680898

YER 238.579251

ZAR 16.412899

ZMK 9001.200987

ZMW 19.111685

ZWL 321.999592

AEX

-6.6300

1012.76

-0.65%
BEL20

-33.9100

5435.84

-0.62%
PX1

-65.6200

8136.57

-0.8%
ISEQ

-186.3900

12757.05

-1.44%
OSEBX

-4.3500

1974.87

-0.22%
PSI20

-83.1200

9051.33

-0.91%
ENTEC

-5.8300

1416.23

-0.41%
BIOTK

-88.2800

3998.61

-2.16%
N150

-16.8000

4182.38

-0.4%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

CULTURE 29.06.2025

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

T.Dixon--TFWP

The Fort Worth Press - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

En vedette

Le Parlement français facilite les restitutions d'oeuvres pillées durant la colonisation

Libération: Sonia Delesalle-Stolper nommée directrice de la rédaction

79e Festival de Cannes: les 22 films en compétition

La Corée du Sud en pleine traque à la désinformation par IA avant des élections