The Fort Worth Press - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.672505
AFN 64.999617
ALL 81.873378
AMD 378.439629
ANG 1.79008
AOA 917.000017
ARS 1444.993898
AUD 1.424623
AWG 1.8025
AZN 1.698328
BAM 1.658498
BBD 2.01317
BDT 122.152876
BGN 1.67937
BHD 0.37697
BIF 2962.5
BMD 1
BND 1.270543
BOB 6.906845
BRL 5.239098
BSD 0.999546
BTN 90.307481
BWP 13.806116
BYN 2.86383
BYR 19600
BZD 2.010235
CAD 1.36445
CDF 2199.999975
CHF 0.776105
CLF 0.021794
CLP 860.539972
CNY 6.938197
CNH 6.93502
COP 3646.93
CRC 496.408795
CUC 1
CUP 26.5
CVE 93.750278
CZK 20.60345
DJF 177.720253
DKK 6.32319
DOP 63.000254
DZD 129.900254
EGP 47.009197
ERN 15
ETB 155.042675
EUR 0.846625
FJD 2.198801
FKP 0.732491
GBP 0.730199
GEL 2.695012
GGP 0.732491
GHS 10.944975
GIP 0.732491
GMD 73.000094
GNF 8753.999774
GTQ 7.666672
GYD 209.120397
HKD 7.813115
HNL 26.408086
HRK 6.376701
HTG 131.107644
HUF 322.478502
IDR 16766
ILS 3.082015
IMP 0.732491
INR 90.36925
IQD 1309.380459
IRR 42125.000158
ISK 122.749952
JEP 0.732491
JMD 156.640605
JOD 0.709028
JPY 155.879497
KES 129.000415
KGS 87.449822
KHR 4081.504905
KMF 417.999853
KPW 899.987247
KRW 1450.779878
KWD 0.30715
KYD 0.83298
KZT 501.119346
LAK 21499.832523
LBP 89508.041026
LKR 309.380459
LRD 185.911623
LSL 16.009531
LTL 2.95274
LVL 0.60489
LYD 6.319217
MAD 9.168716
MDL 16.926717
MGA 4429.877932
MKD 52.189044
MMK 2100.119929
MNT 3568.429082
MOP 8.04357
MRU 39.901294
MUR 45.890045
MVR 15.450054
MWK 1733.257012
MXN 17.245898
MYR 3.932499
MZN 63.750319
NAD 16.009531
NGN 1391.85959
NIO 36.785781
NOK 9.627875
NPR 144.492309
NZD 1.656195
OMR 0.384498
PAB 0.999521
PEN 3.364907
PGK 4.282347
PHP 59.040236
PKR 279.545138
PLN 3.57644
PYG 6631.277242
QAR 3.634567
RON 4.313702
RSD 99.384049
RUB 76.999691
RWF 1458.783824
SAR 3.750106
SBD 8.058101
SCR 13.748799
SDG 601.49205
SEK 8.90851
SGD 1.270205
SHP 0.750259
SLE 24.475005
SLL 20969.499267
SOS 570.272883
SRD 38.114499
STD 20697.981008
STN 20.775741
SVC 8.746163
SYP 11059.574895
SZL 16.015332
THB 31.639928
TJS 9.340767
TMT 3.51
TND 2.890372
TOP 2.40776
TRY 43.496603
TTD 6.770319
TWD 31.588801
TZS 2584.040204
UAH 43.256279
UGX 3563.251531
UYU 38.49872
UZS 12236.487289
VES 371.640565
VND 26002
VUV 119.537583
WST 2.726316
XAF 556.244594
XAG 0.011767
XAU 0.000201
XCD 2.70255
XCG 1.801384
XDR 0.691072
XOF 556.244594
XPF 101.131218
YER 238.374992
ZAR 15.96902
ZMK 9001.202602
ZMW 19.615608
ZWL 321.999592
  • AEX

    -15.5500

    993.99

    -1.54%

  • BEL20

    40.4000

    5499.51

    +0.74%

  • PX1

    -1.6400

    8179.5

    -0.02%

  • ISEQ

    -5.3500

    13374.17

    -0.04%

  • OSEBX

    2.6400

    1759.71

    +0.15%

  • PSI20

    121.8900

    8828.16

    +1.4%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    42.3400

    4113.69

    +1.04%

  • N150

    11.8400

    3959.8

    +0.3%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

T.Dixon--TFWP