The Fort Worth Press - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.672498
AFN 64.496875
ALL 81.380528
AMD 369.184597
ANG 1.789884
AOA 917.999724
ARS 1395.381205
AUD 1.3837
AWG 1.8
AZN 1.697085
BAM 1.667512
BBD 2.020641
BDT 123.098172
BGN 1.668102
BHD 0.378875
BIF 2985.894118
BMD 1
BND 1.270084
BOB 6.932419
BRL 4.930102
BSD 1.003253
BTN 94.565375
BWP 13.432689
BYN 2.835207
BYR 19600
BZD 2.017742
CAD 1.365255
CDF 2315.999881
CHF 0.779175
CLF 0.022638
CLP 890.970154
CNY 6.80505
CNH 6.800575
COP 3738.9
CRC 460.209132
CUC 1
CUP 26.5
CVE 94.012576
CZK 20.69725
DJF 178.651968
DKK 6.36203
DOP 59.661791
DZD 132.335032
EGP 52.717504
ERN 15
ETB 156.643406
EUR 0.85136
FJD 2.18685
FKP 0.734821
GBP 0.736365
GEL 2.680059
GGP 0.734821
GHS 11.286699
GIP 0.734821
GMD 72.999748
GNF 8804.55958
GTQ 7.660794
GYD 209.901226
HKD 7.827605
HNL 26.670759
HRK 6.419303
HTG 131.399121
HUF 303.012017
IDR 17365.95
ILS 2.91051
IMP 0.734821
INR 94.41075
IQD 1314.280599
IRR 1312900.000132
ISK 122.430342
JEP 0.734821
JMD 158.020607
JOD 0.709014
JPY 156.800501
KES 129.150246
KGS 87.420497
KHR 4024.093407
KMF 418.999754
KPW 899.950939
KRW 1467.765006
KWD 0.307795
KYD 0.836058
KZT 464.61503
LAK 22016.463537
LBP 89533.723815
LKR 323.055346
LRD 184.10709
LSL 16.368643
LTL 2.95274
LVL 0.604889
LYD 6.345837
MAD 9.195197
MDL 17.26071
MGA 4165.565455
MKD 52.51478
MMK 2099.606786
MNT 3578.902576
MOP 8.092183
MRU 40.138456
MUR 46.820229
MVR 15.455001
MWK 1739.54559
MXN 17.262901
MYR 3.919502
MZN 63.905048
NAD 16.368783
NGN 1361.979903
NIO 36.917043
NOK 9.29545
NPR 151.292686
NZD 1.679839
OMR 0.384501
PAB 1.003253
PEN 3.475021
PGK 4.365952
PHP 60.544997
PKR 279.534225
PLN 3.600795
PYG 6140.362095
QAR 3.656974
RON 4.479694
RSD 99.945022
RUB 74.639547
RWF 1470.817685
SAR 3.780174
SBD 8.032258
SCR 14.098598
SDG 600.501353
SEK 9.25905
SGD 1.268503
SHP 0.746601
SLE 24.547226
SLL 20969.496166
SOS 573.372496
SRD 37.431033
STD 20697.981008
STN 20.887684
SVC 8.778354
SYP 110.543945
SZL 16.363923
THB 32.219503
TJS 9.375794
TMT 3.51
TND 2.910164
TOP 2.40776
TRY 45.363901
TTD 6.786684
TWD 31.373302
TZS 2608.394049
UAH 43.928641
UGX 3752.28603
UYU 40.11647
UZS 12157.202113
VES 496.20906
VND 26311
VUV 118.026144
WST 2.704092
XAF 559.236967
XAG 0.012394
XAU 0.000212
XCD 2.70255
XCG 1.808106
XDR 0.695511
XOF 559.267959
XPF 101.680898
YER 238.579251
ZAR 16.412899
ZMK 9001.200987
ZMW 19.111685
ZWL 321.999592
  • AEX

    -6.6300

    1012.76

    -0.65%

  • BEL20

    -33.9100

    5435.84

    -0.62%

  • PX1

    -65.6200

    8136.57

    -0.8%

  • ISEQ

    -186.3900

    12757.05

    -1.44%

  • OSEBX

    -4.3500

    1974.87

    -0.22%

  • PSI20

    -83.1200

    9051.33

    -0.91%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -88.2800

    3998.61

    -2.16%

  • N150

    -16.8000

    4182.38

    -0.4%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

T.Dixon--TFWP