The Fort Worth Press - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.672504
AFN 63.000368
ALL 82.776172
AMD 376.396497
ANG 1.790083
AOA 917.000367
ARS 1391.503978
AUD 1.422273
AWG 1.8025
AZN 1.70397
BAM 1.687271
BBD 2.010611
BDT 122.494932
BGN 1.709309
BHD 0.377087
BIF 2954.923867
BMD 1
BND 1.276711
BOB 6.898158
BRL 5.313404
BSD 0.998318
BTN 93.32787
BWP 13.612561
BYN 3.028771
BYR 19600
BZD 2.007764
CAD 1.37265
CDF 2275.000362
CHF 0.78844
CLF 0.023504
CLP 928.050396
CNY 6.886404
CNH 6.906095
COP 3669.412932
CRC 466.289954
CUC 1
CUP 26.5
CVE 95.125739
CZK 21.149204
DJF 177.768192
DKK 6.457504
DOP 59.25894
DZD 132.24804
EGP 51.758616
ERN 15
ETB 157.330889
EUR 0.862704
FJD 2.21445
FKP 0.75164
GBP 0.749681
GEL 2.71504
GGP 0.75164
GHS 10.882112
GIP 0.75164
GMD 73.503851
GNF 8750.377432
GTQ 7.646983
GYD 208.85994
HKD 7.83525
HNL 26.423673
HRK 6.511304
HTG 130.966657
HUF 339.680388
IDR 16956.2
ILS 3.109125
IMP 0.75164
INR 94.01055
IQD 1307.768624
IRR 1315625.000352
ISK 124.270386
JEP 0.75164
JMD 156.839063
JOD 0.70904
JPY 159.240385
KES 129.327524
KGS 87.447904
KHR 3989.129966
KMF 427.00035
KPW 899.870128
KRW 1505.310383
KWD 0.30657
KYD 0.831903
KZT 479.946513
LAK 21437.260061
LBP 89404.995039
LKR 311.417849
LRD 182.685589
LSL 16.84053
LTL 2.95274
LVL 0.60489
LYD 6.39089
MAD 9.328473
MDL 17.385153
MGA 4162.53289
MKD 53.176897
MMK 2099.940821
MNT 3585.542519
MOP 8.05806
MRU 39.961178
MUR 46.510378
MVR 15.460378
MWK 1731.096062
MXN 17.898204
MYR 3.939039
MZN 63.903729
NAD 16.84053
NGN 1356.250377
NIO 36.733814
NOK 9.569995
NPR 149.324936
NZD 1.712622
OMR 0.384504
PAB 0.998318
PEN 3.451408
PGK 4.309192
PHP 60.150375
PKR 278.721304
PLN 3.69475
PYG 6520.295044
QAR 3.65052
RON 4.401504
RSD 101.324246
RUB 82.822413
RWF 1452.529871
SAR 3.754657
SBD 8.05166
SCR 13.69771
SDG 601.000339
SEK 9.344038
SGD 1.282504
SHP 0.750259
SLE 24.575038
SLL 20969.510825
SOS 570.504249
SRD 37.487504
STD 20697.981008
STN 21.136177
SVC 8.734849
SYP 110.536894
SZL 16.845965
THB 32.908038
TJS 9.588492
TMT 3.51
TND 2.948367
TOP 2.40776
TRY 44.252504
TTD 6.773066
TWD 32.036704
TZS 2595.522581
UAH 43.73308
UGX 3773.454687
UYU 40.227753
UZS 12170.987361
VES 454.69063
VND 26312
VUV 119.352434
WST 2.727514
XAF 565.894837
XAG 0.014693
XAU 0.000222
XCD 2.70255
XCG 1.799163
XDR 0.703792
XOF 565.894837
XPF 102.885735
YER 238.603589
ZAR 17.12748
ZMK 9001.203584
ZMW 19.491869
ZWL 321.999592
  • AEX

    -16.0300

    961.62

    -1.64%

  • BEL20

    -88.0900

    4916.79

    -1.76%

  • PX1

    -142.1000

    7665.62

    -1.82%

  • ISEQ

    -203.0200

    11881.24

    -1.68%

  • OSEBX

    -31.9800

    1966.5

    -1.6%

  • PSI20

    -190.5700

    8756.26

    -2.13%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -27.8400

    3634.93

    -0.76%

  • N150

    -58.3500

    3755.58

    -1.53%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

T.Dixon--TFWP