The Fort Worth Press - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

USD -
AED 3.673042
AFN 65.503991
ALL 82.870557
AMD 381.503986
ANG 1.790055
AOA 917.000367
ARS 1434.006204
AUD 1.505729
AWG 1.8
AZN 1.70397
BAM 1.678705
BBD 2.013364
BDT 122.282772
BGN 1.680385
BHD 0.37694
BIF 2967
BMD 1
BND 1.294944
BOB 6.907739
BRL 5.418041
BSD 0.999601
BTN 89.876145
BWP 13.280747
BYN 2.873917
BYR 19600
BZD 2.010437
CAD 1.383405
CDF 2232.000362
CHF 0.804604
CLF 0.023471
CLP 920.770396
CNY 7.070104
CNH 7.06959
COP 3817.5
CRC 488.298936
CUC 1
CUP 26.5
CVE 95.103894
CZK 20.77405
DJF 177.720393
DKK 6.412285
DOP 64.250393
DZD 129.962727
EGP 47.569904
ERN 15
ETB 155.051714
EUR 0.858404
FJD 2.25845
FKP 0.748861
GBP 0.74968
GEL 2.703861
GGP 0.748861
GHS 11.45039
GIP 0.748861
GMD 73.000355
GNF 8687.503848
GTQ 7.657084
GYD 209.137648
HKD 7.78484
HNL 26.328145
HRK 6.471904
HTG 130.859652
HUF 328.06704
IDR 16691.4
ILS 3.23571
IMP 0.748861
INR 89.97675
IQD 1309.540669
IRR 42112.503816
ISK 127.920386
JEP 0.748861
JMD 159.999657
JOD 0.70904
JPY 155.243504
KES 129.303801
KGS 87.450384
KHR 4005.00035
KMF 422.00035
KPW 899.993191
KRW 1472.865039
KWD 0.30668
KYD 0.833083
KZT 505.531856
LAK 21676.809119
LBP 89516.767233
LKR 308.334728
LRD 175.938682
LSL 16.941802
LTL 2.95274
LVL 0.60489
LYD 5.434032
MAD 9.231238
MDL 17.00842
MGA 4458.959547
MKD 52.906919
MMK 2099.939583
MNT 3546.502114
MOP 8.016033
MRU 39.863012
MUR 46.070378
MVR 15.410378
MWK 1733.372244
MXN 18.178775
MYR 4.111039
MZN 63.903729
NAD 16.941802
NGN 1450.110377
NIO 36.787647
NOK 10.102304
NPR 143.802277
NZD 1.730805
OMR 0.384505
PAB 0.999682
PEN 3.360156
PGK 4.24115
PHP 58.978038
PKR 280.247111
PLN 3.633604
PYG 6875.152888
QAR 3.643659
RON 4.372204
RSD 100.804038
RUB 76.499736
RWF 1454.419048
SAR 3.753201
SBD 8.223823
SCR 13.497312
SDG 601.503676
SEK 9.403825
SGD 1.295485
SHP 0.750259
SLE 23.000338
SLL 20969.498139
SOS 570.266164
SRD 38.629038
STD 20697.981008
STN 21.02887
SVC 8.745763
SYP 11058.244165
SZL 16.928669
THB 31.871038
TJS 9.171638
TMT 3.5
TND 2.932369
TOP 2.40776
TRY 42.504604
TTD 6.776446
TWD 31.274038
TZS 2435.000335
UAH 41.959408
UGX 3536.283383
UYU 39.096531
UZS 11958.989413
VES 248.585904
VND 26360
VUV 122.070109
WST 2.790151
XAF 563.019389
XAG 0.017039
XAU 0.000237
XCD 2.70255
XCG 1.801608
XDR 0.70002
XOF 562.932418
XPF 102.347136
YER 238.403589
ZAR 16.92915
ZMK 9001.203584
ZMW 23.111058
ZWL 321.999592
  • AEX

    -0.2800

    947.5

    -0.03%

  • BEL20

    16.5400

    5029.74

    +0.33%

  • PX1

    -7.3100

    8114.74

    -0.09%

  • ISEQ

    -5.1000

    12741.69

    -0.04%

  • OSEBX

    7.1500

    1632.45

    +0.44%

  • PSI20

    -40.3700

    8198.25

    -0.49%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -87.0000

    4263

    -2%

  • N150

    13.5900

    3685.24

    +0.37%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: © AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

T.Dixon--TFWP