The Fort Worth Press - IA aprende a mentir, manipular e ameaçar seus criadores

USD -
AED 3.6725
AFN 63.49826
ALL 81.649957
AMD 368.209891
ANG 1.790403
AOA 917.503082
ARS 1436.737304
AUD 1.424106
AWG 1.8
AZN 1.699145
BAM 1.685177
BBD 2.015096
BDT 122.817901
BGN 1.69088
BHD 0.377104
BIF 2991
BMD 1
BND 1.281762
BOB 6.938712
BRL 5.090801
BSD 1.000526
BTN 94.560525
BWP 13.406112
BYN 2.76997
BYR 19600
BZD 2.012252
CAD 1.41365
CDF 2320.000121
CHF 0.804605
CLF 0.022506
CLP 885.759871
CNY 6.75745
CNH 6.77627
COP 3435
CRC 455.716489
CUC 1
CUP 26.5
CVE 95.350078
CZK 20.80205
DJF 177.719866
DKK 6.43614
DOP 58.599944
DZD 132.878973
EGP 49.908197
ERN 15
ETB 158.375021
EUR 0.871992
FJD 2.2337
FKP 0.746465
GBP 0.756398
GEL 2.644999
GGP 0.746465
GHS 11.2977
GIP 0.746465
GMD 72.999684
GNF 8777.499016
GTQ 7.626359
GYD 209.290102
HKD 7.83781
HNL 26.697197
HRK 6.5692
HTG 130.666299
HUF 300.649642
IDR 17748.6
ILS 2.944389
IMP 0.746465
INR 94.309498
IQD 1310
IRR 1374999.999942
ISK 124.330031
JEP 0.746465
JMD 158.238482
JOD 0.709019
JPY 160.262999
KES 129.520178
KGS 87.449762
KHR 4012.493065
KMF 424.999812
KPW 900.00035
KRW 1511.864997
KWD 0.308098
KYD 0.8338
KZT 487.920041
LAK 22029.999804
LBP 89550.000054
LKR 335.185855
LRD 182.14983
LSL 16.194858
LTL 2.95274
LVL 0.60489
LYD 6.37502
MAD 9.245017
MDL 17.459223
MGA 4199.999949
MKD 53.086638
MMK 2099.945791
MNT 3579.382153
MOP 8.072446
MRU 40.080045
MUR 47.130241
MVR 15.460244
MWK 1736.000257
MXN 17.35845
MYR 4.064804
MZN 63.902105
NAD 16.201917
NGN 1359.119651
NIO 36.6101
NOK 9.73115
NPR 151.295881
NZD 1.736593
OMR 0.384498
PAB 1.000526
PEN 3.41251
PGK 4.38775
PHP 60.373009
PKR 278.298187
PLN 3.64767
PYG 6105.515298
QAR 3.640502
RON 4.507036
RSD 101.071054
RUB 72.971546
RWF 1488
SAR 3.751894
SBD 8.061424
SCR 14.115123
SDG 600.499323
SEK 9.57825
SGD 1.28203
SHP 0.746601
SLE 24.750291
SLL 20969.503664
SOS 571.507527
SRD 37.332026
STD 20697.981008
STN 21.4
SVC 8.754244
SYP 110.532098
SZL 16.19688
THB 32.534501
TJS 9.274765
TMT 3.51
TND 2.91175
TOP 2.40776
TRY 46.44317
TTD 6.796543
TWD 31.558502
TZS 2625.00297
UAH 44.808889
UGX 3701.565583
UYU 40.393596
UZS 12004.999858
VES 596.036397
VND 26326
VUV 118.988901
WST 2.739751
XAF 565.192704
XAG 0.015186
XAU 0.000237
XCD 2.70255
XCG 1.803205
XDR 0.703697
XOF 565.000179
XPF 103.250281
YER 238.625025
ZAR 16.43133
ZMK 9001.199267
ZMW 17.684109
ZWL 321.999592
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: © AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

G.Dominguez--TFWP