The Fort Worth Press - IA aprende a mentir, manipular e ameaçar seus criadores

USD -
AED 3.672499
AFN 66.000172
ALL 81.915831
AMD 380.151858
ANG 1.79008
AOA 916.999991
ARS 1452.0001
AUD 1.436163
AWG 1.8
AZN 1.698478
BAM 1.655536
BBD 2.022821
BDT 122.831966
BGN 1.67937
BHD 0.377077
BIF 2987.661537
BMD 1
BND 1.276711
BOB 6.964795
BRL 5.261801
BSD 1.004342
BTN 91.842522
BWP 13.228461
BYN 2.875814
BYR 19600
BZD 2.019858
CAD 1.36782
CDF 2155.000038
CHF 0.778496
CLF 0.021907
CLP 865.000438
CNY 6.946499
CNH 6.93615
COP 3612
CRC 498.70812
CUC 1
CUP 26.5
CVE 93.33655
CZK 20.59045
DJF 178.843207
DKK 6.32741
DOP 63.484264
DZD 129.927036
EGP 47.084604
ERN 15
ETB 156.676691
EUR 0.84724
FJD 2.206603
FKP 0.729754
GBP 0.73136
GEL 2.69496
GGP 0.729754
GHS 11.012638
GIP 0.729754
GMD 73.498019
GNF 8819.592694
GTQ 7.706307
GYD 210.120453
HKD 7.81115
HNL 26.532255
HRK 6.384199
HTG 131.728867
HUF 322.649652
IDR 16776
ILS 3.10084
IMP 0.729754
INR 90.299501
IQD 1315.670299
IRR 42125.000158
ISK 123.019691
JEP 0.729754
JMD 157.811362
JOD 0.708991
JPY 155.542502
KES 129.550374
KGS 87.450291
KHR 4046.744687
KMF 417.999937
KPW 900
KRW 1450.770151
KWD 0.30715
KYD 0.836906
KZT 507.178168
LAK 21598.652412
LBP 89936.006501
LKR 311.010475
LRD 186.300651
LSL 16.079552
LTL 2.95274
LVL 0.60489
LYD 6.345176
MAD 9.158604
MDL 17.00314
MGA 4482.056104
MKD 52.227297
MMK 2099.986463
MNT 3564.625242
MOP 8.079484
MRU 39.911729
MUR 45.649967
MVR 15.449833
MWK 1742.758273
MXN 17.38225
MYR 3.945497
MZN 63.749689
NAD 16.079688
NGN 1400.540255
NIO 36.985739
NOK 9.697115
NPR 147.062561
NZD 1.663355
OMR 0.3845
PAB 1.004342
PEN 3.382683
PGK 4.306869
PHP 58.866499
PKR 281.341223
PLN 3.57701
PYG 6677.840135
QAR 3.671415
RON 4.317502
RSD 99.503989
RUB 76.449696
RWF 1469.427172
SAR 3.750059
SBD 8.058101
SCR 15.05913
SDG 601.5051
SEK 8.951115
SGD 1.270985
SHP 0.750259
SLE 24.475031
SLL 20969.499267
SOS 574.437084
SRD 38.025018
STD 20697.981008
STN 20.754973
SVC 8.788065
SYP 11059.574895
SZL 16.083999
THB 31.501499
TJS 9.380296
TMT 3.51
TND 2.897568
TOP 2.40776
TRY 43.479195
TTD 6.79979
TWD 31.572001
TZS 2588.080817
UAH 43.28509
UGX 3587.360437
UYU 38.963238
UZS 12278.117779
VES 369.79158
VND 25997.5
VUV 119.156711
WST 2.710781
XAF 555.683849
XAG 0.012162
XAU 0.000209
XCD 2.70255
XCG 1.81001
XDR 0.691072
XOF 555.251107
XPF 100.950591
YER 238.375016
ZAR 16.02862
ZMK 9001.200706
ZMW 19.709321
ZWL 321.999592
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: © AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

G.Dominguez--TFWP