IA aprende a mentir, manipular e ameaçar seus criadores

The Fort Worth Press - IA aprende a mentir, manipular e ameaçar seus criadores

Fort Worth 24°C

USD -

AED 3.672504

AFN 63.000368

ALL 82.776172

AMD 376.396497

ANG 1.790083

AOA 917.000367

ARS 1391.503978

AUD 1.422273

AWG 1.8025

AZN 1.70397

BAM 1.687271

BBD 2.010611

BDT 122.494932

BGN 1.709309

BHD 0.377087

BIF 2954.923867

BMD 1

BND 1.276711

BOB 6.898158

BRL 5.313404

BSD 0.998318

BTN 93.32787

BWP 13.612561

BYN 3.028771

BYR 19600

BZD 2.007764

CAD 1.37265

CDF 2275.000362

CHF 0.78844

CLF 0.023504

CLP 928.050396

CNY 6.886404

CNH 6.906095

COP 3669.412932

CRC 466.289954

CUC 1

CUP 26.5

CVE 95.125739

CZK 21.149204

DJF 177.768192

DKK 6.457504

DOP 59.25894

DZD 132.24804

EGP 51.758616

ERN 15

ETB 157.330889

EUR 0.862704

FJD 2.21445

FKP 0.75164

GBP 0.749681

GEL 2.71504

GGP 0.75164

GHS 10.882112

GIP 0.75164

GMD 73.503851

GNF 8750.377432

GTQ 7.646983

GYD 208.85994

HKD 7.83525

HNL 26.423673

HRK 6.511304

HTG 130.966657

HUF 339.680388

IDR 16956.2

ILS 3.109125

IMP 0.75164

INR 94.01055

IQD 1307.768624

IRR 1315625.000352

ISK 124.270386

JEP 0.75164

JMD 156.839063

JOD 0.70904

JPY 159.240385

KES 129.327524

KGS 87.447904

KHR 3989.129966

KMF 427.00035

KPW 899.870128

KRW 1505.310383

KWD 0.30657

KYD 0.831903

KZT 479.946513

LAK 21437.260061

LBP 89404.995039

LKR 311.417849

LRD 182.685589

LSL 16.84053

LTL 2.95274

LVL 0.60489

LYD 6.39089

MAD 9.328473

MDL 17.385153

MGA 4162.53289

MKD 53.176897

MMK 2099.940821

MNT 3585.542519

MOP 8.05806

MRU 39.961178

MUR 46.510378

MVR 15.460378

MWK 1731.096062

MXN 17.898204

MYR 3.939039

MZN 63.903729

NAD 16.84053

NGN 1356.250377

NIO 36.733814

NOK 9.569995

NPR 149.324936

NZD 1.712622

OMR 0.384504

PAB 0.998318

PEN 3.451408

PGK 4.309192

PHP 60.150375

PKR 278.721304

PLN 3.69475

PYG 6520.295044

QAR 3.65052

RON 4.401504

RSD 101.324246

RUB 82.822413

RWF 1452.529871

SAR 3.754657

SBD 8.05166

SCR 13.69771

SDG 601.000339

SEK 9.344038

SGD 1.282504

SHP 0.750259

SLE 24.575038

SLL 20969.510825

SOS 570.504249

SRD 37.487504

STD 20697.981008

STN 21.136177

SVC 8.734849

SYP 110.536894

SZL 16.845965

THB 32.908038

TJS 9.588492

TMT 3.51

TND 2.948367

TOP 2.40776

TRY 44.252504

TTD 6.773066

TWD 32.036704

TZS 2595.522581

UAH 43.73308

UGX 3773.454687

UYU 40.227753

UZS 12170.987361

VES 454.69063

VND 26312

VUV 119.352434

WST 2.727514

XAF 565.894837

XAG 0.014693

XAU 0.000222

XCD 2.70255

XCG 1.799163

XDR 0.703792

XOF 565.894837

XPF 102.885735

YER 238.603589

ZAR 17.12748

ZMK 9001.203584

ZMW 19.491869

ZWL 321.999592

IA aprende a mentir, manipular e ameaçar seus criadores

TECNOLOGIA 29.06.2025

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

G.Dominguez--TFWP

The Fort Worth Press - IA aprende a mentir, manipular e ameaçar seus criadores

IA aprende a mentir, manipular e ameaçar seus criadores

Apresentou

Val Kilmer vai reaparecer em filme graças à IA

Nova partícula é descoberta pelo Grande Colisor de Hádrons

Nvidia retoma produção de chips para clientes da China

São Paulo tem seu 'Big Brother' com IA que prende criminosos (e alguns inocentes)