IA po mëson të gënjejë, të komplotojë dhe të kërcënojë krijuesit e saj

Modelet më të përparuara të IA-së në botë po shfaqin sjellje të reja shqetësuese – duke gënjyer, duke komplotuar dhe madje duke kërcënuar krijuesit e tyre për të arritur qëllimet e tyre.

Në një shembull veçanërisht të frikshëm, nën kërcënimin e shkëputjes nga rrjeti, krijimi i fundit i Anthropic, Claude 4, u kundërpërgjigj duke shantazhuar një inxhinier dhe kërcënoi të zbulonte një lidhje jashtëmartesore.

Ndërkohë, krijuesi i ChatGPT, OpenAI, o1, u përpoq të shkarkohej në servera të jashtëm dhe e mohoi kur u kap në flagrancë.

Këto episode nxjerrin në pah një realitet të kthjellët: më shumë se dy vjet pasi ChatGPT tronditi botën, studiuesit e IA-së ende nuk e kuptojnë plotësisht se si funksionojnë krijimet e tyre.

Megjithatë, gara për të vendosur modele gjithnjë e më të fuqishme vazhdon me një shpejtësi marramendëse.

Kjo sjellje mashtruese duket se lidhet me shfaqjen e modeleve “arsyetuese” – sisteme IA që punojnë me problemet hap pas hapi në vend që të gjenerojnë përgjigje të menjëhershme.

Sipas Simon Goldstein, një profesor në Universitetin e Hong Kongut, këto modele më të reja janë veçanërisht të prirura ndaj shpërthimeve të tilla shqetësuese.

“O1 ishte modeli i parë i madh ku pamë këtë lloj sjelljeje,” shpjegoi Marius Hobbhahn, kreu i Apollo Research, i cili specializohet në testimin e sistemeve kryesore të IA-së.

Lexo edhe: “Kumbari i AI-së” thotë se AI mund të “dalë nga kontrolli” duke rishkruar kodin e vet

Këto modele ndonjëherë simulojnë “rreshtimin” – duke u dukur sikur ndjekin udhëzime ndërsa ndjekin fshehurazi objektiva të ndryshme.

Për momentin, kjo sjellje mashtruese shfaqet vetëm kur studiuesit qëllimisht i testojnë modelet me skenarë ekstremë.

Por, siç paralajmëroi Michael Chen nga organizata e vlerësimit METR, “Është një çështje e hapur nëse modelet e ardhshme, më të afta, do të kenë një tendencë drejt ndershmërisë apo mashtrimit.”

Sjellja shqetësuese shkon shumë përtej “halucinacioneve” tipike të IA-së ose gabimeve të thjeshta.

Hobbahn këmbënguli se pavarësisht testimit të vazhdueshëm të presionit nga përdoruesit, “ajo që po vëzhgojmë është një fenomen i vërtetë. Ne nuk po shpikim asgjë.”

Përdoruesit raportojnë se modelet po “i gënjejnë ata dhe po shpikin prova”, sipas bashkëthemeluesit të Apollo Research.

“Këto nuk janë vetëm halucinacione. Ekziston një lloj mashtrimi shumë strategjik.”

Sfida përkeqësohet nga burimet e kufizuara të kërkimit.

Ndërsa kompani si Anthropic dhe OpenAI angazhojnë firma të jashtme si Apollo për të studiuar sistemet e tyre, studiuesit thonë se nevojitet më shumë transparencë.

Siç vuri në dukje Chen, aksesi më i madh “për kërkimin e sigurisë së IA-së do të mundësonte një kuptim më të mirë dhe zbutje të mashtrimit”.

Bashkohuni në Newsletter

What's Hot

IA po mëson të gënjejë, të komplotojë dhe të kërcënojë krijuesit e saj

Lexo edhe: “Kumbari i AI-së” thotë se AI mund të “dalë nga kontrolli” duke rishkruar kodin e vet

Related Posts

1 Comment

Leave A Reply Cancel Reply