Një konflikt i rëndësishëm po krijohet mbi AI gjeneruese dhe të drejtën e autorit, me botuesit që kërkojnë kompensim për punën e tyre të përdorur në trajnimin e modeleve AI, një propozim që kompanitë e mëdha të teknologjisë hezitojnë ta pranojnë.
Për të shmangur këtë polemikë, Meta duket se po i mban të fshehta të dhënat e përdorura në modelin e tyre të ri të AI. Javën e kaluar, gjigandi i mediave sociale zbuloi një model të ri AI të njohur si Llama 2, duke ofruar detaje të pakta rreth të dhënave të përdorura në trajnimin e platformës, duke i përshkruar ato thjesht si “një përzierje e re e të dhënave të disponueshme publikisht në internet”.
Kjo qasje shënon një largim nga normat e industrisë së AI, të cilat në përgjithësi promovojnë transparencën rreth të dhënave të trajnimit për modelet e AI, duke mundësuar një kuptim më të mirë të këtyre teknologjive të fuqishme, dhe duke ofruar gjurmueshmëri në rast se nevojiten korrigjime.
Artikull i ngjashëm:
Autorët përballen me AI: OpenAI përballet me padi për shkelje të së drejtës së autorit
Dokumenti origjinal kërkimor që nxiti rritjen e inteligjencës artificiale gjeneruese është një shembull kryesor, ku studiuesit zbuluan informacion të thelluar mbi të dhënat e përdorura gjatë trajnimit, duke përfshirë rreth 40,000 fjali nga The Wall Street Journal.
Kur Meta publikoi modelin e parë LLaMA në shkurt, dokumenti kërkimor shoqërues përfshinte një tabelë të detajuar të të dhënave të trajnimit të përdorura, duke përfshirë një mori librash dhe grupin e të dhënave Common Crawl – një kopje kolosale e disa të dhënave të ruajtura në cloud të Amazon. Ky grup i fundit i të dhënave përbënte mbi dy të tretat e informacionit të përdorur për të trajnuar LLaMA.
Artikull i ngjashëm:
AI në bankën e të akuzuarve: Autorë të shquar padisin OpenAI dhe Meta për shkelje të së drejtës së autorit
Fshehtësia e papritur mund t’i atribuohet botuesve, autorëve dhe krijuesve të tjerë që pretendojnë se puna e tyre po përdoret pa leje për trajnimin e këtyre modeleve të AI, duke sjellë një numër të madh padish që sfidojnë të drejtat e kompanive të teknologjisë për të përdorur një informacion të tillë.
Kompanitë e mëdha të teknologjisë e njohin rrezikun. Microsoft, së fundmi, shtoi këtë faktor rreziku në dosjen e tyre tremujore të paraqitur pranë SEC: “Algoritmet e AI ose metodologjitë e trajnimit mund të kenë të meta, gjë që mund të rezultojë në përgjegjësi ligjore, duke përfshirë legjislacionin e ri të propozuar që rregullon AI, dhe aplikime të reja për mbrojtjen e të dhënave, privatësinë dhe ligjet e pronësisë intelektuale”.
Artikull i ngjashëm:
AI “del bllof”: Avokatët gjobiten për prezantimin e rasteve fiktive të krijuara nga ChatGPT
Ndërsa qëndrimi i Google është të shmangë pagesën për përmbajtjen në internet pasi mund të komprometojë modelin e tij fitimprurës të biznesit, Meta duket se ka miratuar një strategji heshtjeje për burimet e tyre të të dhënave derisa të zgjidhet kjo çështje e re ligjore.
Sipas Sharon Zhou, CEO e Lamini AI, Meta mund të ketë motive të shumta për këtë rezervë, duke filluar nga shmangia e pasojave ligjore, ruajtja e aftësisë për të përmirësuar Llama 2, ose thjesht duke punuar për të organizuar meta-të-dhënat.
Artikull i ngjashëm:
Google përballet me një padi për mbledhjen e të dhënave personale për trajnimin e AI
Meta, të pyetur për moszbulimin e të dhënave të trajnimit, siguroi se të gjitha modelet e kanë kaluar procesin e tyre të brendshëm të Rishikimit të Politikave të Privatësisë dhe se janë të përkushtuar ndaj zhvillimit të përgjegjshëm dhe etik të produkteve të tyre gjeneruese të AI, duke u mbështetur në politika që plotësojnë pritshmëritë në zhvillim të kompanisë.




