OpenAI publikoi në heshtje GPTBot, një “scrapper” i ri web i krijuar për të skanuar dhe mbledhur përmbajtjen e faqeve në internet, për të trajnuar modelet AI (LLM). Megjithatë, debutimi i heshtur i robotit ka ngjallur diskutime mes krijuesve dhe pronarëve të web-it, të cilët ndanë me shpejtësi metodat për të bllokuar aksesin e robotit në përmbajtjen e tyre.
OpenAI, duke iu përgjigjur shqetësimeve, shtoi një mekanizëm në faqen e mbështetjes GPTBot që lejon faqet e internetit të parandalojnë që roboti të mbledhë të dhënat e tyre. Kjo mund të arrihet duke modifikuar skedarin robots.txt. Megjithatë, duke pasur parasysh sasinë e madhe të grumbullimit të të dhënave në internet që ndodh çdo ditë, mbetet e pasigurt nëse thjesht bllokimi i GPTBot do të parandalojë plotësisht përdorimin e përmbajtjes në trajnimin LLM.
Një zëdhënës i OpenAI komentoi: “Ne mbledhim periodikisht të dhëna publike për të përmirësuar modelet tona. Ne kemi dhënë udhëzime se si të parandalojmë që roboti ynë të hyjë në një faqe interneti. Përmbajtja me informacion personal të identifikueshëm (PII) është e përjashtuar.”
Artikull i ngjashëm:
“Shfletimi me Bing” i ChatGPT në pauzë: Defektet e papritura çojnë në pezullim të përkohshëm
Faqet e mëdha digjitale, si The Verge, kanë aktivizuar tashmë bllokun robots.txt kundër modelit të OpenAI. Figura të shquara, duke përfshirë Casey Newton, nga buletini i Platformer, dhe Neil Clarke, redaktor i revistës fantastiko-shkencore Clarkesworld, kanë shprehur gjithashtu synimet për të bllokuar GPTBot.
OpenAI, së fundmi, zbuloi një bashkëpunim prej 395,000 dollarësh me Institutin e Gazetarisë Arthur L. Carter, të Universitetit të New York-ut. Kjo nismë, e drejtuar nga ish-kryeredaktori i Reuters, Stephen Adler, do të edukojë studentët mbi përdorimin etik të AI në gazetari. Tom Rubin, Përgjegjësi i Pronësisë Intelektuale dhe Përmbajtjes në OpenAI, miratoi iniciativën, por çështja e diskutueshme e mbledhjes së të dhënave publike nga interneti nuk u trajtua.
Artikull i ngjashëm:
AI në bankën e të akuzuarve: Autorë të shquar padisin OpenAI dhe Meta për shkelje të së drejtës së autorit
Pavarësisht polemikave, efektiviteti i thjesht bllokimit të GPTBot mbetet i diskutueshëm. Platformat e inteligjencës artificiale, si Bard i Google ose LLaMA i Metës, kanë marrë sasi të mëdha të përmbajtjes publike në web për grupet e të dhënave të tyre të trajnimit, veçanërisht nga grupet e të dhënave si Colossal Clean Crawled Corpus (C4) i Google dhe Common Crawl. Nëse përmbajtja e një faqe interneti është indeksuar në këto përpjekje, ajo është e përfshirë përgjithmonë në të dhënat e trajnimit.
Ligjet që përcaktojnë grumbullimin e informacionit nga interneti janë ende të debatueshme. Qarku i Nëntë i Apelit i SHBA-ve kohët e fundit pohoi se grumbullimi i të dhënave publike në web është i ligjshëm sipas Aktit të Mashtrimit dhe Abuzimit Kompjuterik (CFAA). Por, OpenAI është kritikuar kohët e fundit, duke u përballur me padi për kopjimin e përmbajtjes me të drejtë autori pa leje, dhe shkelje të mundshme të privatësisë me modelet e tyre të AI.
Artikull i ngjashëm:
Autorët përballen me AI: OpenAI përballet me padi për shkelje të së drejtës së autorit
Figura publike si Sarah Silverman, dhe autorët Christopher Golden dhe Richard Kadrey, gjithashtu parashtruan ankesa duke pretenduar përdorimin e paautorizuar të punës së tyre të botuar për trajnimin e AI. Së fundmi, platformat si X (dikur Twitter) dhe Reddit i kanë shtrënguar politikat e tyre për t’u mbrojtur nga grumbullimi i paautorizuar i të dhënave.




