Rritja e industrisë së inteligjencës artificiale nxitet nga të dhënat, dhe shumë nga këto të dhëna vijnë nga interneti. Një analizë e fundit nga Washington Post tregon se industria e AI ka përdorur gjerësisht një grup të dhënash publike për të trajnuar platformat, të dhëna të cilat përbëhen nga përmbajtje 30-vjeçare të disponueshme në internet. Kjo do të thotë se nëse keni shkruar ndonjëherë një postim në blog, keni ndërtuar një faqe në internet ose keni marrë pjesë në një diskutim në Reddit, ka shumë të ngjarë që fjalët tuaja të kenë kontribuar në edukimin e chatbot-ve të AI.
Ky ripërdorim masiv i shprehive njerëzore është frymëzues për shumë njerëz, postimet e të cilëve ndërtuan botën e sotme online. Ndërsa po shkakton një debat të rëndësishëm ligjor nëse duhet të trajtohet si përdorim i drejtë apo vjedhje, pasoja e paqëllimshme e kësaj është krijimi i një baze të dhënash, jo të plotë, por të pasur, të shprehive njerëzore. Kjo bazë të dhënash bën të mundur që chatbot-et e AI dhe mjetet vizuale të AI si Dall-E, Midjourney dhe Stable Diffusion të mësojnë veçoritë e shprehive të njerëzve.
Ndërsa krijuesit vizualë si fotografët, ilustruesit dhe artistët e shkëlqyer ishin të parët që u përballën me këtë situatë, muzikantët aktualisht po përballen me të njëjtën lloj sfide, teksa hasin në shumëfishimin e veprave te krijuara nga AI. Por, numri i njerëzve që kane komentuar diku në internet është shumë më i madh se i atyre që kanë krijuar vepra artistike.
Projekti i Washington Post i lejon përdoruesëve të vendosin çdo emër domain-i në internet për të parë nëse, dhe sa, ka kontribuar në bazën e të dhënave të trajnimit të AI. Të dhënat e analizuara përmbanin më shumë se gjysmë milion blogje personale, që përfaqësonin 3.8 për qind të totalit të “token-eve”. Është e rëndësishme të theksohet se këto baza të dhënash të trajnimit janë të mëdha, por jo përfaqësuese. Disa kultura, grupe dhe subjekte janë mbikampionuar, ndërsa shumë të tjera janë lënë pas dore padrejtësisht. Të gjitha paragjykimet, kufizimet dhe aspektet toksike të kulturës së internetit shfaqen në të dhënat e trajnimit të AI.
Pasoja e paqëllimshme e popullaritetit të web-it është se janë krijuar grupime të mëdha të dhënash që tani përdoren si ushqim për trajnimin e AI. Nga kjo pikëpamje, ekzistenca e këtyre grupimeve të të dhënave ishte një pasojë e paqëllimshme, por thellësisht e rëndësishme e rritjes së vetë përdorimit të internetit.
Kjo na kujton se gjithçka që po bëjmë me AI do të ndryshojë të ardhmen në mënyra që nuk mund t’i parashikojmë. Duke u përpjekur të ndalojmë këtë përparim teknologjik, rrezikojmë të dekurajojmë njerëzit që të vazhdojnë të ndajnë, apo edhe të krijojnë vepra të tyre origjinale. Kjo mund t’i lërë modelet e ardhshme të AI të pa përditësuar, duke përdorur vetëm produktet viteve 2000-2020, pa asgjë të re për të mësuar.
Si përfundim, rritja e industrisë së AI varet shumë nga sasia e madhe e të dhënave të disponueshme në internet, duke përfshirë përmbajtjen që kemi krijuar gjatë viteve. Ndërsa kjo po krijon mundësi emocionuese për AI, po ngre gjithashtu pyetje të rëndësishme etike në lidhje me përdorimin e të dhënave personale dhe pasojat e padëshiruara të aktiviteteve tona në internet. Është thelbësore që ne të mendojmë me kujdes për ndikimin e veprimeve tona në të ardhmen e AI dhe botën digjitale në tërësi.




