Blog

Evolucija umjetne inteligencije: od Turinga do velikih jezičnih modela

Written by Gorazd Zakrajšek | 4/10/2023

Umjetna inteligencija (skraćeno AI - artificial intelligence) od znanstvene fantastike postala je neizostavan dio naše svakodnevice. Možemo ju pronaći gotovo posvuda oko nas, primjerice koristi se u virtualnim asistentima kao što su Siri i Alexa, samovozećim automobilima i u naprednoj medicinskoj dijagnostici. U ovom članku predstavit ćemo vam kratak pregled povijesti AI-ja, od ranih mehaničkih izuma do suvremenog dubokog učenja (deep learning) i velikih jezičnih modela (large language models-LLM). Razumijevanjem tijeka razvoja i poznavanjem ključnih događaja i prekretnica koje su oblikovale evoluciju AI-ja lakše ćemo procijeniti njezin ogroman potencijal za razvoj u budućnosti i utjecaj na sve dijelove društva.

Prvi ključni događaju u razvoju AI-ja

ELIZA (1964.): Pionirska obrada prirodnog jezika (Natural Language Processing)

Godine 1964. razvio ju je Joseph Weizenbaum. Predstavlja jedan od prvih i ujedno najutjecajnijih primjera obrade prirodnog jezika (NLP) u umjetnoj inteligenciji. Revolucionarni program dizajniran je za simulaciju ljudskog razgovora kroz tekstualne interakcije, pri čemu je tehnikom traženja obrazaca analizirao ulazne korisničke podatke i odgovarao na njih putem unaprijed određenih scenarija, što je stvaralo iluziju sudjelovanja u smislenom razgovoru, razumijevanja i suosjećanja.

SHRDLU (1970.): Napredak u razumijevanju prirodnog jezika i modeliranju svijeta

Terry Winograd je idejni otac sustava koji predstavlja značajan iskorak u područjima razumijevanja prirodnog jezika i modeliranja svijeta. SHRDLU je komunicirao putem tekstualnih naredbi, što je korisnicima omogućilo manipulaciju u jednostavnom virtualnom okruženju sastavljenom od različitih geometrijskih oblika. Važna je i njegova sposobnost inteligentnog tumačenja i obrade ulaznih podataka pomoću razumijevanja sintakse, semantike i konteksta

MYCIN (1972.): Pionirski ekspertni sustav za medicinsku dijagnozu

MYCIN su 1972. godine razvili Edward Shortliff i Bruce Buchanan na Sveučilištu Stanford. Rani profesionalni sustav osmišljen je kako bi revolucionirao medicinsku dijagnostiku, posebno u području zaraznih bolesti. Za dijagnozu bakterijskih infekcija i preporuke odgovarajućeg liječenja antibioticima, uzimajući u obzir faktore kao što su alergije na lijekove i otpornost, koristio je sustav temeljen na opsežnoj zbirci implikacija odnosno pravila "ako vrijedi A, onda vrijedi B".

Počeci umjetne inteligencije

Temelje suvremene umjetne inteligencije svojim je pionirskim idejama početkom 20. stoljeća postavio genijalni britanski matematičar i informatičar Alan Turing. Ključna prekretnica bio je Turingov test iz 1950. godine, poznat i kao igra imitacije, koji je mjerio sposobnost stroja da pokaže inteligenciju sličnu ljudskoj. U ovom testu, ljudski ispitivač razgovara s čovjekom i računalom u isto vrijeme, pri tome ne zna tko odgovara na njegova pitanja, računalo ili čovjek. Ako ispitivač ne može pouzdano razlikovati reakcije računala od ljudskih reakcija, smatra se da je računalo prošlo test i pokazalo razinu inteligencije poput ljudske.

Izraz umjetna inteligencija prvi je put primijenjen 1956. godine na konferenciji u Dartmouthu, SAD, gdje su iznijeli hrabru tvrdnju "da se, u načelu, svaki aspekt učenja ili bilo koji drugi element inteligencije može opisati tako precizno da je moguće izgraditi stroj koji ga može simulirati." Sudionici konferencije nastojali su razumjeti kako se strojevi mogu programirati za obavljanje zadataka koji obično zahtijevaju ljudsku inteligenciju, kao što je rješavanje problema, razumijevanje prirodnog jezika i učenje.

Zima umjetne inteligencije i njezino ponovno oživljavanje

U 70-im i 80-im godinama 20. stoljeća došlo je do razdoblja tzv. „zime umjetne inteligencije“, kada je ovo područje bilo pogođeno smanjenjem financiranja i usporavanjem napretka istraživanja. Poteškoće u rješavanju stvarnih, kompleksnih scenarija dovele su do razočaranja i skepticizma prema potencijalu umjetne inteligencije, a nedostatak računalne snage i ograničeni pristup velikim skupovima podataka spriječili su razvoj naprednijih modela umjetne inteligencije.

Trend se preokrenuo 90-ih godina. Napredak u strojnom učenju i povećanje računalne sposobnosti doveli su do obnove istraživanja u području umjetne inteligencije, a s razvojem algoritama kao što je potaknuto učenje (reinforcement) za usavršavanje neuronskih mreža i uvođenjem strojeva za vektorske podrške, vratili su se i interes i optimizam. Sustavi umjetne inteligencije počeli su prepoznavati obrasce za donošenje odluka, oslanjajući se ne više na unaprijed definirana pravila, već na podatke.

Doba dubokog učenja

Duboko učenje (deep learning) uključuje korištenje više slojeva neuronskih mreža inspiriranih strukturom i funkcijom ljudskog mozga. Osmišljeno je za prepoznavanje uzoraka i učenje iz podataka (prepoznavanje govora i slika, razumijevanje i stvaranje teksta, glazbe i sl.), a neuroni u neuronskim mrežama obrađuju informacije kroz slojeve i prilagođavaju svoje interno povezivanje na temelju ulaznih podataka.

Ponovni razvoj donio je mnoge nove prekretnice u različitim područjima umjetne inteligencije:

  • 2010. godine na natjecanju ImageNet predstavljanjem, odnosno uvođenjem konvolucijskih neuronskih mreža (convolutional neural networks- CNN) ostvaren je značajan skok u području računalnog vida i nadmašene su druge tehnike prepoznavanja slika. CNN-ovi za prepoznavanje slika koriste aplikacije za prepoznavanje lica, autonomna vozila i tehnologije za medicinska snimanja.
  • 2016. godine svjetski prvak u igri „go“ Lee Sedol uhvatio se u koštac s DeepMindovom dubokom neuronskom mrežom AlphaGo i – izgubio! Program AlphaGo koristio je kombinaciju potaknutog učenja (reinforcement learning); najprije je proučio sve zapise o prošlim igrama go-a, zatim je igrao sam protiv sebe i usavršavao se. Inače, već 1997. godine DeepBlue je u šahu pobijedio velemajstora Kasparova.

Veliki jezični modeli

Obrada prirodnog jezika (NLP) je područje umjetne inteligencije koje se fokusira na to da strojevima omogući razumijevanje, tumačenje i stvaranje ljudskog jezika. Jezični modeli koriste prednosti NLP-a jer nastoje predvidjeti vjerojatnost nizova riječi, obuhvaćajući strukturu i nijanse prirodnog jezika. Ovi modeli čine osnovu za različite NLP aplikacije, kao što su strojno prevođenje, sažimanje teksta i analiza osjećaja.

Kako funkcioniraju LLM-ovi

Veliki jezični modeli (LLM-ovi) ogromne su neuronske mreže koje uče iz velikih količina tekstualnih podataka kako bi razumjele i stvorile jezik sličan ljudskom. Koriste se snažnom arhitekturom transformatora, koja koristi mehanizme samosvijesti za učenje kontekstualnih odnosa između riječi u zadanim ulaznim sekvencama. Svojim radom, obukom na različitim i opsežnim tekstualnim korpusima mogu generirati koherentne, sadržajno relevantne i gramatički ispravne tekstualne izvore. Jedan od najnaprednijih i najpoznatijih jezičnih modela je GPT-4, koji je s gotovo nevjerojatnih više od trilijun parametara pokazao iznimne sposobnosti kreiranja tekstova, dovršavanja rečenica, odgovaranja na pitanja, generiranja slika, generiranja programskog koda i pisanja članaka.

Potencijalne primjene i etičke dileme povezane s velikim jezičnim modelom

Uz izuzetan potencijal za širok spektar primjena, uključujući razvoj chatova, generiranje sadržaja, dovršavanje koda i pomoć pri kreativnom pisanju, korištenje velikih jezičnih modela također otvara i etičke probleme. Mogućnost stvaranja obmanjujućeg ili štetnog sadržaja, pristranost u podacima za obuku modela i utjecaj na okolinu tako opsežnih modela razlozi su za zabrinutost i zahtijevaju odgovorno djelovanje i rješavanje ovih pitanja kroz istraživanje, regulativu i suradnju između svih sudionika.

Drugi značajni modeli umjetne inteligencije

Istraživanja inovacija u području umjetne inteligencije odvija se i u područjima računalnog vida, obrade zvuka, robotike i generiranja video zapisa iz teksta.

Računalni vid: R_CNN, YOLO i Mask R-CNN

Računalni vid strojevima omogućuje razumijevanje i interpretaciju vizualnih informacija. Modeli koji su revolucionirali područja od nadzora i autonomnih vozila do medicinskog snimanja i virtualne stvarnosti su R-CNN, YOLO i Mask R-CNN. R-CNN (region-based convolutional neural networks) otkriva, prepoznaje i kategorizira objekte na slikama. YOLO (you only look once) obradom slike otkriva objekte u jednom koraku u stvarnom vremenu. Mask R-CNN proširuje mogućnosti R-CNN-a dodavanjem segmentacije uzoraka za preciznu lokaciju i ocrtavanje objekata na slikama.

Obrada zvuka: WaveNet i DeepSpeech

WaveNet (DeepMind) je moćan generativni model za sintezu vrlo realističnog i ekspresivnog govora sličnog ljudskom. Njegove mogućnosti su također uključene u Google Assistant. DeepSpeech tvrtke Mozilla je softver otvorenog koda za pretvaranje govora u tekst, koji koristi tehnike dubokog učenja za pretvaranje govornog jezika u pisani tekst. Koristi se u aplikacijama kao što su pomoćnici za glasovno upravljanje, usluge prijepisa i u alatima namijenjenim osobama oštećena sluha.

Robotika: Atlas i Spot tvrtke Boston Dynamics

Boston Dynamics, tvrtka lider u segmentu robotike, razvila je napredne robote s izvanrednim sposobnostima na području mobilnosti, ravnoteže i autonomije. Njihov Atlas je dvonožni humanoidni robot koji se ističe spretnošću i okretnošću u trčanju, skakanju i rukovanju predmetima. Spot je četveronožni robot dizajniran za širok raspon primjena, poput pregleda okoline, mapiranja i pomoći u opasnim okruženjima. Oba robota predstavljaju pravi smjer istraživanja i razvoja robotike te mogućnosti suradnje čovjeka i robota.

Generiranje slika i videozapisa iz teksta

Generiranje slika i videozapisa iz teksta je brzo rastuće područje umjetne inteligencije koje pretvara tekstualne opise u realistične slike ili video sadržaj. Oslanjajući se na napredne tehnike umjetne inteligencije i razumijevanje prirodnog jezika, ovi modeli mogu stvoriti slike različitih stilova, videozapise, dinamične scene i animacije koje vizualno predstavljaju ulazni tekst. Moguće upotrebe generiranih slika i videozapisa iz teksta uključuju stvaranje sadržaja za marketing, virtualnu stvarnost i pripovijedanje priča te obrazovne svrhe. AI generatori video sadržaja su DAIN, Lumen5, RunwayML, DeepArt.io, Artymate i drugi, a slike stvaraju DALL-E 2, Midjourney, Stable Diffusion, Craiyon (ranije DALL-E mini) i Nightcafe AI.

Zaključak

Budućnost umjetne inteligencije donosi goleme prilike za transformaciju industrija, poboljšanje procesa donošenja odluka i naših svakodnevnih života kroz inovacije na području računalnog vida, obrade prirodnog jezika i robotike.

No izazova na tom putu ne nedostaje. Etička pitanja, zaštita osobnih podataka, pristranost i utjecaj automatizacije na društvo zahtijevaju odgovoran razvoj AI-ja, jer samo tako možemo iskoristiti njezin puni potencijal i uživati u budućnosti u kojoj AI nije samo inteligentna, već i korisna čovječanstvu.