Kompjuterski vid je područje koje obuhvata metode za prikupljanje, obrade, analiziranje i razumevanje slika, i, uopšteno, višedimenzionalnih podataka iz realnog sveta u cilju dobijanja numeričkih ili simboličih informacija. Razlog razvoja ovog ovog područja je mogućnost elektronske percepcije ljudskog vida i digitalnog razumevanja slike. Razumevanje slike može biti viđeno kao odvajanje simboličke informacije iz podataka slike koristeći modele napravljene uz pomoć geometrije, fizike, statistike i mašinskog učenja.
Počeci
Kao i u mnogo drugih disciplina nauke i inženjerstva, prva stvar koja pada na pamet za rešavanje problema vezanih za kompjuterski vid jesu modeli zasnivani na strukturama mozga.
1958, godine Frank Rosenblatt je prezentovao svoj novi algoritam, Perceptron, koji se zasniva na neuralnim mrežama i automatski klasifikuje slike na osnovu toga da li sadrže tenkove koji su sakriven u šumi nasuprot onih gde je na slici samo šuma. Iako je u istraživačkim esperimentima algoritam pokazao dovoljno uspeha, ispostavilo se da nije tako u praksi. Razlog je to što su se slike koje su korišćene za treniranje algoritma bile pristrasne vremenskim uslovima: slike sa tenkovima su slikane kada je bilo oblačno dok slike ne kojima je samo šuma je sunčano. Tako da algoritam nije naučio da prepoznaje tenkove, već da razlikuje sunčane dane od oblačnih.
1966. godine Seymour Paper je prvi pokušao da reši problem kompjuterskog vida u Summer Vision projektu. Primarni cilj ovog projekta je bio da se napravi sistem koji će podeliti sliku u regione na kojoj su objekti, pozadinske površine i na poremećene tj. rasute delove slike. Krajnji cilj je bio identifikacija objekata koja bi zapravo imenovala objekte na osnovu odgovarajućih objekata u rečniku poznatih objekata.
Malo kasnije
Nakon ovih ranih neuspeha, desio se zastoj naučnog napretka u veštačkoj inteligenciji i kompjuterskom vidu, i istraživači su se najviše fokusirali na rešavanju problema procesiranja slika. Procesiranje slika obuhvata operacije na nivou piksela, kao što su nalaženje granica slike, primenjivanje raznovrsnih filtera kao u Photoshop-u, ili kompresija slika bez gubljenja sadržaja koji je od važnosti. Iako se ovaj napredak super pokazao, i bio veoma od pomoći praktičnim, industrijskim aplikacijama, to nije bilo ono što je trebalo kompjuterski vid da bude, što je način da se interpretira vizuelni svet. Nakon toga, u ranim devedesetim, neuralne mreže se ponovo pojavljuju i uspevaju da reše izazvniji problem u to vreme – prepoznavanje cifara za bankovne čekove. Uprkost njihovom uspehu, neuralne mreže se još uvek nisu dobro pokazivale na težim zadacima kao što je prepoznavanje trodimenzionalinh objekata na neograničenim slikama. Ali opet, nisu nešto bili popularni kod zajednice ljudi kompjuterskog vida.
Zlatne godine
I odjednom u devedesetim se zapravo desilo začeće kompjuterskog vida. Odjednom pregršt metoda je predložen za rešavanje generičkih, okorelih problema kompjuterskog vida, kao što je klasifikacija objekata, detekcija objekata i segmentacija, prepoznavanje lica, itd. Rezultat ovoga? Počele su da se prave pametne kamere koje su bile u mogućnosti da detektuju naša lica, prvi koraci Google Goggles aplikacije, kasnije dolazimo i do Kinect-a.
Jedan od glavnih razloga za nagli uspeh kompjuterskog vida je iznenadni uspeh algoritma za nalaženje ključnih svojstava slike u 1999. godini pod nazivom SIFT. SIFT je bio efikasan i precizan i mogao je da da precizno poređenje između raličitih slika na kojima je isti objekat. U isto vreme algoritmi koji izvlače lokalne ključne tačke počinju da cvetaju, imajući mogućnost da otkriju interesante lokacije na slici. Takođe, pored SIFT-a, algoritam koji je stekao najveću popularnost je Bag-of-Words. Bag-of-Words je metoda predožena za opis sadržaja slike veoma jednostavno. Inovacija koju donosi ova metoda jeste njena jednostavnost. Pre nje, istraživači su pokušavali da precizno modeluju trodimenzionalnu geometriju objekata, često praveći ili geometrijski precizne ali računarski vrlo kompleksne, ili računarski prihvatljive ali dosta pojednostavljene modele. Bag-of-Words kaže da geometrija nije važna, tačnije da nije vredna truda. U suštini, ova metoda je pokušala da reši krajnji cilj klasifikacije slika bez pokušavanja da reši među-problem – geometrijski opis svih objekata koji se pojavljuju na slici. Jako veliki uticaj na kompjuterski vid. Istraživači danas koriste SIFT i Bag-of-Words na skoro svaki problem kompjuterskog vida.
Revolucija kompjuterskog vida je kasnije negovana sa uvođenjem javnih, otvorenih problema, gde su svi mogli da učestvuju sa svojim omiljenim algoritmom sa klasifikovanje slika, videa i drugo. Ovi otvoreni problem su bili katalizator. Pružali su dobru podlogu za diskusiju. Istraživači su se redovno sastajali na konferencijama i radionicama da diskutuju o daljem razvoju i upoređivali stvari jedni sa drugima.
Interesantno, tokom zlatnih godina kompjuterskog vida desile su se još dve revolucije. Prva, social meda revolution. Ljudi su delili sve da drugima, pa tako i slike. Iznenada, istraživači su otkrili jeftine i neograničene izvore podataka za treniranje što nas dovodi do Big Data ere. Druga revolucija je to što je hardware postao da postaje veoma jeftin i baš moćan. Za samo nekoliko dolara možemo kupiti baš puno računarskih operacija.
Danas
Nakon zlatne ere konačno ispunjujemo neke od dalekih obećanja. Neuralne mreže jačaju sa jačim i jeftinijm hardware-om. Danas, bazirano na modernim verzijama neuralnih mreža, možemo da klasifikujemo sadržaj slika veoma precizno. Činjenica je da kompjuteri polako dostižu ljudsku preciznost u određenim zadacima. Velike kompanije investiraju puno novca u donošenju svih ovih tehnologija.
Sutra
Šta nam je ostalo? Kompjuterski vid još uvek nije rešen. U stvari, mi smo sada na takvom nivou preciznosti da možemo preći na sledeći nivo i pokušati da kompjuterski razumemo sliku do njenih granica. Slika nije samo jedan ili dva objekta koji se pojavljuju na njoj. To je cela interakcija tih objekata, to je cela priča koja stoji iza interakcije tih objekata. I ovaj nivo sadržaja se još više povećava kada se krećemo od statičnih slika do pomerajućih, tj. videa. Biće potrebna još veća računarska moć. Da li ćemo moći rešavati upite poput: “find all the videos in which a brown-white cat plays with the red laser on a colourful carpet”.
Zaključak
Zaključujemo da je kompjuterski vid jako živ i u velikom usponu, i naravno da je jako kul raditi istraživanja u ovoj oblasti. Ipak, i dalje nismo dostigli nivo čovekovog niva preciznosti. Ali nakon puno godina jako smo blizu tome i budućnost izgleda svetlija nego ikad.
Autor: Dimitrije Dimić