ВАЖНА ОБАВЕШТЕЊА

Велика почасна награда за тим RAF Penguins на светском финалу најпрестижнијег информатичког такмичења ICPC у Москви

Легендарни тим RAF Penguins наставља да бриљира на светској такмичарској програмерској сцени!

Тим студената Рачунарског факултета освојио је велику почасну награду (High Honors) на светском финалу ICPC такмичења - најпрестижнијег тимског такмичења у решавању алгоритамских проблема одржаном у Москви.

Тим RAF Penguins остварио је најбољи пласман од свих тимова из Србије до сада на финалима овог престижног такмичења, заузевши 24. место у конкуренцији 117 тимова из целог света. Овај феноменалан резултат забележио је тим који су чинили Алекса Милисављевић и Павле Мартиновић уз пратњу тренера Душана Здравковића, иако је тим био значајно ослабљен јер трећи члан RAF Penguins-a, Алекса Плавшић, није био у могућности да дође у Русију из објективних разлога.

Подсећања ради, сјајан тројац изборио је пласман у овогодишње светско финале ICPC такмичења освојивши треће место на регионалном ICPC такмичењу за југоисточну Европу које је одржано у октобру 2019. године у Букурешту. Првобитно је планирано да се светско финале ICPC такмичења одржи у јуну 2020. године, али је због неповољних епидемиолошких услова одложено и одржано 5. октобра ове године.

Врхунско програмерско знање талентовани студенти Рачунарског факултета показали су и у мају 2021. године на квалификацијама за светско финале ICPC за наредну годину, где су освојили златну медаљу и тиме обезбедили учешће на светском ICPC финалу 2022. године у Бангладешу.

Снимак целог ICPC такмичења у Москви можете погледати овде.

НАСТАВА НА РАЧУНАРСКОМ ФАКУЛТЕТУ У ШКОЛСКОЈ 2021/2022.

Пре почетка наставе сви студенти су се изјаснили да ли хоће наставу да прате у просторијама Факултета, или преко Zoom платформе од куће. Жеље студената II, III и IV године у потпуности су испуњене, док студенти I године, због превеликог броја заинтересованих, наставу прате на Факултету сваке друге недеље (задовољен критеријум од 4m2 по студенту).

Настава се одржава по унапред утврђеном, уобичајеном распореду. У свим учионицама обезбеђени су екрани по којима може да се пише и који су преузели улогу табли. Оно што се пише по екранима, као и унапред припремљене презентације, видљиве су преко пројектора студентима у учионицама, а студенти који наставу прате од куће виде то на свом екрану и чују глас наставника. И студенти који наставу прате од куће могу да постављају питања, да одговарају на питања наставника и на други начин учествују у настави.

Сваки одржани час аутоматски се снима, тако да је доступан студентима и за касније прегледање.

Рачунарски факултет

Студијски програми

8 sjajnih Python biblioteka za obradu prirodnog jezika

Kako odabrati kod toliko NLP resursa u Pythonu? Otkrijte najbolje Python biblioteke za analizu teksta i kako se one koriste. Obrada prirodnog jezika, ili skraćeno NLP – natural language processing, najbolje je opisati kao „VI za govor i tekst“. Čarolija iza govornih komandi, prevođenja govora i teksta, analize raspoloženja, sažimanja teksta i mnogih drugih lingvističkih aplikacija i analiza, obrada prirodnog jezika dramatično je poboljšana zahvaljujući dubokom učenju. Jezik Python pruža pogodan pristup za sve vrste mašinskog učenja, uključujući NLP. U stvari, postoji neprilika šta izabrati od NLP bogatstva u ekosistemu Python. U ovom članku ćemo istražiti svaku od NLP biblioteka dostupnih za Python - njihove primene upotrebe, snagu, slabosti i opšti nivo popularnosti.

Imajte na umu da neke od ovih biblioteka pružaju verzije višeg nivoa za istu funkcionalnost koju nude druge biblioteke, što olakšava upotrebu te funkcije po cenu određene preciznosti ili performansi. Odabraćete biblioteku koja odgovara vašem nivou stručnosti i prirodi projekta.

CoreNLP

Biblioteka CoreNLP - proizvod Univerziteta Stanford - napravljena je da bude rešenje za obradu prirodnog jezika spremno za proizvodnju, sposobno da pruži NLP predviđanja i analize u velikom obimu. CoreNLP je napisana na Javi, ali za nju je dostupno više Python paketa i API-ja, uključujući i izvornu Python NLP biblioteku pod nazivom Stanza.

CoreNLP uključuje širok spektar jezičkih alata - označavanje gramatike, prepoznavanje imenovanih entiteta, raščlanjivanje, analizu raspoloženja i još mnogo toga. Dizajniran je da bude agnostički na ljudskom jeziku i trenutno uz engleski podržava arapski, kineski, francuski, nemački i španski jezik (uz podršku ruskog, švedskog i danskog od drugih dobavljača). CoreNLP takođe uključuje veb API server, pogodan način za posluživanje predviđanja bez previše dodatnog rada.

Najjednostavnije mesto za početak rada sa CoreNLP-ovim Python omotačima je Stanza, referentna implementacija koju je kreirala Stanford NLP grupa. Pored toga što je dobro dokumentovana, Stanza se takođe redovno održava; mnoge druge Python biblioteke za CoreNLP nisu ažurirane već neko vreme.

CoreNLP takođe podržava upotrebu NLTK, glavne Python NLP biblioteke o kojoj se govori u nastavku. Od verzije 3.2.3, NLTK uključuje u svoj parser interfejse za CoreNLP. Samo pazite da koristite tačan API .

Očigledna mana CoreNLP-a je da će vam biti potrebno malo znanja o Javi da biste je pokrenuli, ali to nije ništa što se ne može postići pažljivim čitanjem dokumentacije. Još jedna prepreka može biti licenciranje CoreNLP-a. Čitav komplet alata licenciran je pod GPLv3, što znači da će za bilo kakvu upotrebu vlasničkog softvera koji distribuirate drugima biti potrebna komercijalna licenca.

Gensim

Gensim radi samo dve stvari, ali to radi izuzetno dobro. Njegov fokus je statistička semantika - analiza dokumenata u smislu njihove strukture, a zatim bodovanje ostalih dokumenata na osnovu njihove sličnosti.

Gensim može da radi sa vrlo velikim komadima teksta preusmeravanjem dokumenata u svoj mehanizam za analizu i postupnim izvođenjem nenadgledanog učenja na njima. Može da stvori više tipova modela, svaki pogodan za različite scenarije: Word2Vec, Doc2Vec, FastText i Latent Dirichlet Allocation.

Gensimova detaljna dokumentacija uključuje vodiče i uputstva za upotrebu koji objašnjavaju ključne koncepte i ilustruju ih praktičnim primerima. Uobičajeni recepti su takođe dostupni na repozitorijumu Gensim GitHub.

Najnovija verzija, Gensim 4, podržava samo Python 3, ali sadrži glavne optimizacije uobičajenih algoritama kao što su Word2Vec, manje složeni OOP model i mnoge druge modernizacije.

NLTK

Toolkit za prirodni jezik, ili skraćeno NLTK, jedna je od najpoznatijih i najmoćnijih Python biblioteka za obradu prirodnog jezika. Mnogi korpusi (skupovi podataka) i obučeni modeli dostupni su odmah za upotrebu sa NLTK-om, tako da možete odmah da počnete da eksperimentišete sa NLTK-om.

Kao što navodi dokumentacija, NLTK pruža široku lepezu alata za rad sa tekstom: „klasifikacija, tokenizacija, rezanje, označavanje, raščlanjivanje i semantičko obrazlaganje“. Takođe može da radi sa nekim nezavisnim alatima (kao što su Stanford Tagger, TADM i MEGAM) da poboljša svoju funkcionalnost.

Imajte na umu da je NLTK kreirala za sebe akademska istraživačka zajednica. Nije dizajniran da služi NLP modelima u proizvodnom okruženju. Dokumentacija je takođe donekle oskudna; čak su i uputstva mršava. Takođe, ne postoji 64-bitni binarni kôd; moraćete da instalirate 32-bitno izdanje Pythona da biste ga koristili. Konačno, NLTK nije ni najbrža biblioteka, ali se može ubrzati paralelnom obradom.

Ako ste odlučni da iskoristite sadržaj NLTK-a, možete umesto njega da započnete sa TextBlob-om (o kome će biti reči u nastavku).

Pattern

Ako vam jedino treba da pročačkate neku popularnu veb stranicu i analizirate ono što nađete, posegnite za Pattern-om. Ova biblioteka za obradu prirodnog jezika je mnogo manja i uža od ostalih ovde obuhvaćenih biblioteka, ali to takođe znači da je usredsređena na to da zaista dobro obavlja jedan uobičajeni posao.

Pattern se isporučuje sa ugrađenim alatima za prikupljanje sa niza popularnih veb usluga i izvora (Google, Wikipedia, Twitter, Facebook, generički RSS, itd.), koji su svi dostupni kao Python moduli (npr. from pattern.web import Twitter) . Ne morate ponovo da otkrivate toplu vodu da biste dobili podatke sa tih veb lokacija, sa svim njihovim pojedinačnim smicalicama. Tada možete nad dobijenim podacima izvršiti razne uobičajene NLP operacije, poput analize raspoloženja.

Pattern izlaže neke od funkcija nižeg nivoa, omogućavajući vam da, ako želite, direktno koristite NLP funkcije, pretraživanje n-grama, vektore i grafikone. Takođe ima ugrađenu pomoćnu biblioteku za rad sa uobičajenim bazama podataka (MySQL, SQLite i MongoDB u budućnosti), što olakšava rad sa tabelarnim podacima sačuvanim iz prethodnih sesija ili dobijenim od trećih lica.

Polyglot

Polyglot , kao što i samo ime govori, omogućava aplikacijama za obradu prirodnog jezika da se bave sa više jezika odjednom.

NLP funkcije u Polyglotu odražavaju ono što se može naći u drugim NLP bibliotekama: tokenizacija, prepoznavanje imenovanih entiteta, označavanje dela govora, analiza raspoloženja, ugrađivanje reči itd. Za svaku od tih operacija, Polyglot pruža modele koji funkcionišu sa potrebnim jezicima.

Imajte na umu da se Polyglotova podrška za jezike razlikuje od funkcije do funkcije. Na primer, sistem za prepoznavanje jezika podržava skoro 200 jezika, tokenizacija podržava 165 jezika (uglavnom zato što koristi algoritam Unicode segmentacije teksta), a analiza raspoloženja podržava 136 jezika, dok označavanje delova govora podržava svega 16.

PyNLPI

PyNLPI (izgovara se „pajnepl“) ima samo osnovni spisak funkcija obrade prirodnog jezika, ali ima neke zaista korisne funkcije konverzije i obrade podataka za NLP formate podataka.

Većina NLP funkcija u PyNLPI-u su za osnovne poslove poput tokenizacije ili ekstrakcije n-grama, uz neke statističke funkcije korisne u NLP-u, poput Levenshtein-ovog rastojanja između niski ili Markovljevih lanaca. Te funkcije su zbog praktičnosti implementirane u čistom Pythonu, pa je malo verovatno da će imati performanse za nivo proizvodnje.

Međutim, PyNLPI je sjajan za rad sa nekim egzotičnijim tipovima podataka i formatima koji su nastali u NLP prostoru. PyNLPI može da čita i obrađuje GIZA, Moses ++, SoNaR, Taggerdata i TiMBL formate podataka, a čitav jedan modul posvećuje radu sa FoLiA, XML formatom dokumenta koji se koristi za označavanje jezičkih resursa poput corpora (delova teksta koji se koriste za prevod ili drugu analizu) .

Poželećete da posegnete za PyNLPI-om kad god budete imali posla sa tim tipovima podataka.

SpaCy

SpaCy , koji koristi Python radi pogodnosti, a Cython radi brzine, naplaćuje se kao „obrada prirodnog jezika industrijske snage“. Njegovi tvorci tvrde da je povoljniji u poređenju sa NLTK, CoreNLP i ostalim konkurentima u pogledu brzine, veličine modela i tačnosti. SpaCy sadrži modele za više jezika, mada samo za 16 od podržana 64 jezika ima potpune kanale podataka.

SpaCy uključuje skoro sve funkcije koja se nalaze u konkurentskim radnim okvirima: označavanje govora, raščlanjivanje zavisnosti, prepoznavanje imenovanog entiteta, tokenizacija, segmentacija rečenica, operacije podudaranja zasnovane na pravilima, vektori reči i još mnogo toga. SpaCy takođe uključuje optimizacije za rad GPU-a - kako za ubrzavanje računanja, tako i za čuvanje podataka na GPU-u kako bi se izbeglo kopiranje.

Dokumentacija za SpaCy je odlična. Čarobnjak za podešavanje generiše akcije instalacije sa komandne linije za Windows, Linux i macOS, kao i za različita Python okruženja (pip, conda, itd.). Jezički modeli se instaliraju kao Python paketi, tako da se mogu pratiti kao delovi liste zavisnosti aplikacije.

Najnovija verzija radnog okvira, SpaCy 3.0, nudi mnoge nadogradnje. Pored korišćenja radnog okvira Ray za izvođenje distribuirane obuke na više mašina, nudi novi sistem kanala zasnovan na transformeru za bolju preciznost, novi sistem obuke i model konfiguracije toka rada, upravljanje tokom rada sa kraja na kraj i još mnogo toga .

TextBlob

TextBlob je prijatan čeoni deo biblioteka Pattern i NLTK, omotavajući obe te biblioteke u interfejse visokog nivoa, jednostavne za upotrebu. Uz TextBlob trošite manje vremena na borbu sa zamršenostima biblioteka Pattern i NLTK, a više vremena na postizanje rezultata.

TextBlob olakšava rad maksimalnim iskorištavanjem izvornih Python objekata i sintakse. Primeri brzog početka pokazuju kako se tekstovi koji se obrađuju jednostavno tretiraju kao stringovi, a uobičajeni NLP metodi poput označavanja delova govora dostupni su kao metodi nad tim string objektima.

Još jedna prednost TextBloba je što možete da „podignete haubu“ i promenite njegovu funkcionalnost kako vam raste samopouzdanje. Mnoge podrazumevane komponente, poput sistema za analizu raspoloženja ili tokenizera, mogu po potrebi da se zamene . Takođe možete da kreirate objekte na visokom nivou koji kombinuju komponente - ovaj analizator raspoloženja, taj klasifikator itd. - i da ih ponovo koristite uz minimalan napor. Na ovaj način možete brzo da napravite prototip za nešto pomoću TextBlob-a, a zatim ga doradite kasnije.

Izvor: InfoWorld

  • NeuroTechX глобални хакатон на РАФ-у

    На Рачунарском факултету у Београду 29. и 30. октобра одржаће се NeuroTechX глобални хакатон у области неуротехнологије и биоинжењеринга на ком учествује десет земаља света. Рачунарски факултет организује хакантон у сарадњи са светском организацијом NeuroTechX која има свој огранак у Србији под називом NeuroTechX Београд који је основала професорка РАФ-а др Јелена Младеновић. Хакатон ће се одржати у РАФ Labu, а такмичарима ће бити доступна опрема коју обезбеђује РАФ (Arduino, електричне компоненте и сензоре, Raspberry Pi, 3D printer итд.), док компанија mBrainTrain обезбеђује EEG уређај за мерење мождане активности, а компанија Ullo обезбеђује дисајне појасеве.  

  • Компанија Decenter додељује пет новчаних стипендија студентима РАФ-а

    Рачунарски факултет у сарадњи са компанијом Decenter пред нову школску годину доноси сјајну новост за актуелне студенте треће године (2021/2022.) студијског програма Рачунарске науке. Decenter додељује пет новчаних стипендија у износу од 1000 евра студентима са највишим просеком који су положили све предмете из прве, друге и треће године студија.  

  • Grand prix на фестивалу FID Marseille за српски филм “Кристина”

    Српски дугометражни филм “Кристина” редитеља и доцента на катедри за дизајн Рачунарског Факултета Николе Спасића освојио је Grand prix на 33. Међународном филмском фестивалу у Марсеју – FIDMarseille у категорији Први филм (First Film Award). Овај цењени европски фестивал ауторског филма посвећен је промоцији нових филмских израза, а ове године су се филмови из целог света такмичили у 5 различитих категорија, и том приликом су имали своје светске премијере.

  • Тим РАФ-а освојио сребрну медаљу на ICPC регионалном такмичењу у програмирању југоисточне Европе - SEERC

    Тим Рачунарског факултета GII Klub, који чине Алекса Милисављевић и Павле Мартиновић, чланови сјајног тима RAF Penguins, као и Младен Пузић, уз тренера Душана Здравковића, заузео је четврто место и освојио сребрну медаљу на ICPC регионалном такмичењу у програмирању југоистичне Европе – SEERC. На такмичењу, које су онлајн организовали Politehnica University of Bucharest (Румунија) и Vinnytsia National Technical University (Украјина), учествовало 120 тимова са 57 универзитета из 7 земаља - Бугарске, Грчке, Македоније, Румуније, Украјине, Србије и Турске. Тим РАФ-а је остварио изузетан успех и једини је тим из Србије који је освојио медаљу.

  • Стипендисти Рачунарског факултета 2022/2023.

    Рачунарски факултет и наредне школске године наставља са традицијом стипендирања ученика за бесплатно четворогодишње студирање на РАФ-у. Петнаест матураната је добило стипендију за бесплатно четврогодишње школовање на Рачунарском факултету, док је пет матураната добило полустипендију која подразумева попуст од 50% за четврогодишње школовање на РАФ-у. Ученици су одабрани на основу постигнућа на такмичењима из математике, информатике и физике.

  • РАФ успоставио сарадњу са НИС-ом

    Компанија НИС и Рачунарски факултет Универзитета Унион успоставили су сарадњу у области образовања, истраживања и трансфера знања. Меморандум о сарадњи су потписали Вадим Смирнов, заменик генералног директора НИС-а и Бојана Димић Сурла, декан Рачунарског факултета. Циљ овог меморандума је повезивање научног рада факултета са пословним активностима НИС-а, што ће допринети научној афирмацији факултета и успешнијем пословању компаније. Меморандумом су предвиђена размена знања и искустава, научна истраживања и научно-консултативне услуге, обуке и тренинзи, учешће у заједничким пројектима, организација узајамних гостујућих предавања, као и укључивање студената у програме НИС-а намењене младима и стручне праксе, у складу са потребама и могућностима компаније. Сарадња НИС-а и Рачунарског факултета одвијаће се и у оквиру мастер програма „Master in Computational Finance (MCF) програм“. Овај програм један је од пионира у интегративном образовању у области рачунарских финансија. Он интегрише финансије, рачунарство, машинско учење и дигиталну трансформацију модерне економије.  

  • Компанија TX Services додељује стипендије студентима РАФ-а

    Рачунарски факултет са поносом преноси сјајну вест којој ће се посебно обрадовати студенти треће године Рачунарских наука. РАФ је оставарио сарадњу са компанијом TX Services која ће стипендирати два студента која су ове школске године уписана на трећу годину студијског програма Рачунарске науке. Студенти, које након конкурса буде одабарала компанија TX Services, добиће стипендију која износи половину школарине за трећу годину и половину школарине за четврту годину студија. Стипендисте након завршетка четврте године студија очекује прилика за запослење од две године у TX Services где ће имати сјајну прилику да примене знања стечена на факултету и упознају се са реалним пословним окружењем.

  • Компанија mBrainTrain донацијом опреме подржала нови предмет Интерфејс мозак-рачунар на РАФ-у

    Домаћа компанија mBrainTrain дала је подршку извођењу новог предмета на РАФ-у донирањем опреме за мерење мождане активности која је неопходна за рад студената. Студенти Рачунарских наукаРачунарског инжењерства и Мултимедијалног дизајна у наредном семестру имају прилику да одаберу нови изборни предмет Интерфејс мозак-рачунар. Овим предметом др Јелена Младеновић, која ће држати наставу, уводи једну сасвим нову област чији је зачетак у нашој земљи управо на Рачунарском факултету. Интерфејс мозак-рачунар представља спој рачунарства и неуронауке који је у свету увелико актуелан у науци, док ће на овај начин почети академско бављење њиме у Србији. Ова област је веома привлачна и занимљива како студентима Рачунарских наука и Рачунарског инжењерства, тако и студентима Мултимедијалног дизајна. На овај начин се постиже интердисциплинарност која у студијским програмима неретко изостаје, а РАФ увидевши њену важност уводи је као пример који ће следити у будућности.

  • Нови акредитовани мастер програм на Рачунарском факултету - Master in Computational Finance (MCF)

    На мастер студијама Рачунарског факултета у понуди је нов студијски програм Master in Computational Finance (MCF). MCF је иновативан мастер програм који је јединствен у нашој земљи, док је у свету област којом се бави веома актуелна и примењива. Овај програм је акредитован од стране Комисије за акредитацију и проверу квалитета Националног савета за високо образовање. MCF представља програм који је спој рачунарства и финансија, а који прати најсавременије токове из ових области на глобалном нивоу. РАФ са поносом истиче да је баш он препознат као факултет који може да обједини област рачунарства са финансијама и усмери један овакав програм према најновијим трендовима како у академској сфери, тако и у пословној сфери која у свету увелико напредује и мења се. На MCF-у образују се студенти за различите врсте послова који садрже рад са структурираним и неструктурираним финансијским подацима. Студијски програм се бави рачунарским и алгоритамским аспектима проблема који се примењују на реална пословна окружења. Студенти се припремају за послове у Србији и на међународном тржишту рада, пре свега у области дигиталне економије и финансија, као и у фирмама које се баве финансијском технологијом.

  • Нови предмети на Рачунарском факултету – Интерфејс мозак-рачунар и Физиолошко рачунарство

    На Рачунарском факултету и онлајн путем Зума одржано је представљање предмета Интерфејс мозак-рачунар и Физиолошко рачунарство које ће студенти моћи да одаберу у наредном семестру. Наставу на овим изборним предметима ће држати др Јелена Младеновић. Предмети су намењени студентима треће године студијских програма Рачунарско инжењерство, Рачунарске науке и Мултимедијални дизајн.