Softver za prevenciju tekstualnih uvreda na srpskom jeziku: Otkrivanje govora mržnje pomoću veštačke inteligencije

(eng. Software for Text Offences Prevention in Serbian:
AI-driven Hate Speech Detection
)

Program za izvrsne projekte
mladih istraživača - PROMIS
(finansiran od Fonda za nauku Republike Srbije)

O projektu


Vesti

U ovoj sekciji biće objavljivane najsvežije vesti našeg projektnog tima.

Učešće na CEISEE 2024

03.10.2024.

Dvadeseti Kina-Evropa internacionalni simpozijum o obrazovanju u softverskom inženjerstvu održao se 02. i 03.10. u Beogradu. Prvi dan simpozijuma održan je na Elektrotehničkom fakultetu, Univerziteta u Beogradu, a drugi dan u Palati Srbije. Članovi našeg tima prezentovali su svoje radove i kroz bogatu razmenu znanja sa kolegama iz Kine, spremni smo da se uputimo u nove naučne pustolovine. Ova kolaboracija pospešuje kreativnost u utemeljuje put budućim inovativnim projektima.





Intervju za TV NOVA

15.7.2024.

Naš rukovodilac projekta, dr Dražen Drašković, gostovao je u jutarnjem programu "Probudi se" na TV NOVA, gde je govorio o ovogodišnjem upisu srednjoškolaca na Elektrotehnički fakultet u Beogradu, uticaju veštačke inteligencije na informacione tehnologije, kao i projektu STOP, koji finansira Fond za nauku Repubulike Srbije, u kome razvijamo softverski sistem za otkrivanje govora mržnje na srpskom jeziku. On je istakao da je na smanjenje broja prijavljenih za IT odeljenja na univerzitetima najviše uticala depopulacija i više od 4 hiljade maturanata manje. Prilog možete pogledati OVDE.

Redovni mesečni sastanak projektnog tima

2.7.2024.

📢 Tim projekta STOP održao je redovni mesečni sastanak, u sali za sastanke Elektrotehničkog fakulteta 🏫 Na sastanku je urađena analiza dosadašnjeg rada i napisan je polugodišnji izveštaj, koji je predat Fondu za nauku. Tim je konstatovao da su sve planirane aktivnosti uspešno izvršene i da su ostvareni svi traženi rezultati. Tokom leta očekuje nas sređivanje baze kratkih tekstova na srpskom jeziku i labeliranje podataka, kao i završetak preglednog naučnog rada, koji pripremamo za objavljivanje u internacionalnom časopisu. Pratite naše aktivnosti i dalje!

Učešće na panelu XIX međunarodnog simpozijuma SymOrg 2024

15.6.2024.

U subotu, 15. juna 2024. godine u okviru XIX međunarodnog simpozijuma SymOrg 2024, organizovan je pane (okrugli sto), u organizaciji Fakulteta organizacionih nauka. Tema panela bila je "Synergy of Humans and Technology in Higher Education", a učešće u panelu među dekanima i predstavnicima fakulteta iz celog regiona, uzeo je Dr Dražen Drašković, rukovodilac našeg projekta STOP. Dr Drašković je govorio o izvanrednoj saradnji Elektrotehničkog fakulteta i Fakulteta organizacionih nauka u Beogradu na zajedničkim master studijama iz digitalne transformacije, izazovima koji su nastupili u nastavi uvođenjem alata veštačke inteligencije i tokom pandemije korona virusa, a istakao je i nove softverske sisteme koje razvijamo u okviru Laboratorije za analizu podataka i primenu veštačke inteligencije, među kojima i alat iz projekta STOP.

Učešće na međunarodnoj konferenciji IcETRAN 2024

7.6.2024.

STOP tim je učestvovao na Međunarodnoj konferenciji IcETRAN, održanoj u Nišu, od 3. do 6. juna, u organizaciji Društva za ETRAN i Elektronskog fakulteta u Nišu. Članovi našeg tima prezentovali su rad o primeni velikih jezičkih modela i učestvovali u radu ove tradicionalne konferencije.

Intervju za K1 televiziju

28.5.2024.

Naš rukovodilac projekta, dr Dražen Drašković, govorio je u jutarnjem programu "Uranak" na televizijskoj stanici K1, o projektu STOP koji se razvija u laboratoriji za analizu podataka i primenu veštačke inteligencije Elektrotehničkog fakulteta u Beogradu. Prilog možete pogledati OVDE.

Učešće na trećoj srpskoj međunarodnoj konferenciji o primenama veštačke inteligencije

25.5.2024.

STOP tim je učestvovao na Trećoj srpskoj međunarodnoj konferenciji o primenjenoj veštačkoj inteligenciji održanoj u Kragujevcu 23. i 24. maja. Članovi našeg tima Dražen Drašković i Jelica Cincović održali su prezentacije o temama otkrivanja govora mržnje na srpskom jeziku, tehnikama analize podataka i otkrivanju propagande na srpskom jeziku. Naš rad pod nazivom Primena veštačke inteligencije u otkrivanju govora mržnje na srpskom jeziku dobio je nagradu za najbolji studentski rad na konferenciji.

Čestitke našem članu tima Urošu Radenkoviću na odbranjenom doktoratu

24.5.2024.

U sredu 22. maja 2024. godine, član našeg projektnog STOP tima, Uroš Radenković, sa uspehom je odbranio svoju doktorsku disertaciju pod naslovom "Spekulativno izvršavanje instrukcija sa neprecizno predviđenim operandima". Čestitamo Urošu na ostvarenom zvanju doktora nauka elektrotehnike i računarstva, i želimo mu mnogo uspeha u daljem naučnom radu!

Čestitke našem članu tima Dr Vladimiru Jocoviću na ostvarenoj nagradi za najbolji doktorat iz računarstva

15.5.2024.

U sredu 15. maja 2024. godine, članu našeg projektnog STOP tima, dr Vladimir Jocović, uručena je nagrada za najbolji doktorat iz oblati informatike za 2023. godinu. Vladimir je dobio nagradu za svoju doktorsku disertaciju odbranjenu u decembru 2023. godine na Elektrotehničkom fakultetu Univerziteta u Beogradu, pod naslovom „Automatizovano ocenjivanje papirnih testova korišćenjem tehnika veštačke inteligencije“, a pod mentorstvom prof. dr Boška Nikolića i doc. dr Saše Stojanovića. Nagradu dodeljuje Matematički institut Srpske akademije nauka i umetnosti (MI-SANU).

Napravljen korpus ružnih i pogrdnih reči u srpskom jeziku

15.4.2024.

U toku februara i marta, naš projektni STOP tim je radio na prikupljanju i razvoju korpusa ružnih i pogrdnih reči u srpskom jeziku (rezultat D2.1. projektnog plana). Reči su prikupljanje iz različitih izvora, sa veb sajtova i portala, iz digitalnih i štampanih rečnika srpskog jezika, koji su zatim skenirani i gde su korišćene tehnike optičkog prepoznavanja karaktera, kao i manuelnog labeliranja podataka. Rezultati su prikazani u sekciji Resursi.

Učešće na AI konferenciji istraživača iz Srbije i Kine

12.4.2024.

Naš tim učestvovao je juče na konferenciji posvećenoj razvoju veštačke inteligencije u organizaciji Fonda za nauku Republike Srbije i Nacionalne fondacije za prirodne nauke Republike Kine. Konferencija je imala za cilj upoznavanje istraživača iz dve zemlje i predstavljanje dosadašnjih projekata u ovoj oblasti. Zahvaljujemo se Fondu za nauku što smo bili deo ovog interesantnog naučnog događaja.

Drugi zvaničan sastanak pregleda projekta

3.4.2024.

📢 Tim projekta STOP sastao se danas, u sali za sastanke Elektrotehničkog fakulteta 🏫 Na sastanku su podeljeni zadaci za predstojeće tromesečje 📝 Vredno radimo na prvom softveru za otkrivanje govora mržnje na srpskom jeziku i radujemo se novim izazovima koji su pred nama!

Svečana ceremonija promocije dobijenih projekata iz ciklusa "Program mladih istraživača - PROMIS 2023"

20.3.2024.

U sredu 20. marta 2024. godine održana je proslava povodom pet godina postojanja Fonda za nauku Republike Srbije. Tokom proslave, prisutnima su se obratili v.d. direktora Fonda za nauku g-đa dr Milica Đurić-Jovičić, Ministarka nauke, tehnološkog razvoja i inovacija, g-đa dr Jelena Begović, kao i predstavnici Evropske unije i Svetske banke. Na proslavi su posebno istaknuti rukovodioci odobrenih projekata iz poziva Promis 2023, i projekti koji su nagrađeni i koji su dobili dvogodišnje finansiranje kod Fonda za nauku Republike Srbije.

Panel o sajber bezbednost trendovima i izazovima

15.3.2024.

U okviru jubilarne 30. nacionalne naučno-stručne konferencije "YU INFO", naš tim je organizovao specijalni događaj - stručni panel, na temu "Sajber bezbednost trendovi i izazovi u zaštiti velikih sistema", u utorak, 12. marta 2024. godine u kongresnoj sali "Pančić A" u hotelu "Grand" na Kopaoniku.
Panel je moderirao i osmislio rukovodilac našeg projekta "STOP", prof. dr Dražen Drašković, a učešće su uzeli: prof. dr Slavko Gajin (Matematički fakultet u Beogradu), doc. dr Maja Vukasović (Elektrotehnički fakultet u Beogradu), master pravnih nauka Bojana Marinković (University Newcastle, UK) i dipl. inž. Marko Džida (Serbia And Montenegro Air Traffic Services Smatsa Llc).

Sajber pretnje u prethodnih nekoliko godina postale su sve veće po organizacije i njihove velike sisteme, a korisnički podaci veoma često nađu se na udaru zlonamernih korisnika (hakera). U poslednjih godinu dana padali su mnogi veliki softverski sistemi u Srbiji i regionu. Na panelu se diskutovalo o efikasnim bezbedonosnim merama, regulatornim zahtevima (kao što su GDPR i HIPAA), dobrim praksama u organizacijama u Srbiji i svetu, granicama između primene robusnih bezbedonosnih mera i održavanja sistema, koji su to podaci opasni da se zloupotrebe, i mnogim drugim pitanjima. Panel je privukao veći broj zainteresovanih učesnika konferencije, sa interesantnim pitanjima, pa je disusija panela bila vrlo plodotvorna i korisna.

Uspešno učešće naših istraživača na konferencijama "YU INFO 2024" i "ICIST 2024"

12.3.2024.

Od 10. do 13. marta 2024. na Kopaoniku je održana jubilarna 30. IKT konferencija "YU INFO 2024" i 14. internacionalna konferencija "ICIST 2024", na kojima je učešće uzelo više od 350 učesnika iz Srbije i sveta. Obe ovogodišnje konferencije bile su najviše u znaku veštačke inteligencije, obrade velikih podataka i velikih jezičkih modela. Na konferencijama je prezentovano 73 rada u sedam sesija na nacionalnom nivou, i 92 rada na internacionalnom nivou. Program konferencija dostupan je na sledećem linku.

U ponedeljak, 10. marta 2024., u naučnoj sesiji "Pre-trained Large Language Models" u okviru internacionalne konferencije "ICIST 2024" naš tim je prezentovao rad pod naslovom "Enhancing Sentiment Analysis in Product Reviews: Fine-Tuning BERT for Class Imbalance and Optimal Sequence Representation", a u utorak, 11. marta, u naučnoj sesiji "Veštačka inteligencija i mašinsko učenje" u okviru nacionalne konferencije "YU INFO 2024", prezentovan je rad pod naslovom "Otkrivanje govora mržnje vođeno veštačkom inteligencijom". Oba naučna rada nastala su kao rezultat našeg projekta u prva dva meseca našeg istraživanja.

Prvi sastanak projektnog tima

10.1.2024.

U prostorijama Elektrotehničkog fakulteta, tim projekta STOP održao je inicijalni sastanak u sredu, 10. januara 2024. godine. Rukovodilac projekta podelio je zadatke članovima za prvih mesec dana projekta i prikazao pregled polugodišnjih ciljeva.



Informacije o projektu

Akronim: STOP

Rezultat saradnje istraživača biće novi softverski sistem koji će detektovati govor mržnje na srpskom jeziku i koji će biti od velikog značaja u sprečavanju digitalnog nasilja u Srbiji.

Period: jan. 2024 - dec. 2025 | Budžet: 140,000.00 €

Problem istraživanja kojim se bavi ovaj projekat je otkrivanje govora mržnje u tekstovima na srpskom jeziku na internetu. Otkrivanje i smanjenje govora mržnje je ključno za bezbednost i dobrobit pojedinaca, jer inače može dovesti do štete i tragedija u stvarnom svetu. Tradicionalne metode ručnog praćenja sadržaja na mreži oduzimaju mnogo vremena, skupe su i neefikasne u radu sa ogromnom količinom sadržaja koji generiše korisnik. Stoga postoji potreba za automatizovanim alatima koji mogu efikasno otkriti i sprečiti govor mržnje, koji čine primarne ciljeve ovog projekta. Ovaj projekat takođe predstavlja značajnu prekretnicu kao prva inicijativa za razvoj modela detekcije govora mržnje dizajniranih isključivo za srpski jezik.

Uticaj ovog projekta je izuzetan. Softver štiti pojedince od onlajn zlostavljanja i nasilja otkrivanjem i sprečavanjem govora mržnje. Rezultati istraživanja projekta, uključujući razvijeni skup podataka, NLP modele i softverski sistem, mogu unaprediti oblast detekcije govora mržnje na srpskom jeziku i uticati na različite sektore, uključujući zdravstvo, obrazovanje, nauku i industriju.

Članovi tima

Tim čine istraživači sa Elektrotehničkog fakulteta Univerziteta u Beogradu


Prof. dr Dražen Drašković

Rukovodilac projekta

Doc. dr Vladimir Jocović

Član projektnog tima

Marko Mićović, master inž. el. i rač.

Član projektnog tima

As. dr Uroš Radenković

Član projektnog tima

Jelica Cincović, master inž. el. i rač.

Član projektnog tima

Adrian Milaković, master inž. el. i rač.

Član projektnog tima

Resursi

Ovde će biti prikazani resursi koji će biti objavljeni tokom trajanja projekta.

Resurs D2.1. - Korpus ružnih i pogrdnih reči u srpskom jeziku

objavljen 4.4.2024.

Ovaj rezultat sadrži:

  • Rečnik pogrdnih naziva po kategorijama (D2.1a)
  • Rečnik narodnih pogrdnih izraza (D2.1b)

Objavljeni radovi

U ovoj sekciji biće objavljivani radovi sa konferencija i iz naučnih časopisa.

  • D.Drašković et al., "Otkrivanje govora mržnje vođeno veštačkom inteligencijom"

    D.Drašković, V.Jocović, A.Milaković, M.Mićović, U.Radenković, J.Cincović, "Otkrivanje govora mržnje vođeno veštačkom inteligencijom", Zbornik radova 30. IKT konferencije "YU INFO 2024", Kopaonik, March 2024
    Link: **Zbornik u produkciji!**
    Apstrakt: „Govor mržnje“ predstavlja sve što vređa pojedinca, populaciju ili pojavu na bilo kojoj osnovi, što može da bude seksualna orijentacija, pripadnost nekoj religiji, nacionalnost, rasa, pripadnost određenoj grupi, izrećeni neki stavovi ili slično. U ovom radu dat je pregled glavnih modela za detekciju govora mržnje koji su realizovani različitim tehnikama veštačke inteligencije, i prikazano je šta će biti tematika projekta našeg istraživačkog tima.

  • M.Dodović, M.Ogrizović, D.Miladinović, D.Drašković, "Enhancing Sentiment Analysis in Product Reviews: Fine-Tuning BERT for Class Imbalance and Optimal Sequence Representation", Springer's Lecture Notes in Networks and Systems, with title Disruptive Information Technologies for a Smart Society (in publication), Kopaonik, March 2024
    Link: **Proceedings in production!**
    Apstrakt: Sentiment analysis, a pivotal aspect of NLP (Natural Language Processing), of-fers profound insights into the public sentiment from vast swathes of unstruc-tured textual data. This paper presents an empirical investigation into the applica-bility and effectiveness of the BERT (Bidirectional Encoder Representations from Transformers) algorithm for sentiment analysis, particularly focused on product reviews. The research delves into the nuances of consumer language expressions and evaluates the capacity of BERT to accurately classify sentiment in a large-scale dataset of food product reviews. The results achieved through this research are significant, with the fine-tuned BERT model demonstrating high accuracies, indicating its robustness and suitability for the sentiment classification task. In addressing the challenges posed by the varying lengths of consumer reviews, this study offers a methodological analysis for selecting the optimal max_seq_length parameter within BERT’s framework. A critical balance is achieved between computational efficiency and the comprehensive inclusion of informative content within the reviews. Furthermore, the paper confronts the prevalent issue of class imbalance in sentiment analysis datasets by employing a weighted loss function during the training of BERT. This technique ensures equi-table representation and consideration of all sentiment classes, enhancing the model's accuracy and fairness.

  • J.Cincović, U.Radenković, M.Mićović, A.Milaković, V.Jocović, D.Drašković, "Applied Artificial Intelligence in Detection Hate Speech", Springer's Lecture Notes (in publication), Kragujevac, May 2024
    Link: **Springer's Lecture Notes in production!**
    Apstrakt: Book of Abstracts of the Third Serbian International Conference on Applied Artificial Intelligence [editor: Nenad Filipović] (ISBN: 978-86-81037-79-9)

  • D.Drašković, M.Ogrizović, M.Dodović, M.Obradović, "Data analysis techniques and detection of propaganda in Serbian online media in 2023", Springer's Lecture Notes (in publication), Kragujevac, May 2024
    Link: **Springer's Lecture Notes in production!**
    Apstrakt: Book of Abstracts of the Third Serbian International Conference on Applied Artificial Intelligence [editor: Nenad Filipović] (ISBN: 978-86-81037-79-9)

  • Hrvačević Luka, Cincović Jelica, Milaković Adrian, Jocović Vladimir, Matvejev Valerijan, Drašković Dražen, "Development of a web system with an automated question generator based on large language models," 2024 11th International Conference on Electrical, Electronic and Computing Engineering (IcETRAN), Niš, Serbia, 2024. (DOI number assignment in progress!)
    Link: **IEEExplore**

Kontaktirajte nas

Adresa:

Beograd 11000, Bulevar kralja Aleksandra 73

Loading
Vaša poruka je poslata. Hvala!