Automatinio semantinio anotavimo technologija lietuvių kalbai taikant anaforų analizės algoritmus (ASAT)

 

Projekto nr.: PP41/1505

Projekto aprašymas:

Kompiuterinis natūralios kalbos supratimas yra svarbi tyrimų sritis, kuri leidžia išgauti semantiką iš didelės apimties tekstų, juos analizuoti ir atsakyti į įvairius su kalba ir jos semantika susijusius klausimus. Kasdien augantys ir nuolat kintantys nestruktūrizuotos tekstinės informacijos srautai ir jų sudėtingumas reikalauja taikyti ontologijomis grindžiamus metodus, leidžiančius vykdyti jų analizę ir paiešką, atlikti išvedimą ir išgauti prasmingas žinias, aktualias įvairioms veiklos sritims. Šie tyrimai susiję su didelės apimties duomenų valdymo ir analizės (taip vadinamų Big Data) sritimi, kuri pastaruoju metu tapo ypač aktuali. Todėl šio projekto tikslas yra padidinti automatinio semantinio anotavimo galimybes didelės apimties lietuvių kalbos tekstynuose tam sukuriant lietuvių kalbai pritaikytus anaforų nustatymo algoritmus. Tam reikia giliau išanalizuoti lietuvių kalbos anaforų ir ko-referencijų ypatumus ir nustatyti galimybes pritaikyti esamus metodus ir išteklius, tam naudojamus anglų ir kitose plačiai paplitusiose kalbose bei specialių taisyklų ir algoritmų poreikius lietuvių kalbai; sukurti modelius ir algoritmus lietuvių kalbos anaforų sprendimams, tinkamiems taikyti semantiniam anotavimui; realizuoti prototipą, leidžiantį vykdyti lietuvių kalbos anaforų automatinio sprendimo algoritmus ir panaudoti juos semantinio anotavimo įrankyje; atlikti eksperimentą prototipo tinkamumui įvertinti pagal tikslumo (angl. precision), išsamumo (angl. recall) ir subalansuoto F-mato kriterijus.

Projekto finansavimas:

KTU MTEPI fondas

Projekto įgyvendinimo laikotarpis: 2015-04-03 - 2015-12-31

Vadovas:
Linas Ablonskis

Trukmė:
2015 - 2015

Padalinys:
Informacinių sistemų projektavimo technologijų centras, Informatikos fakultetas