Roric-Ling Ce Este WordNet

Ce este WordNet

Una dintre cele mai utile reprezentari ale cunostintelor lexicale este cea sub forma de retea semantica. O retea semantica este un graf orientat ale carui arce leaga varfuri etichetate. Varfurile sau nodurile grafului reprezinta sensuri ale cuvintelor sau clase abstracte de sensuri, in timp ce arcele reprezinta legaturi stabilite intre aceste sensuri. Astfel de legaturi semantice pot fi de diverse tipuri, cum ar fi cele de natura subtip sau cele de tip parte din (sau parte a), in care obiectele sunt puse in legatura cu partile lor componente. Exista numeroase astfel de ierarhii de tipuri, asupra carora se va reveni in cele ce urmeaza.

Avantajele oferite de retelele semantice in reprezentarea cunostintelor lexicale sunt multiple. Printre acestea remarcam faptul ca retelele semantice usureaza constructia lexiconului, permitand mostenirea proprietatilor. In acelasi timp, ele furnizeaza o multime foarte bogata de legaturi intre sensurile cuvintelor, ceea ce faciliteaza dezambiguizarea. Aceasta din urma este, de regula, realizata printr-o reprezentare ierarhica a sensurilor cuvintelor, cel mai adesea captata prin intermediul retelelor semantice. Folosindu-se astfel de ierarhii pot fi definite restrictii selectionale si pot fi utilizate aceste constrangeri pentru a se reduce numarul de sensuri posibile ale unui cuvant. Un exemplu celebru de retea semantica este WordNet, datorita careia procesarea cunostintelor (in limba engleza) a dobandit noi dimensiuni.

WordNet ca baza de cunostinte si ca retea semantica

WordNet reprezinta in primul rand o baza de date lexicala interactiva, dezvoltata în ultimii 15 ani, pentru limba engleza, la Universitatea Princeton, de catre un grup de cercetatori condus de profesorul George Miller. In acelasi timp, WordNet poate fi privita ca un dictionar semantic, deoarece cuvintele sunt localizate pe baza afinitatilor conceptuale cu alte cuvinte, spre deosebire de cazul dictionarelor clasice, unde cuvintele sunt ordonate alfabetic. Desi este similara unui tezaur, WordNet este mult mai utila aplicatiilor inteligentei artificiale, intrucat este inzestrata cu o bogata multime de relatii intre cuvinte si sensuri ale cuvintelor. WordNet contine majoritatea substantivelor, verbelor, adjectivelor si adverbelor limbii engleze, organizate în multimi de sinonime numite synset-uri. Fiecare synset reprezinta un concept. Prin urmare, spre deosebire de dictionarele alfabetice standard, care organizeaza vocabularul folosind similaritati morfologice, WordNet structureaza informatia lexicala in termeni de sensuri ale cuvintelor. WordNet face corespondenta dintre formele tip ale cuvintelor si sensurile acestora utilizand categoria lexico-gramaticala (clasa morfologica) ca parametru. Astfel, cuvintele apartinand aceleiasi categorii lexico-gramaticala care pot fi folosite pentru a exprima acelasi inteles sunt grupate intr-un acelasi synset. Cuvintele polisemantice apartin mai multor synset-uri. Spre exemplu, cuvantul englezesc computer are doua sensuri definite in WordNet, ceea ce face ca el sa apartina la doua synset-uri diferite, dupa cum urmeaza:

{computer, data processor, electronic computer, information processing system}

{calculator, reckoner, figurer, estimator, computer}

In versiunea sa curenta (versiunea 1.6), WordNet contine 129509 cuvinte organizate in 99643 synset-uri, reteaua utilizand un numar de 229152 noduri. Cuvintele si conceptele sunt legate intre ele prin relatii semantice. Exista in total 299711 asemenea relatii. Toate aceste numere sunt insa aproximative, intrucat WordNet continua sa creasca. Versiunea 1.7 este acum accesibila, in egala masura, la adresa:

http://www.cogsci.princeton.edu/~wn/obtain/

Relatiile semantice se stabilesc intre cuvinte, intre cuvinte si synset-uri, precum si intre synset-uri. Fiecare cuvant tinteste catre unul sau mai multe synset-uri, fiecare dintre acestea corespunzand unui anumit sens al cuvantului respectiv. Prin urmare, diferite cuvinte pot tinti catre un acelasi sens (synset). Bogatia multimii de relatii stabilite intre synset-uri este ceea ce face ca reteaua semantica WordNet sa fie atat de puternica si de interesanta pentru diverse tipuri de aplicatii. Exemple de relatii semantice existente in WordNet sunt sinonimia (synonymy), folosita pentru a forma synset-urile, hiperonimia (hypernymy) si hiponimia (hyponymy), corespunzand relatiei de tip isa si respectiv relatiei inverse (reverse isa), meronimia (meronymy), corespunzand relatiei parte-din, relatia cauzala referitoare la verbe si altele. O importanta deosebita este atasata relatiilor de hiperonimie si de hiponimie ca relatii intre synset-uri.

Cu ajutorul relatiei de hiperonimie (sau de tip isa) conceptele de substantiv si de verb sunt structurate sub forma de ierarhii. Cele de adjectiv si de adverb au o structura diferita (cluster). In WordNet exista 11 ierarhii substantivale si 512 ierarhii verbale. Semantica relatiei de tip isa permite unui concept sa mosteneasca toate proprietatile hiperonimelor sale. In plus, proprietatile tipice ale unui concept sunt enuntate sub forma de glosa atasata fiecarui concept in parte. Fiecare glosa include o definitie, una sau mai multe explicatii suplimentare si unul sau mai multe exemple.

WordNet reprezinta o baza de date lexicala a limbii engleze care a fost adoptata pe scara larga pentru o intreaga varietate de aplicatii practice atat din domeniul inteligentei artificiale, cat si din cel al procesarii limbajului natural. Multi cercetatori care utilizeaza WordNet, in special in domeniul inteligentei artificiale, considera ca aceasta reprezinta o baza de cunostinte lexicala si o valorifica ca atare. Procesarea cunostintelor a dobandit noi dimensiuni în S.U.A. datorita existentei WordNet. In acelasi timp, comunitatea stiintifica internationala se arata extrem de interesata de dezvoltarea unor baze de date lexicale de tip WordNet pentru cat mai multe limbi, in incercarea de a crea o infrastructura ontologica uniforma. Astfel, intrucat multimea de baza a relatiilor care leaga intre ele conceptele ramane aceeasi, indiferent de limba, algoritmii de inferenta pentru extragerea informatiei pot ramane aceiasi. Posibilele aplicatii ale WordNet in cele mai variate domenii (regasirea informatiei, extragerea informatiei, dezambiguizarea, generarea limbajului natural, invatarea, dictionarele electronice, achizitia de cunostinte s.a.) sunt citate in peste 300 de lucrari stiintifice. In ultimii ani a aparut si interesul pentru efectuarea de inferenta statistica pe baza WordNet.

Este de mentionat faptul ca, la mijlocul anilor '90, datorita multiplelor aplicatii dezvoltate pe baza WordNet, a fost puternic resimtita nevoia de a se crea baze de date asemanatoare si pentru alte limbi, in special pentru cele europene. Un imens efort stiintific si financiar a fost lansat în Europa Occidentala, pentru a se crea asa-numita EuroWordNet, utilizand varianta americana WordNet ca model. Acest efort stiintific s-a concretizat in anul 1996, in cadrul proiectului de cercetare - dezvoltare "EuroWordNet", sub conducerea Universitatii din Amsterdam:

http://www.hum.uva.nl/~ewn/

In prezent exista cate o baza de date lexicala de tip WordNet pentru limbile daneza, italiana si spaniola (fiecare aflata in continua imbunatatire) si se lucreaza la unele similare pentru limbile germana, franceza si estoniana. Tot in prezent se pune problema crearii unor astfel de baze de date lexicale interactive pentru limbile din Europa Centrala si de Est, folosindu-se varianta WordNet a limbii engleze ca model si adaptand-o specificului fiecarei limbi in parte. Proiectul "BalkaNet", finantat de Comisia Europeana, se ocupa in prezent de aceste limbi:

http://www.ceid.upatras.gr/Balkanet

Eforturile cercetatorilor (informaticienilor) se concentreaza si asupra problemei generarii automate a unor baze de date de tip WordNet corespunzatoare diverselor limbi, generare care sa porneasca de la reteaua semantica WordNet a limbii engleze. In cazul limbii romane acest studiu a fost realizat, referitor la substantivele si adjectivele romanesti, de catre echipa RORIC-LING de la Universitatea din Bucuresti, in cadrul proiectului BALRIC-LING si este descris in pagina de web a acestui proiect.

IST-2000-26454