Buletinul RORIC-LING

lunile 7 - 12

 

Intrebari cu caracter general

Ati putea sa imi recomandati cateva publicatii relevante privitoare la WordNet?

Cei care nu sunt familiarizati cu WordNet ar trebui sa citeasca "Five Papers on WordNet", articole disponibile in format PostScript si Acrobat (PDF) pe web. Va rugam sa cautati la adresa
                                                           http://www.cogsci.princeton.edu/~wn/
sub "Publications".

Daca sunteti deja familiarizati cu WordNet, va recomandam cartea "WordNet: An Electronic Lexical Database", care este acum disponibila la MIT Press. Cartea include articole care descriu arhitectura si continutul WordNet (o actualizare la "Five Papers on WordNet", precum si articole despre cercetarile efectuate pe baza WordNet in domeniile lingvisticii, regasirii informatiei, dezambiguizarii sensului cuvintelor, construirii concordantei semantice, analizei textelor si ingineriei limbajului). Atat cartea, cat si CD-ul aferent pot fi cumparate direct de la MIT Press.

Unde pot gasi documentatie XML profesionala in limba romana?

Nu cunoastem nimic referitor la existenta pe web a documentatiei XML gratuite in limba romana. Va recomandam insa o carte foarte buna, tradusa in limba romana:

Lee Anne Phillips, XML. Editura Teora, 2001

Am facut download la pachetul WordNet pentru PC-uri, dar nu stiu sa il instalez. Ma puteti ajuta, va rog?

Ar fi trebuit sa executati download-ul unui fisier numit "wn16pc.exe". Daca download-ul s-a facut in mod corect, atunci ar trebui sa fie suficienta executia unui dublu-clic pe acest fisier pentru ca el sa se autoextraga. Dupa aceea trebuie sa urmati instructiunile incluse in fisierul INSTALL.txt, pentru a instala efectiv pachetul WordNet.

De unde pot obtine manuale de WordNet?

Va rugam sa va uitati la adresa
                                          http://www.cogsci.princeton.edu/~wn/doc.shtml
Ar trebui sa gasiti acolo o lista de manuale referitoare la WordNet, disponibile online.

Care ar fi cateva proiecte mai importante legate de WordNet?

Iata cateva proiecte legate de WordNet:

Informatii suplimentare referitoare la aceste proiecte pot fi gasite la adresa
                                           http://www.cogsci.princeton.edu/~wn/links.shtml

Ce este "Global WordNet Association"?

"Global WordNet Association" este o organizatie publica, necomerciala si cu acces gratuit , care furnizeaza o platforma pentru discutii, precum si pentru distribuirea si conectarea bazelor de date de tip WordNet corespunzatoare tuturor limbilor din lume.

 

Intrebari referitoare la programul GenSynsets

Va rugam sa explicati de ce output-ul final este generat in format XML.

In acest caz formatul XML faciliteaza prezentarea pe web a rezultatelor programului si permite accesul mai rapid la informatii. XML (the Extensible Markup Language) a fost mai intai ratificat de catre consortiul W3C (World Wide Web Consortium) ca reprezentand standardul pentru schimbul de informatie pe Internet in februarie 1998. XML specifica o modalitate riguroasa, bazata pe text de a reprezenta structura intrinseca a datelor astfel incat aceasta sa poata fi interpretata in mod neambiguu.

Care este setul de caractere implicit folosit de program (atunci cand parametrul CS nu este specificat in linia de comanda)?

Setul de caractere implicit folosit de program (atunci cand parametrul CS nu este specificat in linia de comanda) este iso-8859-1.

Cum realizati (ce instructiuni Java sunt folosite) operatiile de tip I/O asupra fisierelor si cum se fac citirea/scrierea datelor in diverse limbi?

Operatiile de tip I/O asupra fisierelor care permit lucrul cu date in diverse limbi (codificate cu diverse seturi de caractere) au fost scrise cu utilizarea specificatiilor Java InputStreamReader, BufferedReader, precum si OutputStreamWriter si respectiv BufferedWriter.

Ce functii pentru lucrul cu siruri de caracter sunt utilizate in program?

Programul foloseste atat functii Java pentru lucrul cu siruri de caractere, precum si metode definite de utilizator pentru separarea liniilor de text citite din dictionare si pentru extragerea subsirurilor cu semnificatie relativa la algoritm (cum ar fi traducerile cuvintelor.)

Ce clase Java sunt definite in program si ce contin acestea?

Programul defineste o singura clasa, GenSynsets, ce cuprinde toate variabilele si metodele necesare implementarii algoritmilor pe care se bazeaza. Dintre metodele definite mentionam pe cele referitoare la operatii I/O cu fisierele dictionarelor, de etichetare a e-set-urilor generate, metoda ce implementeaza strategia de tip backtracking, operatii cu siruri de caractere, sortare etc.

Care este modalitatea pe care se bazeaza, in program, aflarea glosei unui synset englezesc?

Gasirea glosei unui synset se face utilizand metoda getGloss() din clasa Synset.

Cum sunt determinate (in program) synset-urile finale corespunzatoare limbii straine alese? (pusa de doua ori)

Pentru determinarea synset-urilor finale (corespunzatoare limbii straine alese), programul combina e-set-urile etichetate cu valoarea maxima pentru fiecare eword tradus, eliminand duplicatele. Aceasta combinare este implementata printr-o metoda de tip backtracking.

Cum trateaza programul cazul in care exista cuvinte ale unui synset, dat prin offset-ul sau, care nu au intrari corespunzatoare in dictionarul English-Foreign (Language)? (pusa de doua ori)

In situatia respectiva sunt utilizate numai cuvintele din synset-uri pentru care exista traducere (au intrari corespunzatoare in dictionarul English-Foreign (Language)).

Ce tehnici de programare sunt utilizate in program? (pusa de doua ori)

Dintre tehnicile de programare folosite trebuie remarcata metoda bactracking, prin intermediul careia sunt generate fsynset-urile, pornind de la e-set-uri, cu eliminarea duplicatelor.

Sunt folosite rezultate ale unor proiecte anterioare de WordNet implementate in Java? (pusa de doua ori)

Programul GenSynsets foloseste rezultatele obtinute in cadrul proiectului JWordNet. JWordNet reprezinta o interfata de sine statatoare, orientata obiect, scrisa in Java, ce implementeaza diversele entitati lexicale si semantice din WordNet. Ea este gandita pentru programatorii Java care doresc sa scrie aplicatii Java portabile, care folosesc WordNet-ul si utilizeaza o copie locala a fisierelor acestuia, sau pentru aceia care considera interfata 'object-oriented' JWordNet preferabila interfetei procedurale existente, scrisa in limbajul 'C'. JWordNet contine clasa de tip generator, DictionaryDatabase, clasele de entitati, IndexWord, Synset, Word si Pointer, precum si clasele de tip enumerare, POS si PointerType.

Cum realizeaza programul parcurgerea tuturor synset-urilor din WordNet-ul englezesc? (pusa de doua ori)

In acest caz, parcurgerea tuturor synset-urilor din WordNet se realizeaza pe baza unei enumerari si a metodei synsets apartinand clasei DictionaryDatabase (JwordNet).

In ce mod se determina in program cuvintele unui synset precizat prin offset-ul sau? (pusa de doua ori)

In cazul executiei programului pe baza unei liste de synset-uri (date prin offset-urile acestora) se transmit metodei doua argumente: POS (part of speech) si offset-ul unui synset. Gasirea synset-urilor din WordNet-ul englezesc se face pe baza metodei getSynsetAt() ce apartine clasei FileBackedDictionary (JWordNet).

 

Intrebari cu privire la implementarea RORIC-LING a algoritmilor referitori la WN

De ce nu exista nici un fel de numere in codificarea realizata de dvs. pentru cluster-ele de adjective romanesti? (pusa de doua ori)

Deoarece, pentru simplitate, in cadrul acestui demo am lucrat cu synset-uri curatate si combinate (a se vedea materialul explicativ de pe web). In cadrul unei asemenea implementari am renuntat la o serie de parametri, cum ar fi numarul sensului. Algoritmul existent poate fi usor modificat astfel incat sa poata lucra cu synset-uri in care acest parametru exista si pentru a-l putea lua in consideratie. De asemenea, trebuie avut in vedere faptul ca, pentru a putea genera intr-o limba straina cluster-e de adjective de tip WordNet in intregime codificate, trebuie mai intai obtinute toate synset-urile de adjective din acea limba. Numai in acest fel pot fi vazute toate sensurile unui anumit adjectiv, existente in limba tinta. Acest lucru nu a fost inca realizat pentru limba romana, datorita dictionarelor bilingve in format electronic incomplete. Pe de alta parte, noi nu am urmarit generarea unor cluster-e de adjective identice cu cele din WordNet-ul american, ci numai generarea unor synset-uri si cluster-e de adjective "de tip WN". Programele existente pot fi insa usor modificate pentru a genera exact aceeasi forma a cluster-elor de adjective existenta in WordNet.

Dupa cum se stie, multe adjective sunt limitate la pozitiile sintactice pe care le pot ocupa. Este aceasta limitare codificata in WN si cum? Ati realizat aceasta codificare in propria dumneavoastra implementare? ( pusa de doua ori)

Asa cum s-a mentionat deja, multe adjective sunt limitate la pozitiile sintactice pe care le pot ocupa, iar aceasta limitare este de obicei codificata in WordNet. Intrucat aceasta este o limitare care se refera la forma cuvantului, ea este codificata pentru adjective individuale si nu pentru intregi synset-uri. Considerati, spre exemplu, cluster-ul awake/asleep, avand ambele adjective limitate la pozitia de predicat. Desi acestea sunt cuvintele-cap ale cluster-ului, limitarea respectiva nu este valabila pentru toate sinonimele din cluster. De aceea, cuvintele individuale limitate in acest fel sunt toate codificate cu (p). In cazul adjectivelor limitate la pozitii de atribut codul este (a). In fine, pentru cele cateva adjective care pot sa apara numai imediat dupa un substantiv, codul este (ip), de la "postnominal imediat" ("immediately postnominal"). Aceasta codificare nu a fost inca implementata pentru cluster-ele de adjective romanesti.

De ce nu discutati, in egala masura, verbele in WordNet, in cadrul acestui proiect?

Pentru ca aceasta nu este o discutie exhaustiva cu privire la WordNet si/sau generarea automata a unor baze de date de tip WordNet pentru alte limbi decat engleza. Am ales sa discutam cele doua structuri de baza din WordNet - ierarhia si cluster-ul - pentru care am studiat substantivele si adjectivele in WordNet. Pentru o discutie detaliata cu privire la toate chestiunile legate de traducerea WordNet, vezi proiectul BALKANET, la adresa
                                                                                                                                                                                                http://www.ceid.upatras.gr/Balkanet

Puteti mentiona unele dintre dificultatile intalnite atunci cand ati implementat algoritmii descrisi in cazul propriei limbi - romana? (pusa de trei ori)

Principalele dificultati care au intervenit in traducerea automata a synset-urilor englezesti in synset-uri romanesti au fost generate de asa-numitii falsi prieteni, de colocatii, de calc, precum si de faptul ca polisemia multor cuvinte englezesti este superioara celei a cuvintelor romanesti corespunzatoare. Pentru explicatii detaliate privitoare la toate aceste probleme, va recomandam sa cititi comentariile lingvistice existente in pagina web a proiectului.

 

Intrebari generale referitoare la WordNet

Ce este asa-numita "matrice lexicala" in WordNet?

Matricea lexicala este o matrice in care formele tip ale cuvintelor sunt imaginate ca reprezentand capetele coloanelor; sensurile cuvintelor reprezinta capete de linii. O intrare intr-o celula a matricii implica faptul ca forma din acea coloana poate fi folosita (intr-un context adecvat) pentru a exprima sensul corespunzator acelei linii. Daca exista doua intrari in aceeasi coloana, cuvantul este polisemantic; daca exista doua intrari in aceeasi linie, atunci cele doua cuvinte sunt sinonime (relativ la un context). Pentru mai multe informatii asupra acestui subiect va recomandam sa consultati "Five Papers on WordNet", articole disponibile pe web in format PostScript si Acrobat (PDF). Va rugam sa cautati la adresa
                                                                 http://www.cogsci.princeton.edu/~wn/

Face WordNet distinctia intre relatii semantice si relatii lexicale?

WordNet face distinctia intre relatii semantice si relatii lexicale. Accentul in WN se pune pe relatii semantice, dar sunt incluse si unele relatii lexicale. Totusi, reteaua WN este organizata in conformitate cu relatii semantice, care sunt indicate prin pointeri.

De unde credeti ca a aparut necesitatea de a se face, in WordNet, partitionarea in substantive, verbe, adjective si adverbe?

Sinonimia este relatia centrala in WordNet. Definirea sinonimiei in termeni de substituibilitate face necesara partitionarea WN in substantive, verbe, adjective si adverbe.

Asa cum se remarca in "Five Papers on WordNet", "daca conceptele sunt reprezentate prin synset-uri si daca sinonimele trebuie sa fie interschimbabile, atunci cuvinte apartinand unor categorii sintactice diferite nu pot fi sinonime (nu pot forma synset-uri) deoarece nu sunt interschimbabile. Substantivele exprima concepte nominale, verbele exprima concepte verbale si elementele modificatoare furnizeaza modalitati de a califica aceste concepte. Cu alte cuvinte, folosirea synset-urilor pentru reprezentarea intelesurilor cuvintelor este consistenta cu probele psiholingvistice referitoare la faptul ca substantivele, verbele si elementele modificatoare sunt organizate in mod independent in memoria semantica."

Sinonimia si antonimia sunt relatii lexicale intre forme ale cuvintelor. Dar hiponimia si hiperonimia?

Spre deosebire de sinonimie si antonimie, care sunt relatii lexicale, hiponimia/hiperonimia (numite, de asemenea, subordonare / supraordonare, submultime/supramultime sau relatia ISA) este o relatie semantica intre intelesuri ale cuvintelor.

Hiponimia este tranzitiva si asimetrica (Lyons, 1977, vol.1) si, intrucat, de regula, exista un singur supraordonat, ea genereaza o structura semantica ierarhica, in care se spune despre un hiponim ca este dedesubtul elementului sau supraordonat. Astfel de reprezentari ierarhice sunt folosite pe scara larga in constructia sistemelor de regasire a informatiei, unde se numesc sisteme bazate pe mostenire (Touretzky, 1986): un hiponim mosteneste toate trasaturile conceptului generic si adauga cel putin o caracteristica care il distinge de elementul sau supraordonat si de orice alte hiponime ale acelui supraordonat. Aceasta conventie furnizeaza principiul central de organizare a substantivelor in WN.

Va rog sa imi explicati pe scurt relatia de meronimie si sa indicati unde este ea prezenta in WordNet.

Una dintre relatiile semantice din WordNet este relatia parte - intreg (sau relatia HASA), cunoscuta specialistilor ca meronimie / holonimie. Relatia meronimica este tranzitiva (cu calificari) si asimetrica (Cruse, 1986). Ea poate fi utilizata pentru a construi o ierarhie de parti (cu unele rezerve, intrucat un meronim poate avea multe holonime). Se presupune ca asa-numitul concept de "parte a unui intreg" poate fi parte a unui concept al intregului, desi se recunoaste faptul ca implicatiile acestei presupuneri merita o discutie mai atenta decat cea care le este rezervata in acest cadru de lucru. Meronimia este prezenta in WN in organizarea synset-urilor de substantive.

Exista in WordNet si relatii morfologice?

Asa cum se mentioneaza in "Five Papers on WordNet", "o clasa importanta de relatii lexicale o constituie relatiile morfologice dintre formele flexionare ale cuvintelor. Initial, interesul a fost limitat la relatii semantice; nu au fost facute planuri pentru includerea in WN a relatiilor morfologice. Pe masura ce lucrurile au progresat insa, a devenit din ce in ce mai evident faptul ca, daca WordNet avea sa fie utila cuiva din punct de vedere practic, ea va trebui sa trateze si morfologia flexionara. Spre exemplu, daca cineva avea sa plaseze cursorul pe cuvantul trees si sa ceara informatii, WordNet nu trebuia sa raspunda ca acest cuvant nu se afla in baza de date. Era necesar un program care sa elimine sufixul de plural si care apoi sa caute tree, care in mod sigur exista in baza de date. Aceasta cerinta a condus la dezvoltarea unui program care sa se ocupe de morfologia flexionara."

Care este principala diferenta intre o definitie standard dintr-un dictionar obisnuit si o definitie din WordNet, referitoare la substantive, spre exemplu?

Definitia standard "tinteste" in sus, spre un termen supraordonat, nu lateral, inspre termeni aflati in relatie de coordonare sau in jos, catre hiponime. Spre exemplu, definitia cuvantului tree in dictionarele standard trimite la termenul supraordonat planta, dar nu contine nici o informatie despre termeni coordonati. O definitie dintr-un dictionar standard subliniaza cateva deosebiri importante si ii reaminteste cititorului de ceva presupus deja cunoscut; destinatia ei nu este aceea de a reprezenta un catalog de cunostinte generale.

Ce imi puteti spune despre relatia semantica numita relatie de tip ISA si despre implementarea ei referitor la substantive in WordNet?

Relatia semantica care este reprezentata in WordNet prin '@->' a fost numita relatia ISA sau relatie hiperonimica sau supraordonata (intrucat trimite la un hiperonim sau termen supraordonat). Ea se deplaseaza de la specific la generic si, prin urmare, reprezinta o generalizare. Relatia semantica inversa '~->' merge de la generic la specific (de la supraordonat la hiponim) si, prin urmare, reprezinta o specializare.

Asa cum se observa in "Five Papers on WordNet", "intrucat un substantiv, de regula, are un singur element supraordonat, dictionarele standard il includ pe acesta in definitie; intrucat un substantiv poate avea multe hiponime, dictionarele englezesti nu indica lista acestora (dictionarul frantuzesc "Le Grand Robert" reprezinta o exceptie). Chiar daca relatia de specializare nu este facuta explicita in dictionarele standard ale limbii engleze, ea este un derivat logic al relatiei de generalizare. In WordNet lexicografii codifica relatia de generalizare '@->' in mod explicit, printr-un pointer etichetat intre concepte lexicale sau sensuri. Atunci cand fisierele lexicografilor sunt convertite in mod automat in baza de date lexicala, un pas in acest proces este acela de a insera pointeri inversi corespunzator relatiei de specializare '~->'. Astfel, baza de date lexicala este o ierarhie in care se poate cauta in sus sau in jos cu viteze egale." Informaticienii numesc astfel de ierarhii "sisteme bazate pe mostenire", intrucat ei iau in consideratie faptul ca anumie entitati mostenesc proprietati de la elementele lor supraordonate generice. Toate proprietatile elementului supraordonat sunt presupuse a fi, in egala masura, proprietati ale celui subordonat. In loc de a afisa acele proprietati in mod redundant de doua ori, ele sunt mentionate numai impreuna cu elementul supraordonat. Un pointer de la elementul subordonat la cel supraordonat este interpretat ca spunand "pentru proprietati suplimentare, vezi aici".

Se spune ca WordNet este un sistem bazat pe mostenirea lexicala. Va rog sa imi dati un exemplu in cazul substantivelor si sa imi explicati implementarea corespunzatoare din WordNet.

WN este, intr-adevar, un sistem bazat pe mostenirea lexicala. In WN a fost depus un efort sistematic pentru conectarea hiponimelor cu elementele lor supraordonate (si vice versa). In WN, o intrare pentru cuvantul tree, spre exemplu, contine o referire sau pointer '@->' catre o intrare corespunzatoare lui planta. Pointerul este etichetat "supraordonat" prin intermediul simbolului arbitrar '@'. In baza de date, pointerul '@' catre supraordonatul planta va fi reflectat printr-un pointer invers '~' catre tree in interiorul synset-ului corespunzator lui planta. Acest pointer este etichetat ca hiponim, prin intermediul simbolului arbitrar '~'. Calculatorul este programat astfel incat sa poata folosi acesti pointeri etichetati pentru a construi informatia pe care utilizatorul o solicita la un moment dat. Simbolurile arbitrare '@' si '~' sunt suprimate atunci cand informatia ceruta este afisata. Synset-ul corespunzator lui tree ar arata cam asa:
                                                                                                 {tree,plant,@ conifer,~alder,~}
unde '' este "umplut" cu multi alti pointeri catre hiponime. Synset-ul corespunzator lui planta ar arata cam asa:
                                                                                                 {plant,flora,organism,@ tree,~}.

Exista argumente de natura psiholingvistica precum ca memoria lexicala umana referitoare la substantive este un sistem bazat pe mostenire?

Prima persoana care a pretins acest lucru in mod explicit pare a fi fost Quillian (1967, 1968). Testari experimentale ale propunerii lui Quillian au fost comunicate in cadrul unui referat de catre Collins si Quillian (1969). Ambii au presupus ca timpii de reactie pot fi folositi pentru a indica numarul de niveluri ierarhice care separa doua sensuri.

O concluzie reprezentand o alternativa - cea pe care se bazeaza WordNet - este aceea ca presupunerea de mostenire este corecta, dar ca timpii de reactie nu masoara ceea ce Collins si Quillian, ca si altii, au presupus. Este posibil ca timpii de reactie sa indice o distanta pragmatica, mai degraba decat una semantica - o diferenta in utilizarea cuvantului si nu una referitoare la sens (Miller si Charles, 1991).

Toate substantivele sunt incluse intr-o unica ierarhie in WordNet? (pusa de doua ori)

In WN substantivele sunt partitionate cu ajutorul unei multimi relativ mici de concepte generice care au fost selectate ca reprezentand fiecare elementul de inceput unic al unei ierarhii. Aceste ierarhii multiple corespund unor campuri semantice relativ distincte, fiecare avand propriul vocabular.

WN a adoptat urmatoarea multime de 25 de elemente de inceput unice:

                                                                      {act, action, activity}                                        {natural object}
                                                                      {animal, fauna}                                                  {natural phenomenon}
                                                                      {artifact}                                                             {person, human being}
                                                                      {attribute, property}                                         {plant, flora}
                                                                      {body, corpus}                                                  {possession}
                                                                      {cognition, knowledge}                                   {process}
                                                                      {communication}                                               {quantity, amount}
                                                                      {event, happening}                                           {relation}
                                                                      {feeling, emotion}                                              {shape}
                                                                      {food}                                                                  {state, condition}
                                                                      {group, collection}                                            {substance}
                                                                      {location, place}                                                 {time}
                                                                      {motive}

Cel mai important criteriu in alegerea acestor componente semantice primitive este acela ca, in mod colectiv, ele ar trebui sa furnizeze un loc fiecarui substantiv englezesc. Ierarhiile rezultate variaza mult in dimensiune si nu se exclud reciproc. In ansamblu insa ele acopar domenii lexicale si conceptuale distincte. Ele au fost selectate dupa ce s-au luat in consideratie combinatiile posibile de tip substantiv-adjectiv la care ne putem astepta sa intervina in limba engleza. (Aceasta analiza a fost efectuata de catre Philip N. Johnson-Laird).

Ce inseamna "concepte generice" cu referire la substantive in WordNet?

Se spune despre ierarhiile nominale din WN ca ele au un nivel, undeva la mijloc, unde sunt atasate majoritatea trasaturilor distinctive. Acesta este asa-numitul "nivel de baza", iar conceptele nominale de la acest nivel se numesc "categorii ale nivelului de baza" sau "concepte generice" (Berlin, Breedlove si Raven, 1966, 1973). Rosch (1975; Rosch, Mervis, Gray, Johnson si Boyes-Braem, 1976) au extins aceasta generalizare: pentru conceptele aflate la nivelul de baza, pot fi enuntate multe trasaturi caracteristice. Deasupra nivelului de baza, descrierile sunt concise si generale. Dedesubtul nivelului de baza, prea putin mai este adaugat caracteristicilor care deosebesc conceptele de baza.

Credeti ca este posibil sa se identifice sensuri alternative ale unui cuvant numai prin folosirea sinonimelor? Cum trateaza WordNet aceasta problema? (pusa de doua ori)

Asa cum se remarca in "Five Papers on WordNet", "pe masura ce acoperirea realizata de WN s-a largit, a devenit din ce in ce mai evident faptul ca sensuri alternative ale cuvintelor nu pot fi intotdeauna identificate prin folosirea sinonimelor. Mult mai tarziu, prin urmare, s-a decis includerea trasaturilor distinctive, in acelasi mod in care o fac dictionarele conventionale, prin includerea unor scurte glose explicative, ca o parte a synset-urilor continand cuvinte polisemantice. Acestea sunt marcate fata de restul synset-urilor prin paranteze".

Meronimele constituie caracteristici distinctive pe care hiponimele le mostenesc in WN?

Asa cum se remarca in "Five Papers on WordNet", "meronimele reprezinta caracteristici distinctive pe care hiponimele le pot mosteni. In consecinta, meronimia si hiponimia se intrepatrund in moduri complexe. Spre exemplu, daca beak si wing sunt meronime ale lui bird si daca canary este un hiponim al lui bird, atunci, prin mostenire, beak si wing trebuie, de asemenea, sa fie meronime ale lui canary".

Partile pot fi hiponime, cat si meronime? Daca da, va rog sa imi dati un exemplu din WordNet.

Conexiunile dintre meronimie si hiponimie sunt complicate de faptul ca partile sunt atat hiponime, cat si meronime. Exemplul care este dat in "Five Papers on WordNet" este synset-ul {beak, bill, neb}, care este un hiponim al lui {mouth, muzzle}, care, la randul sau, este un meronim al lui {face, countenance} si un hiponim al lui {orifice, opening}. O problema frecventa care apare in stabilirea relatiei adecvate dintre hiponimie si meronimie se naste dintr-o tendinta generala de a atasa caracteristici aflate prea sus in ierarhie. Spre exemplu, daca wheel este gandit ca un meronim al lui vehicle, atunci saniile vor mosteni roti pe care nu ar trebui sa le aiba. Intr-adevar, in WN a fost creat un synset special pentru conceptul {wheeled vehicle}.

In ce ierarhii din WordNet este cel mai adesea prezenta meronimia?

Meronimele au tendinta sa apara cel mai frecvent in legatura cu cuvinte care denota obiecte fizice. In WN meronimia este gasita in special in ierarhiile {body, corpus}, {artifact} si {quantity, amount}.

Este adevarat ca relatia "parte-din" este tranzitiva?

Relatia "parte-din" este adesea comparata cu relatia "un fel de": ambele sunt asimetrice si (cu unele rezerve) tranzitive si ambele pot face legatura dintre termeni in mod ierarhic (Miller si Johnson-Laird, 1976). Cu alte cuvinte, partile pot avea parti: un deget este o parte a unei maini, o mana este o parte a unui brat, un brat este o parte a unui corp: termenul finger (deget) este un meronim al termenului hand (mana), hand este un meronim al lui arm (brat), iar arm este un meronim al lui body (corp). Dar constructia "parte-din" nu reprezinta intotdeauna un test de incredere al meronimiei. In multe imprejurari, tranzitivitatea pare a fi limitata (Lyons, 1977).

Pentru mai multe informatii asupra acestui subiect va recomandam sa consultati "Five Papers on WordNet", articole disponibile pe web in format PostScript si Acrobat (PDF). Va rugam sa cautati la adresa
                                                           http://www.cogsci.princeton.edu/~wn/
sub "Publications".

Este adevarat ca exista diferite tipuri de relatii de tip "parte-din"? Care este situatia implementarii lor in WordNet?

Winston et al. (1987) diferentiaza sase tipuri de meronime: component-obiect (creanga/copac), membru-colectie (copac/padure), portie-masa (felie/tort), material-obiect (aluminiu/avion), caracteristica-activitate (a plati/a cumpara), precum si loc-zona (Princeton/New Jersey). Chaffin, Hermann si Winston (1988) adauga o a saptea: faza-proces (adolescenta/crestere). Meronimia este, in mod evident, o relatie semantica complexa - sau o multime de relatii. Numai trei dintre tipurile de meronimie sunt codificate in WN: "este o componenta parte a", "este membru al" si "este materialul din care este facut". Dintre acestea trei, cea mai frecventa este relatia pe care o putem numi "este o componenta a".

Exista relatia de antonimie si intre substantive? Daca da, cum este ea reprezentata in WordNet? (pusa de doua ori)

Asa cum se remarca in "Five Papers on WordNet", "opozitia semantica nu este o relatie fundamentala in organizarea substantivelor, dar ea exista si deci merita propria reprezentare in WordNet. Spre exemplu, synset-urile pentru man si woman ar contine:
                                                { [man, woman,!], person,@ (a male person) }
                                                { [woman, man,!], person,@ (a female person) }
unde relatia simetrica de antonimie este reprezentata prin pointerul '!', iar parantezele drepte indica faptul ca antonimia este o relatie lexicala intre cuvinte, mai degraba decat o relatie semantica intre concepte".

Care sunt principalele relatii semantice luate in consideratie in WordNet cu privire la substantive?

Principalele relatii semantice luate in consideratie in WordNet cu privire la substantive sunt hiponimia, meronimia si antonimia. Atunci cand toate aceste trei tipuri de relatii semantice sunt incluse, rezultatul este o retea de substantive extrem de interconectate.

Synset-urile de adjective din WordNet contin numai adjective?

Synset-urile de adjective din WordNet contin in majoritate adjective, dar au fost incluse si unele substantive si grupuri prepozitionale care functioneaza adesea ca elemente modificatoare. Discutia purtata in cadrul RORIC-LING se limiteaza la adjective.

Care sunt principalele clase de adjective care sunt luate in consideratie in WordNet?

WordNet imparte adjectivele in doua mari clase: descriptive si relationale. Adjectivele descriptive atribuie substantivului cap valori ale unor atribute tipic bipolare si, in consecinta, sunt organizate in termenii unor opozitii binare (antonimie) si ai similaritatii sensului (sinonimie). Adjectivele descriptive care nu au antonime directe sunt considerate a avea antonime indirecte datorita similaritatii lor semantice cu adjective care au antonime directe. WN contine pointeri intre adjective descriptive care exprima valoarea unui atribut si substantivul prin care acel atribut este lexicalizat. Adjectivele relationale sunt presupuse a reprezenta variante stilistice ale unor substantive cu rol modificator si deci sunt puse in legatura cu fisierele de substantive corespunzatoare. Adjectivele cromatice sunt tratate ca un caz special.

Ce inseamna, in mod exact, un adjectiv descriptiv?

Un adjectiv descriptiv este un adjectiv care atribuie o valoare a unui atribut unui substantiv. Cu alte cuvinte, a spune x este Adj inseamna a presupune ca exista un atribut A astfel incat A(x)=Adj. A spune "Pachetul este greu" inseamna a face presupunerea ca exista un atribut GREUTATE astfel incat GREUTATE(pachet) = greu. In mod similar, scund si inalt sunt valori pentru atributul INALTIME. WN contine pointeri intre adjective descriptive si synset-urile de substantive care se refera la atributele corespunzatoare.

Se aseamana prin ceva organizarea semantica a adjectivelor descriptive in WordNet cu aceea a substantivelor? (pusa de doua ori)

Organizarea semantica a adjectivelor descriptive este complet diferita de aceea a substantivelor. In cazul adjectivelor nu exista nici o relatie care sa genereze ierarhii nominale. Organizarea semantica a adjectivelor este privita in mod mult mai natural ca reprezentand un hiperspatiu abstract cu N dimensiuni si nu un arbore ierarhic.

Care este relatia semantica de baza dintre adjective in WordNet, cea de antonimie sau cea de similaritate? Cum este ea reprezentata in WordNet? (pusa de doua ori)

Relatia semantica de baza dintre adjective descriptive este antonimia. Importanta antonimei a devenit evidenta mai intai in urma rezultatelor obtinute pe baza testelor de asociere a cuvintelor. Importanta antonimiei in organizarea adjectivelor descriptive devine usor de inteles atunci cand se are in vedere faptul ca functia acestor adjective este aceea de a exprima valori ale atributelor si ca majoritatea atributelor sunt bipolare. Adjectivele antonimice exprima valori opuse ale unui atribut. Spre exemplu, antonimul lui heavy (greu) este light (usor), care exprima o valoare aflata la polul opus al atributului GREUTATE. In WN aceasta opozitie binara este reprezentata prin pointeri etichetati reciproci: heavy!->light si light!->heavy.

Poate fi relatia de antonimie atat de importanta avand in vedere faptul ca multe adjective descriptive nu au antonime? (pusa de doua ori)

Intrucat multe adjective descriptive nu au antonime, in WN a fost introdus un pointer de similaritate care este folosit pentru a indica faptul ca adjectivele care nu au antonime sunt similare ca sens cu adjective care au antonime. Gross, Fischer si Miller (1989) propun ca synset-urile de adjective sa fie privite ca niste cluster-e de adjective, asociate prin similaritate semantica cu un adjectiv central ce face legatura dintre cluster si un alt cluter, care prin contrast se afla la polul opus al atributului. Gross, Fischer si Miller fac distinctia intre antonimele directe, cum ar fi heavy/light (greu/usor) - care sunt perechi lexicale opuse conceptual - si antonimele indirecte, cum ar fi heavy/weightless (greu/fara greutate) - care sunt opuse conceptual fara a reprezenta perechi lexicale. In aceasta formulare, toate adjectivele descriptive au antonime; cele care nu poseda antonime directe au, in schimb, antonime indirecte, i.e. sunt sinonime ale unor adjective avand antonime directe.

Reprezinta organizarea adjectivelor in WordNet o garantie a faptului ca toate adjectivele descriptive au antonime? (pusa de doua ori)

Unele adjective descriptve nu au antonime directe. Totusi, in organizarea adjectivelor din WN, cele care nu au antonime directe sunt considerate a avea antonime indirecte, i.e. ele sunt sinonime ale unor adjective care poseda antonime directe. In aceasta formulare, toate adjectivele descriptive au antonime.

Cum sunt stabilite in WordNet antonimele indirecte?

In WN acele adjective care nu au antonime directe poseda, in schimb, antonime indirecte, i.e. sunt sinonime ale unor adjective avand antonime directe. Antonimele directe sunt reprezentate printr-un pointer de antonimie, '!->'; antonimele indirecte sunt mostenite prin similaritate, relatie indicata prin pointerul de similaritate '&->'.

Care este, pe scurt, modelul de baza prezentat de autorii WordNet cu privire la adjective?

Modelul de baza prezentat de autorii WordNet cu privire la adjective consta in partitionarea adjectivelor in doua mari tipuri, si anume cele descriptive (care intra in cluster-e bazate pe antonimie) si cele relationale (care sunt similare substantivelor utilizate ca modificatori). Fara a pretinde o acoperire completa, autorii WN au convingerea ca acest model acopera majoritatea adjectivelor existente in limba engleza.

Ce stiti despre relatia de gradualitate si cum a fost ea implementata in WordNet?

Conform lui Cliff (1959), un adjectiv cu grade de comparatie poate fi definit ca fiind un adjectiv a carui valoare poate fi multiplicata prin intermediul adverbelor de comparatie, cum ar fi foarte, oarecum etc. (in engl. very, decidedly, intensely, rather, quite, somewhat, pretty, extremely).

Gradarea (comparatia) mai trebuie sa fie privita si ca o relatie semantica care organizeaza memoria lexicala in cazul adjectivelor (Bierwisch, 1989). Pentru unele atribute ea poate fi exprimata prin intermediul sirurilor ordonate de adjective, toate adjectivele din sir "tintind" catre acelasi substantiv din WN care denota atributul.

Asa cum se remarca in "Five Papers on WordNet", "reprezentarea relatiilor ordonate prin pointeri etichetati intre synset-uri nu ar fi dificila, dar s-a estimat ca dintre cele peste 2500 cluster-e de adjective nu mai mult de 2% ar putea fi organizate in acest fel. Intrucat relatia de gradualitate, importanta din punct de vedere conceptual, nu joaca un rol central in organizarea adjectivelor, ea nu a fost codificata in WordNet".

Exista vreo legatura in WordNet intre substantivul exprimand un atribut si adjectivul exprimand valori ale acelui atribut? (pusa de doua ori)

Substantivul care denota atributul (de ex. LENGTH - lungime) si toate adjectivele exprimand valori ale acelui atribut (in acest caz long, short, lengthy etc.) sunt legate in WN printr-un pointer.

Cum sunt introduse in WordNet denumirile de culori?

In WN opozitia colored/colorless (colorat/incolor) este utilizata pentru a introduce denumirile culorilor. Nuantele sunt codificate in mod similar culorilor, iar nuantele de gri (de la alb la negru) sunt codificate ca similare lui gray (gri), care apartine unui cluster tripartit impreuna cu alb si negru, furnizand un continuu gradat.

Ce sunt adjectivele relationale?

Adjectivele relationale, care au fost discutate pe larg mai intai de catre Levi (1978), inseamna ceva precum "al, in legatura cu sau asociat cu" un anumit substantiv si joaca un rol asemanator cu cel al substantivelor avand functie de modificator. (Spre exemplu, dentar din igiena dentara este asociat lui dinte).

Care sunt principalele diferente dintre adjectivele relationale si adjectivele descriptive? (pusa de doua ori)

Principalele diferente sunt urmatoarele:

  1. Adjectivele relationale difera de adjectivele descriptive prin aceea ca ele nu se raporteaza la un atribut.

  2. Adjectivele relationale nu se refera la o proprietate a substantivului cap corespunzator.

  3. Adjectivele relationale, la fel ca substantivele si spre deosebire de adjectivele descriptive, nu au grade de comparatie.

  4. Adjectivele relationale nu poseda antonime directe. De aceea ele nu pot fi incorporate in cluster-ele ce caracterizeaza organizarea adjectivelor descriptive.

WordNet mentine un fisier separat de adjective relationale cu pointeri catre substantivele corespunzatoare. Pentru mai multe informatii asupra acestui subiect va recomandam sa consultati "Five Papers on WordNet", articole disponibile pe web in format PostScript si Acrobat (PDF). Va rugam sa cautati la adresa
                                                           http://www.cogsci.princeton.edu/~wn/
sub "Publications".

Cum trateaza WordNet adjectivele relationale? (pusa de doua ori)

WordNet mentine un fisier separat de adjective relationale cu pointeri catre substantivele corespunzatoare.

Circa 1700 synset-uri de adjective relationale, continand peste 3000 de lexeme individuale, sunt incluse in prezent in WordNet. Fiecare synset consta din unul sau mai multe adjective relationale urmate de un pointer catre substantivul corespunzator.

Pentru mai multe informatii asupra acestui subiect va recomandam sa consultati "Five Papers on WordNet", articole disponibile pe web in format PostScript si Acrobat (PDF). Va rugam sa cautati la adresa
                                                           http://www.cogsci.princeton.edu/~wn/
sub "Publications".

Ce semnificatie au numeralele care sunt atasate la diverse cuvinte in codificarea cluster-elor de adjective din WordNet? (pusa de doua ori)

Numeralele care urmeaza diverselor cuvinte au rolul de a face distinctia intre diferite sensuri secundare sau diferite prioritati de aparitie - spre exemplu, sensul dried-up1 se refera la o gaura de mina (plina cu apa, dar uscata) si apartine unui synset, in timp ce dried-up2 se refera la frunze toamna sau la fructe si apartine altui synset. Mai mult, in fiecare dintre aceste cazuri exista informatie inclusa intre paranteze, informatie care sa ajute la distingerea sensului sau care sa indice contexte acceptabile.

Cluster-ele de adjective contin pointeri spre alte cluster-e?

Asa cum se remarca in "Five Papers on WordNet", "pe langa pointerii scrisi cu litere mici din interiorul cluster-elor, multe synset-uri cap contin pointeri spre alte synset-uri inrudite. In cluster-ul AWAKE/ASLEEP, pointerul scris cu majuscule ALERT,& tinteste spre cuvantul cap al cluster-ului ALERT/UNALERT." Acesti pointeri scrisi cu majuscule au sensul de "vezi si" referitor la alte cluster-e inrudite.

Ce imi puteti spune despre cluster-ele de adjective din WordNet care au in capul de cluster cate doua perechi de cuvinte? (pusa de doua ori)

Codificarea restrictionata la interiorul cluster-elor genereaza probleme atunci cand atribute inrudite indeaproape sunt exprimate prin mai multe perechi de antonime. In astfel de cazuri, exact aceeasi multime de synset-uri poate fi pusa in legatura cu doua perechi antonimice diferite, dintre care unele se afla in prezent in cluster-e diferite. (A se lua in consideratie large/small si big/little). Pentru astfel de cazuri a fost creat un unic cluster, al carui cap contine ambele perechi, evitandu-se in acest mod redundanta inutila. In plus, un anumit synset poate fi codificat cu doi pointeri, unul indreptat spre capul propriului cluster, celalalt spre capul unui cluster din afara.

Este organizarea verbelor din WordNet realizata conform conceptului pe care lingvistii il numesc "domeniu semantic"?

Asa cum se remarca in "Five Papers on WordNet", "verbele sunt impartite in 15 fisiere, in mare parte pe baza criteriilor semantice. Toate aceste fisiere cu exceptia unuia corespund la ceea ce lingvistii au numit domenii semantice: verbe reprezentand funcii ale corpului, schimbare, cunoastere, comunicare, competitie, consum, contact, creatie, emotie, miscare, perceptie, posesiune, interactiune sociala si verbe referitoare la vreme. In principiu, toate verbele din aceste fisiere denota evenimente sau actiuni. Un alt fisier contine verbe care se refera la stari, cum ar fi suffice, belong si resemble, care nu au putut fi integrate in celelalte fisiere. Verbele acestui din urma grup nu constituie un domeniu semantic si nu au proprietati semantice in comun in afara faptului ca se refera la stari. Acest fisier, a carui organizare se aseamana cu aceea a adjectivelor in WordNet, este alcatuit din mici cluster-e semantice. Divizarea verbelor in 14 fisiere corespunzand diferitelor domenii semantice, fiecare continand verbe ce desemneaza evenimente si actiuni, dar si un fisier continand verbe diversificate semantic care exprima o stare, reflecta separarea dintre categoriile conceptuale majore EVENIMENT si STARE gasita in analizele lui Jackendoff (1983) si Dowty (1979)."

Care sunt principiile fundamentale care stau la baza relatiilor semantice dintre substantive, adjective si verbe in WordNet? (pusa de doua ori)

Principiul mostenirii lexicale poate fi considerat ca stand la baza relatiilor semantice dintre substantive, in timp ce opozitiile bipolare servesc in organizarea adjectivelor. In mod similar, diferitele relatii care organizeaza verbele pot fi exprimate in termenii unui principiu de baza, si anume implicatia lexicala.

Cum se aseamana relatia de cauzalitate, numita "entailment", dintre verbe cu cea de meronimie dintre substantive, in WordNet? (pusa de doua ori)

Implicatia lexicala dintre verbe se aseamana cu meronimia dintre substantive, dar meronimia se potriveste mai bine substantivelor decat verbelor. Urmatorul exemplu privitor la verbe este oferit in "Five Papers on WordNet":

"Sforaitul sau visatul pot fi o parte a somnului in sensul ca cele doua activitati sunt, macar prtial, coexistente temporal: timpul pe care il petreci sforaind sau visand este o parte a timpului pe care il petreci dormind. Si este adevarat ca, atunci cand nu mai dormi, in mod necesar te opresti din sforait sau visat."

Se spune ca un verb X include un alt verb Y daca exista o perioada de timp in care activitatile desemnate de cele doua verbe au loc simultan, dar nici un interval de timp in care Y intervine iar X nu intervine. Daca exista un interval de timp in care X intervine, dar Y nu intervine, se spune ca X include strict pe Y. O generalizare simpla ar fi urmatoarea: daca X il implica pe Y si daca se verifica o relatie de incluziune temporala intre acestea, atunci vorbitorii vor accepta un enunt de tip parte-intreg care sa lege Y de X.

Ce imi puteti spune despre relatia de hiponimie care se stabileste intre verbe in WordNet? (pusa de doua ori)

Schema de propozitie utilizata pentru testarea hiponimiei in cazul substantivelor, An X is a Y (Un X este un Y), nu este adecvata pentru verbe, intrucat pretinde ca X si Y sa fie verbe. Deosebirea semantica dintre doua verbe difera de trasaturile care deosebesc doua substantive in cadrul unei relatii hiponimice.

Numeroasele teorii care disting un "hiponim verbal" de elementul sau supraordonat au fost combinate intr-o unica relatie pe care Fellbaum si Miller (1990) au numit-o troponimie (de la grecescul tropos, cu sensul maniera, modalitate etc.). Relatia de troponimie dintre doua verbe poate fi exprimata prin formula To X is to Y in some particular manner (A X este a Y intr-un anumit mod).

Pentru mai multe informatii asupra acestui subiect va recomandam sa consultati "Five Papers on WordNet", articole disponibile pe web in format PostScript si Acrobat (PDF). Va rugam sa cautati la adresa
                                                           http://www.cogsci.princeton.edu/~wn/
sub "Publications".

Este troponimia un caz special de implicatie ("entailment") - cu referire la verbe in WordNet? (pusa de doua ori)

Troponimia este un caz particular de implicatie in sensul ca fiecare troponim X al unui verb mai general Y implica, de asemenea, Y. Pentru ilustrare vom lua in consideratie perechea limp-walk (a schiopata / a merge), reprezentand exemplul oferit in "Five Papers on WordNet". Autorii comenteaza acest exemplu in felul urmator: "Verbele din acest exemplu se afla intr-o relatie de troponimie: a schiopata inseamna, de asemenea, a merge intr-un anumit mod; a schiopata este un troponim al lui a merge. Verbele se afla si intr-o relatie de implicatie: propozitia El schiopateaza implica El merge, iar mersul poate fi considerat ca fiind o parte a schiopatatului. Spre deosebire de actiunile desemnate de a sforai si a dormi sau de a cumpara si a plati, activitatile la care se refera un troponim si mai generalul sau supraordonat ocupa intotdeauna aceeasi perioada de timp, in sensul ca cineva trebuie neaparat sa mearga in fiecare moment in care schiopateaza. Troponimia reprezinta, prin urmare, un caz particular de implicatie: perechi care ocupa intotdeauna aceeasi perioada de timp si care sunt legate prin implicatie".

Este adevarat ca exista mai multe feluri de relatii de tip "entailment" cu incluziune temporala in WordNet?

In WordNet sunt discutate doua feluri de relatii de tip "entailment" cu incluziune temporala. Primul tip este troponimia (a schiopata / a merge), in timp ce implicatia fara troponimie se refera la perechi de verbe (a sforai / a dormi) legate numai prin implicatie si prin incluziune temporala stricta.

Ce imi puteti spune despre opozitie si implicatie cu privire la organizarea semantica a verbelor in WordNet?

Asa cum se remarca in "Five Papers on WordNet", "multe perechi de verbe aflate intr-o relatie de opozitie au, de asemenea, in comun un verb pe care il implica. Spre exemplu, atat hit (a nimeri), cat si miss (a rata) implica aim (a tinti), intrucat este nevoie ca cineva sa tinteasca pentru a putea nimeri sau rata tinta". Prin contrast cu alte tipuri de implicatie, "aceste verbe nu sunt asociate prin incluziune temporala. Activitatile desemnate prin hit (sau prin miss) si prin aim au loc intr-o ordine secventiala: pentru a nimeri sau a rata tinta, cineva trebuie mai intai sa tinteasca; tintitul este o preconditie atat pentru a nimeri, cat si pentru a rata". Pentru mai multe informatii asupra acestui subiect va recomandam sa consultati "Five Papers on WordNet", articole disponibile pe web in format PostScript si Acrobat (PDF). Va rugam sa cautati la adresa
                                                           http://www.cogsci.princeton.edu/~wn/
sub "Publications".

Cate feluri de relatii de tip "entailment" intre verbe au fost luate in consideratie in WordNet? (pusa de doua ori)

Cele patru tipuri de implicatie intre verbe, luate in consideratie in WordNet, sunt urmatoarele:

Pentru mai multe informatii asupra acestui subiect va recomandam sa consultati "Five Papers on WordNet", articole disponibile pe web in format PostScript si Acrobat (PDF). Va rugam sa cautati la adresa
                                                           http://www.cogsci.princeton.edu/~wn/
sub "Publications".

WordNet trateaza toate aspectele sintactice referitoare la verbe?

Asa cum se remarca in "Five Papers on WordNet", pentru a acoperi macar cele mai importante aspecte sintactice legate de verbe, "WordNet include, corespunzator fiecarui synset de verbe, una sau mai multe scheme de propozitie, care specifica caracteristicile de subcategorizare ale verbelor din synset, prin indicarea tipurilor de propozitii in care acestea pot sa intervina. Aceasta informatie permite cautarea rapida printre verbe pentru tipurile de regularitati semantico - sintactice studiate de Levin si de altii".

Pentru mai multe informatii asupra acestui subiect va recomandam sa consultati "Five Papers on WordNet", articole disponibile pe web in format PostScript si Acrobat (PDF). Va rugam sa cautati la adresa
                                                           http://www.cogsci.princeton.edu/~wn/
sub "Publications".

Exista fisiere de verbe particulare, specifice la care se face referire in WordNet?

Iata care sunt principalele fisiere cu verbe din WordNet:

Pentru mai multe informatii asupra acestui subiect va recomandam sa consultati "Five Papers on WordNet", articole disponibile pe web in format PostScript si Acrobat (PDF). Va rugam sa cautati la adresa
                                                           http://www.cogsci.princeton.edu/~wn/
sub "Publications".