Buletinul RORIC-LING

lunile 1 - 6

 

Intrebari cu caracter general

Care este scopul exact al acestei lucrari?

Din felul in care ati formulat intrebarea nu rezulta clar daca va referiti la scopul unui anumit material publicat de Centrul nostru de Informare pe web sau la scopul intregului proiect. De aceea, ne permitem sa va raspundem intr-un cadru mai larg. Daca veti simti nevoia unor amanunte sau a unor clarificari ulterioare, va rugam nu ezitati sa ne contactati din nou.

Obiectivul principal al proiectului BALRIC-LING este acela de a mari gradul de informare asupra potentialului celor mai avansate tehnologii privitore la limbajul natural, in special in zona Balcanilor, unde domeniile procesarii limbajului natural si al lingvisticii computationale sunt mai putin cunoscute. Intrucat HLT (Human Language Technologies) reprezinta un domeniu extrem de vast, BALRIC-LING se va concentra asupra a patru teme principale: resurse lingvistice organizate in jurul cuvantului, corpusuri si tagging, instrumente relevante pentru tratarea si realizarea acestora si posibile utilizari ale primelor doua.

Pentru a ridica gradul de informare asupra acestor probleme in special in Bulgaria si Romania, in cadrul proiectului BALRIC-LING au fost infiintate doua Centre Regionale de Informare in aceste tari. Centrul de Informare romanesc se numeste RORIC-LING si el se va concentra asupra subtemelor mentionate in pagina web a centrului, accesibila la adresa de la care ati subscris.

O problema de larg interes actualmente este aceea a crearii de resurse in general, a corpusurilor in mod special, fara de care realizarea unor aplicatii avansate de tip HLT este imposibila. In particular, in cadrul primei subteme, RORIC va ofera un instrument de adnotare pentru crearea unui corpus, instrument care lucreaza in cadrul formal al gramaticilor de dependenta si a carui valoare rezida, in primul rand, in faptul ca este independent de limba. Sunt oferite numeroase exemple de folosire a lui in cazul limbii romane (texte adnotate), care intereseaza in mod special pe utilizatorii din tara noastra.

Ceilalti parteneri ai proiectului se vor referi, in aceasta perioada, la o problematica diferita, care se incadreaza in tematica mentionata anterior. Pentru a afla si alte detalii referitoare la proiectul BALRIC-LING si a putea intra in paginile web ale celorlalti parteneri, puteti consulta si pagina de baza a proiectului, accesibila la adresa
                                              http://www.lml.bas.bg
de unde SE ALEGE BALRIC-LING. Va multumim pentru subscriere si pentru interesul manifestat.

Hallo RORIC-LING-team! Un proiect interesant! Sunt informaticiana si intrebarea mea este: in ce masura am nevoie de alte cunostinte specifice (spre exemplu gramatica specifica a diferitelor limbi straine, etc. si cat de profund) pentru a ma putea aprofunda in acest proiect?

Consideram ca este suficienta intelegerea conceptelor si a teoriei prezentate de noi in materialul de pe web. Daca veti dori vreodata sa aplicati aceste teorii lingvistice referitor la o limba data, in cadrul unor aplicatii de procesare a limbajului natural (spre exemplu parsing), asa cum am facut-o noi pentru limba romana, va fi oricum nevoie sa apelati la consultanta lingvistica, care va va pune la dispozitie aplicarea teoriei referitor la limba respectiva. Pentru a putea afla unele informatii despre tipurile de aplicatii care exista, din punct de vedere informatic, va recomandam si consultarea buletinului virtual pe care il vom publica pe web la sfarsitul lunii februarie. Va multumim pentru interesul manifestat in legatura cu proiectul nostru.

Felicitari pentru proiectul indraznet in care sunteti implicati! Speram sa va descurcati cu succes. Acest proiect presupune si o procedura de procesare de text si, in caz afirmativ, care este abordarea pe care o veti alege: cea clasica, bazata pe calculul propozitional (Chomsky) sau tratarea ca pe o problema de clasificare de texte? Daca va fi utilizata alternativa ultima, care sunt strategiile de extragere a caracteristicilor si de invatare pe care intentionati sa le folositi?

Va multumim pentru subscriere si pentru interesul aratat fata de proiectul nostru. Proiectul nu presupune si o procedura de procesare de text, cel putin nu in acest stadiu de inceput. BALRIC-LING este, in principal, un proiect de ridicare a nivelului de cunoastere, avand ca principal obiectiv marirea gradului de informare privitor la HLT ("Humal Language Technologies") in special in zona Balcanilor. Prima parte a proiectului se concentreaza asupra resurselor lingvistice centrate in jurul cuvantului, corpusuri si tagging, precum si asupra instrumentelor relevante corespunzatoare. In cazul in care proiectul va fi prelungit, temele viitoare ar putea include o procedura de procesare a textelor, care, cel mai probabil, nu va presupune o abordare clasica "de tip Chomsky".

Care este conexiunea intre materialul existent si celelalte doua care urmeaza a fi expuse?

Conexiunea dintre aceasta parte a proiectului si ultima va deveni evidenta atunci cand ne vom ocupa de stabilirea unei specificatii teoretice pentru un model morfologic al limbii romane. Cea de-a doua tema propusa de RORIC si referitoare la WordNet reprezinta un subiect complet distinct, scopul seminarului virtual organizat de RORIC fiind acela de a supune dezbaterii o tematica diferita, dar care se refera la cateva aspecte esentiale ale tehnologiei limbajului: resurse lingvistice si adnotari centrate in jurul cuvantului; corpusuri si tagging; instrumente relevante pentru tratarea si realizarea acestora.

Cat timp va dura acest proiect? Acest proiect de tip HLT se adreseaza numai companiilor de tip IT si persoanelor interesate in IT sau este adresat si publicului larg? Sunt interesat de obtinerea mai multor informatii legate de proiectul dvs. de tip HLT.

Proiectul BALRIC-LING a inceput la 1.09.2001 si va dura 18 luni (in afara cazului in care va fi prelungit). Proiectul este finantat de Comisia Europeana.

Obiectivul principal al proiectului BALRIC-LING este acela de a mari gradul de informare asupra potentialului celor mai avansate tehnologii privitore la limbajul natural, precum si a posibilelor aplicatii de natura stiintifica si industriala a resurselor lingvistice corespunzatoare. Ridicarea gradului de cunoastere privitor la aceste aspecte este necesara in special in zona Balcanilor, unde domeniile procesarii limbajului natural si al lingvisticii computationale sunt mai putin cunoscute. Intrucat HLT reprezinta un domeniu extrem de vast, BALRIC-LING se va concentra asupra a patru teme principale: resurse lingvistice si adnotare organizate in jurul cuvantului, corpusuri si tagging, instrumente relevante pentru tratarea si realizarea acestora si posibile utilizari avansate de tip HLT ale primelor doua.

Pentru a ridica gradul de informare asupra acestor probleme in special in Bulgaria si in Romania, in cadrul proiectului BALRIC-LING au fost infiintate doua Centre Regionale de Informare in aceste tari. Centrul de informare romanesc se numeste RORIC-LING si el se va concentra asupra subtemelor mentionate in pagina web a centrului, accesibila la adresa de la care ati subscris.

Incepand de astazi veti gasi mai multe detalii privitoare la intregul proiect BALRIC-LING si in pagina de baza a Centrului de Informare RORIC-LING.

Ceilalti parteneri ai proiectului se vor referi la o problematica diferita, care se incadreaza in tematica generala mentionata anterior. Nu toti partenerii si-au incarcat inca paginile web, dar o vor face in curand. Pentru a afla si alte detalii referitoare la proiectul BALRIC-LING si a putea intra in paginile web ale celorlalti parteneri, puteti consulta si pagina de baza a proiectului, accesibila la adresa http://www.lml.bas.bg
                                            http://www.lml.bas.bg
de unde se alege BALRIC-LING.

Proiectul nu se refera numai la zona Balcanilor, ci se adreseaza persoanelor interesate de HLT de pretutindeni. De asemenea, el nu se deruleaza numai in beneficiul companiilor si al persoanelor interesate de IT. Proiectul isi propune sa mareasca gradul general de informare asupra acestor domenii. Vom fi incantati sa raspundem intrebarilor provenind de la toti cei care sunt - sau devin - interesati.

Va multumim pentru subscriere si pentru interesul manifestat.

 

Intrebari referitoare la gramaticile de dependenta si DGA

Care sunt diferentele esentiale dintre gramaticile de dependenta si cele generative?

Exista câteva diferente majore între D-limbaj (limbajul gramaticilor de dependenta) si PS-limbaj (limbajul gramaticilor PS). Precizam ca, în cele ce urmeaza, arborele de derivare rezultat în urma efectuarii analizei sintactice care utilizeaza o gramatica PS va fi denumit PS-arbore, în timp ce arborele corespunzator rezultat în urma utilizarii în analiza sintactica a unei gramatici de dependenta va fi numit D-arbore.

O prima diferenta semnificativa între D-limbaj si PS-limbaj consta în aceea ca un PS-arbore corespunzator unei expresii apartinând limbajului natural arata care elemente ale acesteia (cuvinte sau chiar grupuri sintactice) se pot combina cu alte elemente pentru a forma niste unitati de ordin mai mare. Un PS-arbore dezvaluie structura unei propozitii în termeni de grupari ale elementelor sale: blocuri maximale care constau din blocuri mai mici, care, la rândul lor, constau din blocuri si mai mici etc. PS-structura se exprima în termeni de constituenti, operatia logica aflata la baza acestei abordari fiind aceea a incluziunii de multimi, cu ajutorul careia se exprima apartenenta la un grup sintactic, la o categorie etc.. Aceasta abordare favorizeaza punctul de vedere analitic. Un D arbore, pe de alta parte, arata ce elemente se afla în relatie cu alte elemente si în ce mod. D-structura propozitiei reflecta relatiile existente între unitati sintactice indivizibile, lucrând direct cu forme lexicale. În aceasta abordare, operatia logica de baza este aceea a stabilirii de relatii binare. Propozitia nu mai este alcatuita din grupuri sintactice, categorii, ci din cuvinte legate între ele prin relatii de dependenta. Aceasta abordare favorizeaza, prin urmare, punctul de vedere sintetic.

O alta diferenta între PS-limbaj si D-limbaj este data de faptul ca, în cadrul unui PS-arbore, apartenenta la o anumita categorie este specificata ca parte a reprezentarii sintactice. Simboluri ca NP, VP, N etc. intervin în PS arbori ca etichete ale unor vârfuri. Cu alte cuvinte, unele caracteristici sintactice date de operatii precum categorizarea si subcategorizarea sunt folosite ca instrument principal în exprimarea rolului sintactic. În cadrul unui D-arbore, pe de alta parte, simbolurile reprezentând apartenenta la o categorie, precum si alte proprietati sintactice nu sunt admise ca elemente imediate ale structurii sintactice. (Astfel de informatii sunt incluse în dictionar, lexicon etc.).

O a treia diferenta esentiala consta în faptul ca, într-un PS-arbore, majoritatea nodurilor corespund unor simboluri neterminale. Ele reprezinta grupuri sintactice si nu corespund formelor lexicale efective care intervin în propozitia analizata. Prin contrast, un D-arbore contine numai noduri terminale, nefiind necesara nici o reprezentare abstracta a grupurilor sintactice.

PS-limbajul este, în esenta, un limbaj linear, în timp ce D-limbajul este unul bidimensional, aceasta generând o alta deosebire fundamentala între cele doua tipuri de reprezentari sintactice discutate aici. Astfel, în cadrul unui PS-arbore, vârfurile arborelui trebuie sa fie ordonate linear, ordinea nefiind neaparat cea a formelor lexicale care intervin în propozitie. În cadrul unui D arbore, pe de alta parte, vârfurile nu se afla într-o astfel de ordine. Ordinea liniara a formelor lexicale din interiorul propozitiei este un mijloc folosit de limbile naturale pentru a codifica relatii sintactice si, prin urmare, ordinea liniara nu trebuie sa intervina în structurile sintactice.

În fine, o ultima deosebire importanta între cele doua tipuri de reprezentari consta în aceea ca, în timp ce un PS-arbore nu specifica tipul legaturii sintactice existente între doi constituenti, un D-arbore pune în mod special accentul pe specificarea în detaliu a tipului legaturii dintre oricare doua elemente aflate în relatie de dependenta.

Cum difera DG (Dependency Grammar) de PSG (Phrase-Structure Grammar)?

Asa cum arata Richard Hudson, gramaticile, precum si teoriile gramaticale, pot fi clasificate in functie de unitatea de baza a structurii propozitiei. Clasificarea se face dupa cum la baza structurii propozitiei se afla

Fiecare abordare o implica pe cealalta:

Este DG ("Dependency Grammar") doar o varianta notationala a lui PSG ("Phrase-Structure Grammar")?

Un mare numar de logicieni, printre care si Bar-Hillel, au demonstrat ca DG (inclusiv gramatica categoriala) este SLAB echivalenta cu o gramatica PSG independenta de context (Gaifman, "Dependency systems and phrase-structure systems"). Dar ea NU reprezinta o varianta notationala relativ la PSG, intrucat nu este PUTERNIC echivalenta i.e., asa cum arata Richard Hudson, nu permite aceleasi analize:

Care au aparut mai intai, gramaticile de dependenta sau cele generative? Faceti un scurt istoric.

Etapele principale in evolutia celor doua tipuri de gramatici ar fi urmatoarele:

  1. Panini (acum 2600 de ani ;India) a recunoscut si clasificat dependentele semantice, sintactice si morfologice;

  2. lingvistii arabi (acum 1200 de ani; Irak) au recunoscut structura sintactica de dependenta;

  3. lingvistii latini (acum 800 de ani) au recunoscut "determinarea" si structurile de dependenta;

  4. scolile lingvistice referitoare la limba engleza din Europa si S.U.A. au predat analiza propozitiilor in termeni de dependenta, iar diagramele concepute pentru propozitii care au devenit extrem de cunoscute la sfarsitul sec. al XIX- lea (si care foloseau un sistem inventat in S.U.A.) erau de tip DG.

  5. Lucien Tesniere (Franta,1930) a dezvoltat o teorie formala si relativ sofisticata a gramaticilor de dependenta pentru folosire in scoli. Aceasta abordare de tip "bottom-up" este inca folosita atat in Europa, cat si in S.U.A.

  6. In 1933 Leonard Bloomfield din S.U.A. dezvolta o abordare de tip "top-down": analiza constituentilor imediati, care se va transforma in "analiza PS" (de la "phrase-structure analysis").

Popularitatea dependentelor, ca mijloc formal de reprezentare a structurii sintactice a propozitiilor, a fost mereu in crestere si a culminat cu opera lui Lucien Tesničre din 1959. Cu toate acestea, in America de Nord, la inceputul anilor '30, "sintaxa de dependenta" a fost eclipsata de ceea ce s-a numit, la acea vreme, "sintaxa constituentilor imediati" (sau "analiza de tip IC" - de la "immediate constituency"). Aceasta s-a transformat mai tarziu in "analiza PS", care determina PS-structura unei propozitii. Formulata in mod riguros de Leonard Bloomfield (Bloomfield 1933), dar si de catre Wells în 1947 si Percival în 1976, reprezentarea de tip PS in sintaxa a fost promovata cu multa energie de scoala structuralista în anii '30, '40 si '50. Ea a devenit unica reprezentare sintactica luata in consideratie de catre Noam Chomsky si scoala generativ transformationala pe care acesta a fondat-o la sfarsitul anilor '50.

Care dintre cele 2 clase de gramatici (de dependenta si respectiv generative) surprind cel mai bine fenomenele din limbajul natural?

Raspunsul depinde de ce se intelege prin gramatici generative. Clasa gramaticilor generative este foarte larga, in interiorul acestei clase propunandu-se diverse formalisme care sa surprinda fenomenele limbajului natural. De asemenea si gramaticile de dependenta au fost formalizate in diverse moduri.

Vom incerca sa raspundem la aceasta intrebare din trei puncte de vedere, si anume:

  1. Din punct de vedere formal. Acest punct de vedere priveste capacitatea generativa a unei clase de gramatici. Pentru a fi considerata adecvata o clasa de gramatici trebuie sa fie suficient de restrictiva astfel incat sa nu permita generarea (descrierea) oricarui tip de limbaj, dar si suficient de puternica pentru a permite descrierea fenomenelor intalnite in limbajul natural. Din acest punct de vedere consideram ca cele doua clase de gramatici sunt echivalente.

Dupa ce s-a acceptat faptul ca fenomenele din limbajul natural depasesc capacitatea descriptiva a gramaticilor independente de context, in ultimul timp s-a conturat clasa limbajelor semidependente de context (mildly context-sensitive languages), care este in general acceptata ca fiind suficienta pentru descrierea limbajului natural si care este generata de mai multe formalisme gramaticale (propuse independent si din ratiuni diferite):

K. Vijay-Shanker, D.J. Weir, The Equivalence of Four Extensions of Context-Free Grammar. Math. Systems Theory, 27, 1994.

Pentru gramaticile de dependenta exista formalizari care le fac echivalente cu gramaticile independente de context:

H. Gaifman, Dependency systems and phrase-structure systems. Information & Control, 8, 1965.

dar si formalizari care le permit sa descrie limbajele semidependente de context:

H. Maruyama, Constraint dependency grammar and its weak generative capacity. Computer Software, 1990.

  1. Din punct de vedere lingvistic. Acest punct de vedere priveste usurinta cu care un lingvist poate descrie fenomene lingvistice specifice unei limbi in cadrul unui anumit formalism. Din acest punct de vedere credem ca raspunsul depinde de limba care se are in vedere si de traditia lingvistica specifica limbii respective. Pentru limba romana consideram mai adecvat formalismul gramaticilor de dependenta deoarece este mai apropiat de modul traditional de analiza sintactica al limbii romane, acest lucru permitand inglobarea mai usoara a cunostintelor puse la dispozitie de lingvistica romaneasca.

  2. Din punctul de vedere al modelarii stochastice a limbajului. Pentru o discutie privind avantajele gramaticilor de dependenta in modelarea stochastica a limbajului natural a se vedea sectiunea 12.1.7 din

C. D. Manning, H. Schutze, Foundations of Statistical Natural Language Processing. The MIT Press, 1999.

Aici nu vom mentiona decat faptul ca sistemul de analiza sintactica (parsing) stochastica cu cele mai bune performante pana la ora actuala este bazat pe gramatici de dependenta:

M. J. Collins, Three generative, lexicalised models for statistical parsing. ACL 35, 1997.

Care sunt principalele teorii bazate pe notiunea de dependenta si avand la baza gramaticile de dependenta?

Principalele teorii bazate pe notiunea de dependenta sunt urmatoarele:

Este "Link Grammar" o gramatica de tip "Dependency Grammar"? (pusa de trei ori)

Link Grammar (introdusa de Daniel D. Sleator si Davy Temperley) este "de tip dependency", dar mult mai lexicalizata. Un astfel de formalism gramatical presupune ca o succesiune de cuvinte apartine limbajului generat de o Link Grammar daca exista o modalitate de a crea legaturi intre cuvinte astfel incat: (1)cerintele locale ale fiecarui cuvant sunt satisfacute,(2)legaturile (arcele) nu se intersecteaza si (3) cuvintele formeaza un graf conex. Formalismul este lexical si nu utilizeaza in mod explicit constituenti si categorii.

Link Grammars se aseamana cu gramaticile de dependenta si cu gramaticile categoriale. Exista si multe diferente semnificative, cel mai important aspect fiind acela ca Link Grammar este o gramatica mult mai lexicalizata.

Ce este Word Grammar? Este acest tip de gramatica inrudit cu Dependency Grammar?

Word Grammar este o teorie gramaticala dezvoltata de Richard Hudson inca de la inceputul anilor '80. Teoria se bazeaza in mod strans pe DG si prezinta, dupa toate probabilitatile, cea mai buna combinatie posibila a altor caracteristici. Cele mai importante caracteristici ale WG, asa cum sunt ele consemnate de autorul acestei teorii gramaticale, sunt urmatoarele:

Ce alte tipuri de gramatici sunt folosite in NLP?

Algoritmii de analiza sintactica clasici de tip "top-down" si respectiv "bottom-up" sunt bazati pe gramatici generative, care privesc structura propozitiei ca fiind alcatuita din constituenti. In acest caz, structura unei propozitii, data de constituentii sai, reprezinta conceptul central al sintaxei. Spre deosebire de gramaticile generative, gramaticile de dependenta nu se bazeaza pe notiunea de constituent, ci pe relatiile directe existente intre cuvinte. Structura de dependenta poate fi privita, printre altele, ca opunandu-se structurii alcatuite din constituenti. Ideea centrala pe care se bazeaza notiunea de dependenta este aceea ca fiecare cuvant este privit ca depinzand de cuvantul care il leaga de restul propozitiei, practic explicand de ce este utilizat. Spre deosebire de gramaticile generative, cele de dependenta pot descrie cu mai mult succes fenomene lingvistice cum ar fi existenta constituentilor discontinui sau variatia ordinii cuvintelor in cadrul propozitiei.

O alta clasa de gramatici care genereaza limbaje ce nu au o legatura directa cu ierarhia Chomsky (neputand fi comparate cu familiile de baza ale acestei ierarhii) este aceea a gramaticilor contextuale. Gramaticile contextuale au fost introduse de Solomon Marcus in 1969. Acesta le introduce ca pe niste "gramatici intrinseci", fara simboluri auxiliare, bazate numai pe operatia lingvistica fundamentala de inserare a cuvintelor in structuri date, in conformitate cu anumite dependente contextuale. Gramaticile contextuale includ contexte (sau perechi de cuvinte) asociate unor selectori (multimi de cuvinte). Un context poate fi alaturat oricarui element selector asociat. In acest fel, pornindu-se de la o multime finita de cuvinte (axiome), este generat limbajul. S-a aratat ca acest formalism modeleaza foarte bine limbajul natural. De abia in 1999 K. Harbusch reuseste sa prezinte un parser bazat pe gramatici contextuale. Rezultate recente extrem de incurajatoare i-au determinat pe cercetatori sa se concentreze asupra construirii unei gramatici contextuale a limbii engleze.

Alte tipuri de gramatici folosite in NLP sunt "Link Grammars" si "Tree Adjoining Grammars". Va rugam sa ne contactati din nou daca sunteti interesat de aflarea unor detalii referitor la o anumita clasa de gramatici.

Cunoasteti un alt exemplu de gramatica (in afara de gramatica de dependenta) care modeleaza foarte bine limbajul natural?

O alta clasa de gramatici care modeleaza foarte bine limbajul natural si care genereaza limbaje ce nu au o legatura directa cu ierarhia Chomsky (neputand fi comparate cu familiile de baza ale acestei ierarhii) este aceea a gramaticilor contextuale. Gramaticile contextuale au fost introduse de romanul Solomon Marcus in 1969. Acesta le introduce ca pe niste "gramatici intrinseci", fara simboluri auxiliare, bazate numai pe operatia lingvistica fundamentala de inserare a cuvintelor in structuri date, in conformitate cu anumite dependente contextuale. Gramaticile contextuale includ contexte (sau perechi de cuvinte) asociate unor selectori (multimi de cuvinte). Un context poate fi alaturat oricarui element selector asociat. In acest fel, pornindu-se de la o multime finita de cuvinte (axiome), este generat limbajul. S-a aratat ca acest formalism modeleaza foarte bine limbajul natural. De abia in 1999 K. Harbusch reuseste sa prezinte un parser bazat pe gramatici contextuale. Rezultate recente extrem de incurajatoare i-au determinat pe cercetatori sa se concentreze asupra construirii unei gramatici contextuale a limbii engleze. Pentru mai multe informatii asupra gramaticilor contextuale, vezi

S.Marcus, C.Martin-Vide, G.Paun. Contextual Grammars as Generative Models of Natural Languages. Computational Linguistics, 24(2), p. 245-274.

F.Hristea. Introducere in procesarea limbajului natural cu aplicatii in Prolog. Editura Universitatii din Bucuresti, 2000, p. 102-113.

Gramaticile de dependenta si gramaticile contextuale sunt unul si acelasi tip de gramatici?

NU. Gramaticile contextuale reprezinta o alta clasa de gramatici care modeleaza foarte bine limbajul natural si care genereaza limbaje ce nu au o legatura directa cu ierarhia Chomsky (neputand fi comparate cu familiile de baza ale acestei ierarhii). Gramaticile contextuale au fost introduse de romanul Solomon Marcus in 1969. Acesta le introduce ca pe niste "gramatici intrinseci", fara simboluri auxiliare, bazate numai pe operatia lingvistica fundamentala de inserare a cuvintelor in structuri date, in conformitate cu anumite dependente contextuale. Gramaticile contextuale includ contexte (sau perechi de cuvinte) asociate unor selectori (multimi de cuvinte). Un context poate fi alaturat oricarui element selector asociat. In acest fel, pornindu-se de la o multime finita de cuvinte (axiome), este generat limbajul. S-a aratat ca acest formalism modeleaza foarte bine limbajul natural. De abia in 1999 K. Harbusch reuseste sa prezinte un parser bazat pe gramatici contextuale. Rezultate recente extrem de incurajatoare i-au determinat pe cercetatori sa se concentreze asupra construirii unei gramatici contextuale a limbii engleze.

Ce algoritmi de analiza sintactica (parsing) exista pentru gramaticile de dependenta? Grupul dvs. a folosit vreunul pana in prezent?

In cadrul formal al gramaticilor de dependenta s-a efectuat analiza sintactica folosind "Constraint Dependency Grammar" (Maruyama, 1990). CDG face o separare clara intre posibilele descrieri structurale si conditiile de corectitudine pentru structurile lingvistice. CDG este slab dependenta de context. Pentru a citi despre algoritmi bazati pe CDG va recomandam consultarea lucrarii:

Menzel,Wolfgang si Schroder,Ingo, "Decision procedures for dependency parsing using graded constraints", in: Sylvain Kahane si Alain Polguere (editori), "Proc. Coling - ACL Workshop on Processing of Dependency-based Grammars", pag. 78-87, Montreal, Canada, 1998.

In ceea ce priveste grupul nostru, am efectuat analiza sintactica de dependenta intr-o abordare stocastica, in care nu este necesara specificarea unei gramatici de dependenta propriu-zise. Gramatica a fost in mod implicit inclusa in parametrii modelului stocastic, care, la rindul lor, au fost estimati pe baza datelor lingvistice (adica a unui corpus).

In acest cadru, a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii din materialul publicat pe web.

Gasirea multimii T s-a facut utilizandu-se un algoritm propus de Ratnaparkhi in 1996. Acest algoritm este de natura stocastica si utilizeaza entropia maxima. Gasirea multimii P s-a facut, de asemenea, prin utilizarea unui algoritm stocastic, si anume a algoritmului lui Eisner, propus in acelasi an. Acest algoritm a fost modificat de noi prin schimbarea modelului stocastic, cu utilizarea din nou a entropiei maxime. Algoritmul de gasire a multimii P reprezinta o implementare a metodei programarii dinamice cu scopul de a gasi cea mai probabila analiza in maniera "bottom-up" (de jos in sus). Dupa determinarea multimilor T si P, gasirea multimii D nu mai ridica nici un fel de probleme.

Ce algoritmi de analiza sintactica (parsing) exista pentru gramaticile de dependenta?

In cadrul formal al gramaticilor de dependenta s-a efectuat analiza sintactica folosind "Constraint Dependency Grammar" (Maruyama, 1990). CDG face o separare clara intre posibilele descrieri structurale si conditiile de corectitudine pentru structurile lingvistice. CDG este slab dependenta de context. Pentru a citi despre algoritmi bazati pe CDG va recomandam consultarea lucrarii:

Menzel,Wolfgang si Schroder,Ingo, "Decision procedures for dependency parsing using graded constraints", in: Sylvain Kahane si Alain Polguere (editori), "Proc. Coling - ACL Workshop on Processing of Dependency-based Grammars", pag. 78-87, Montreal, Canada, 1998.

Grupul nostru a efectuat, la randul sau, analiza sintactica de dependenta. Abordarea noastra a fost una stocastica, in care nu este necesara specificarea unei gramatici de dependenta propriu-zise. Gramatica a fost in mod implicit inclusa in parametrii modelului stocastic, care, la rindul lor, au fost estimati pe baza datelor lingvistice (adica a unui corpus).

In acest cadru, a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii din materialul publicat pe web.

Gasirea multimii T s-a facut utilizandu-se un algoritm propus de Ratnaparkhi in 1996. Acest algoritm este de natura stocastica si utilizeaza entropia maxima. Gasirea multimii P s-a facut, de asemenea, prin utilizarea unui algoritm stocastic, si anume a algoritmului lui Eisner, propus in acelasi an. Acest algoritm a fost modificat de noi prin schimbarea modelului stocastic, cu utilizarea din nou a entropiei maxime. Algoritmul de gasire a multimii P reprezinta o implementare a metodei programarii dinamice cu scopul de a gasi cea mai probabila analiza in maniera "bottom-up" (de jos in sus). Dupa determinarea multimilor T si P, gasirea multimii D nu mai ridica nici un fel de probleme.

Cunoasteti un parser bazat pe gramatici de dependenta? Ati facut vreodata analiza sintactica bazata pe gramatici de dependenta?

Grupul nostru a efectuat analiza sintactica de dependenta intr-o abordare stocastica, in care nu este necesara specificarea unei gramatici de dependenta propriu-zise. Gramatica a fost in mod implicit inclusa in parametrii modelului stocastic, care, la rindul lor, au fost estimati pe baza datelor lingvistice (adica a unui corpus).

In acest cadru, a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii din materialul publicat pe web. Etapele in derularea unui asemenea algoritm sunt: gasirea multimii T ("part of speech tagging"); gasirea multimii P (adica a relatiilor de dependenta); gasirea multimii D (adica a tipului dependentelor).

Gasirea multimii T s-a facut utilizandu-se un algoritm propus de Ratnaparkhi in 1996. Acest algoritm este de natura stocastica si utilizeaza entropia maxima. Gasirea multimii P s-a facut, de asemenea, prin utilizarea unui algoritm stocastic, si anume a algoritmului lui Eisner, propus in acelasi an. Acest algoritm a fost modificat de noi prin schimbarea modelului stocastic, cu utilizarea din nou a entropiei maxime. Algoritmul de gasire a multimii P reprezinta o implementare a metodei programarii dinamice cu scopul de a gasi cea mai probabila analiza in maniera "bottom-up" (de jos in sus). Dupa determinarea multimilor T si P, gasirea multimii D nu mai ridica nici un fel de probleme.

Grupul dvs. a facut vreodata analiza sintactica (parsing) in contextul gramaticilor de dependenta si cum?

Grupul nostru a efectuat analiza sintactica de dependenta intr-o abordare stocastica, in care nu este necesara specificarea unei gramatici de dependenta propriu-zise. Gramatica a fost in mod implicit inclusa in parametrii modelului stocastic, care, la rindul lor, au fost estimati pe baza datelor lingvistice (adica a unui corpus).

In acest cadru, a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii din materialul publicat pe web. Etapele in derularea unui asemenea algoritm sunt: gasirea multimii T ("part of speech tagging"); gasirea multimii P (adica a relatiilor de dependenta); gasirea multimii D (adica a tipului dependentelor).

Gasirea multimii T s-a facut utilizandu-se un algoritm propus de Ratnaparkhi in 1996. Acest algoritm este de natura stocastica si utilizeaza entropia maxima. Gasirea multimii P s-a facut, de asemenea, prin utilizarea unui algoritm stocastic, si anume a algoritmului lui Eisner, propus in acelasi an. Acest algoritm a fost modificat de noi prin schimbarea modelului stocastic, cu utilizarea din nou a entropiei maxime. Algoritmul de gasire a multimii P reprezinta o implementare a metodei programarii dinamice cu scopul de a gasi cea mai probabila analiza in maniera "bottom-up" (de jos in sus). Dupa determinarea multimilor T si P, gasirea multimii D nu mai ridica nici un fel de probleme.

Grupul dvs. a adus ceva nou in teoria gramaticilor de dependenta sau in modul de folosire a acestora?

Grupul nostru a efectuat parsing stocastic in contextul gramaticilor de dependenta. Am efectuat analiza sintactica de dependenta intr-o abordare stocastica, in care nu este necesara specificarea unei gramatici de dependenta propriu-zise. Gramatica a fost in mod implicit inclusa in parametrii modelului stocastic, care, la rindul lor, au fost estimati pe baza datelor lingvistice (adica a unui corpus).

In acest cadru, a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii din materialul publicat pe web. Etapele in derularea unui asemenea algoritm sunt: gasirea multimii T ("part of speech tagging"); gasirea multimii P (adica a relatiilor de dependenta); gasirea multimii D (adica a tipului dependentelor).

Gasirea multimii T s-a facut utilizandu-se un algoritm propus de Ratnaparkhi in 1996. Acest algoritm este de natura stocastica si utilizeaza entropia maxima. Gasirea multimii P s-a facut, de asemenea, prin utilizarea unui algoritm stocastic, si anume a algoritmului lui Eisner, propus in acelasi an. Acest algoritm a fost modificat de noi prin schimbarea modelului stocastic, cu utilizarea din nou a entropiei maxime. Algoritmul de gasire a multimii P reprezinta o implementare a metodei programarii dinamice cu scopul de a gasi cea mai probabila analiza in maniera "bottom-up" (de jos in sus). Dupa determinarea multimilor T si P, gasirea multimii D nu mai ridica nici un fel de probleme.

Recomandati analiza sintactica de tip stocastic bazata pe gramatici de dependenta sau pe gramatici generative?

Recomandam analiza sintactica de tip stocastic bazata pe gramatici de dependenta intrucat ea a fost deja efectuata cu succes in cazul limbii romane. Astfel, grupul nostru a efectuat analiza sintactica de dependenta intr-o abordare stocastica, in care nu este necesara specificarea unei gramatici de dependenta propriu-zise. Gramatica a fost in mod implicit inclusa in parametrii modelului stocastic, care, la rindul lor, au fost estimati pe baza datelor lingvistice (adica a unui corpus).

In acest cadru, a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii din materialul publicat pe web. Etapele in derularea unui asemenea algoritm sunt: gasirea multimii T ("part of speech tagging"); gasirea multimii P (adica a relatiilor de dependenta); gasirea multimii D (adica a tipului dependentelor).

Gasirea multimii T s-a facut utilizandu-se un algoritm propus de Ratnaparkhi in 1996. Acest algoritm este de natura stocastica si utilizeaza entropia maxima. Gasirea multimii P s-a facut, de asemenea, prin utilizarea unui algoritm stocastic, si anume a algoritmului lui Eisner, propus in acelasi an. Acest algoritm a fost modificat de noi prin schimbarea modelului stocastic, cu utilizarea din nou a entropiei maxime. Algoritmul de gasire a multimii P reprezinta o implementare a metodei programarii dinamice cu scopul de a gasi cea mai probabila analiza in maniera "bottom-up" (de jos in sus). Dupa determinarea multimilor T si P, gasirea multimii D nu mai ridica nici un fel de probleme.

Considerati ca limba romana se preteaza mai bine la o abordare cu gramatici de dependenta dacat la una cu gramatici de tip "phrase structure grammars"? (pusa de doua ori)

Da, intrucat aceasta abordare este mai apropiata de gramatica traditionala. Probabil ca acest lucru face ca lingvistii romani sa fie mult mai apropiati de aceasta abordare, pe care au si aplicat-o cu succes relativ la limba romana, efectuand analiza sintactica de dependenta, in cadrul proiectului DBR-MAT, finantat de Fundatia Volkswagen (1996-1998).

Ce ar presupune definirea unei gramatici de dependenta pentru o anumita limba? Exista o astfel de gramatica pentru limba romana?

In cadrul de lucru oferit de aceasta teorie lingvistica, specificarea unei gramatici de dependenta inseamna gasirea unei multimi de constrangeri care sa ajute la stabilirea faptului ca anumite structuri sintactice sunt corecte, iar altele nu. Spre exemplu, in virtutea unor asemenea constrangeri, se poate decide faptul ca anumite cuvinte ale unei propozitii pot avea rolul de cuvant cap, in timp ce altele nu pot detine acest rol. Cu alte cuvinte, specificarea unei gramatici de dependenta pentru o anumita limba inseamna stabilirea unor reguli care sa specifice ce relatii de dependenta sunt permise in limba respectiva. Pentru limba romana nu au fost stabilite aceste reguli, prin urmare nu exista o gramatica de dependenta, ci exista numai relatii de dependenta ca atare, ce pot fi folosite la diverse sarcini, cum ar fi efectuarea analizei sintactice de dependenta.

Exista vreo gramatica de dependenta pentru limba romana?

In cadrul de lucru oferit de aceasta teorie lingvistica, specificarea unei gramatici de dependenta inseamna gasirea unei multimi de constrangeri care sa ajute la stabilirea faptului ca anumite structuri sintactice sunt corecte, iar altele nu. Spre exemplu, in virtutea unor asemenea constrangeri se poate decide faptul ca anumite cuvinte ale unei propozitii pot avea rolul de cuvant cap, in timp ce altele nu pot detine acest rol. Cu alte cuvinte, specificarea unei gramatici de dependenta pentru o anumita limba inseamna stabilirea unor reguli care sa specifice ce relatii de dependenta sunt permise in limba respectiva. Pentru limba romana nu au fost stabilite aceste reguli, prin urmare nu exista o gramatica de dependenta, ci exista numai relatii de dependenta ca atare, ce pot fi folosite la diverse sarcini, cum ar fi efectuarea analizei sintactice de dependenta.

Dati un exemplu de utilizare a formalismului gramaticilor de dependenta in cazul limbii romane.

Formalismul gramaticilor de dependenta a fost utilizat, in cazul limbii romane, pentru realizarea analizei sintactice de tip stocastic (in cadrul proiectului DBR-MAT). In acest cadru formal putem spune ca a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii ca in materialul prezentat. Etapele in derularea unui asemenea algoritm sunt: gasirea multimii T ("part of speech tagging"), gasirea multimii P (adica a relatiilor de dependenta) si gasirea multimii D (adica a tipului dependentelor). Principala concluzie care s-a desprins, in cadrul proiectului DBR-MAT, dar independent de limba, a fost aceea ca formalismul gramaticilor de dependenta este extrem de adecvat si poate fi utilizat cu succes in efectuarea analizei sintactice de tip stocastic.

Exista corpusuri pentru limba romana cu texte analizate in formalismul gramaticilor de dependenta? (pusa de doua ori)

Crearea unui asemenea corpus a fost inceputa acum, in cadrul proiectului BALRIC LING. Textele existente deja pe web fac parte din acest corpus, iar numarul lor va creste ulterior.

Care sunt posibilele aplicatii software ale subiectelor prezentate (e.g. gramatici de dependenta)? Exista programe referitoare la limba engleza care ar putea fi preluate pentru limba romana de indata ce reguli/descrieri/adnotari corespunzatoare au fost definite in cazul limbii romane?

Un exemplu de aplicatie bazata pe gramatici de dependenta il constituie analiza sintactica, aplicatiile software fiind reprezentate de algoritmii de parsing corespunzatori.

In cadrul formal al gramaticilor de dependenta s-a efectuat analiza sintactica folosind "Constraint Dependency Grammar" (Maruyama, 1990). CDG face o separare clara intre posibilele descrieri structurale si conditiile de corectitudine pentru structurile lingvistice. CDG este slab dependenta de context. Pentru a citi despre algoritmi bazati pe CDG va recomandam consultarea lucrarii:

Menzel,Wolfgang si Schroder,Ingo, "Decision procedures for dependency parsing using graded constraints", in: Sylvain Kahane si Alain Polguere (editori), "Proc. Coling - ACL Workshop on Processing of Dependency-based Grammars", pag. 78-87, Montreal, Canada, 1998.

In ceea ce priveste grupul nostru, am efectuat analiza sintactica de dependenta intr-o abordare stocastica, in care nu este necesara specificarea unei gramatici de dependenta propriu-zise. Gramatica a fost in mod implicit inclusa in parametrii modelului stocastic, care, la rindul lor, au fost estimati pe baza datelor lingvistice (adica a unui corpus).

In acest cadru, a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii din materialul publicat pe web.

Gasirea multimii T s-a facut utilizandu-se un algoritm propus de Ratnaparkhi in 1996. Acest algoritm este de natura stocastica si utilizeaza entropia maxima. Gasirea multimii P s-a facut, de asemenea, prin utilizarea unui algoritm stocastic, si anume a algoritmului lui Eisner, propus in acelasi an. Acest algoritm a fost modificat de noi prin schimbarea modelului stocastic, cu utilizarea din nou a entropiei maxime. Algoritmul de gasire a multimii P reprezinta o implementare a metodei programarii dinamice cu scopul de a gasi cea mai probabila analiza in maniera "bottom-up" (de jos in sus). Dupa determinarea multimilor T si P, gasirea multimii D nu mai ridica nici un fel de probleme.

Programele existente sunt independente de limba si au fost testate de noi cu succes in cazul limbii romane.

Care sunt avantajele folosirii DGA?

Principalele avantaje ale folosirii DGA deriva din faptul ca programul reprezinta un instrument independent de limba. El a fost, in egala masura, proiectat pentru a fi independent de variantele de formalizare ale gramaticilor de dependenta. Alte avantaje importante ale DGA deriva din caracteristicile sale, mentionate in "manualul utilizatorului": usurinta in folosire, portabilitate, conformitate cu standardele actuale, flexibilitate.

In ce mod ar putea fi folosit un corpus obtinut prin adnotare cu DGA?

Una dintre utilizarile unui asemenea corpus o reprezinta efectuarea analizei sintactice (parsing). Acest lucru a si fost realizat la Universitatea din Bucuresti, referitor la limba romana, in cadrul proiectului DBR-MAT, finantat de Fundatia Volkswagen.

Solutia care a fost cu succes aplicata limbii romane pentru efectuarea analizei sintactice de dependenta, in cadrul proiectului DBR-MAT, este de natura stocastica si se refera la asocierea unei probabilitati fiecarei structuri sintactice, pentru o propozitie data fiind aleasa acea structura sintactica a carei probabilitate asociata are valoarea maxima. Atribuirea unei asemenea probabilitati inseamna gasirea unui model stocastic, si anume a acelui model stocastic care este cel mai adecvat. In aceasta abordare, pentru gasirea structurii sintactice de dependenta a unei propozitii nu este necesara specificarea explicita a unei gramatici de dependenta. Gramatica va fi in mod implicit inclusa in parametrii modelului stocastic, care, la randul lor, vor fi estimati pe baza datelor lingvistice (adica a unui corpus).

In acest cadru putem spune ca a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii ca in materialul prezentat pe web. Etapele in derularea unui asemenea algoritm sunt: gasirea multimii T ("part of speech tagging"); gasirea multimii P (adica a relatiilor de dependenta); gasirea multimii D (adica a tipului dependentelor). Vom reveni cu detalii asupra modului in care s-a facut gasirea acestor multimi daca sunteti interesat de aspectele stocastice ale acestei abordari.

Va rog sa dati un exemplu de folosire a unui corpus obtinut prin adnotare cu DGA.

Un exemplu de folosire a unui asemenea corpus il constituie efectuarea analizei sintactice (parsing) in maniera stocastica. Grupul nostru a efectuat analiza sintactica de dependenta intr-o abordare stocastica, in care nu este necesara specificarea unei gramatici de dependenta propriu-zise. Gramatica a fost in mod implicit inclusa in parametrii modelului stocastic, care, la rindul lor, au fost estimati pe baza datelor lingvistice (adica a unui corpus).

In acest cadru, a gasi un algoritm de analiza sintactica inseamna a gasi un algoritm care are ca input o propozitie si ca output structura sintactica (S,D) a acelei propozitii, unde S=(T,P) si D au aceleasi semnificatii din materialul publicat pe web. Etapele in derularea unui asemenea algoritm sunt: gasirea multimii T ("part of speech tagging"); gasirea multimii P (adica a relatiilor de dependenta); gasirea multimii D (adica a tipului dependentelor).

Gasirea multimii T s-a facut utilizandu-se un algoritm propus de Ratnaparkhi in 1996. Acest algoritm este de natura stocastica si utilizeaza entropia maxima. Gasirea multimii P s-a facut, de asemenea, prin utilizarea unui algoritm stocastic, si anume a algoritmului lui Eisner, propus in acelasi an. Acest algoritm a fost modificat de noi prin schimbarea modelului stocastic, cu utilizarea din nou a entropiei maxime. Algoritmul de gasire a multimii P reprezinta o implementare a metodei programarii dinamice cu scopul de a gasi cea mai probabila analiza in maniera "bottom-up" (de jos in sus). Dupa determinarea multimilor T si P, gasirea multimii D nu mai ridica nici un fel de probleme.

Programul DGA se bazeaza in totalitate pe utilizator in procesul de adnotare sau reprezinta un sistem semiautomat, care ii ofera utilizatorului niste optiuni din care sa aleaga? Daca nu este semiautomatic (asa cum pare), care este motivul pentru care a fost proiectat in acest fel? Chiar daca sistemul porneste fara nici un fel de cunostinte prealabile, in timp el ar putea acumula niste sabloane.

DGA nu este semiautomatic, in sensul ca nu are un mecanism intern care sa adnoteze initial un corpus, iar mai apoi acesta sa ii fie prezentat utilizatorului pentru corectare. Aceasta pentru a face DGA cat mai independent de limba si de variantele de formalizare ale gramaticilor de dependenta. Totusi, DGA poate fi usor transformat intr-un instrument semiautomatic prin integrarea unor produse externe (POS tagger, parser etc.). DGA permite vizualizarea si modificarea corpusurilor adnotate anterior (folosind comanda Open corpus din meniul File). Desi initial aceasta facilitate a fost prevazuta pentru a modifica adnotari facute tot cu DGA, ea poate fi folosita si in cazul unor produse externe (POS tagger, parser etc.). Trebuie doar ca, corpusul adnotat automat (cu produsul extern) sa fie transformat din formatul pe care il foloseste produsul extern respectiv in formatul XML folosit de DGA. Dupa aceasta operatie corpusul poate fi deschis cu DGA si corectate (modificate) adnotarile facute automat.

Exista posibilitatea de a ajuta procesul de adnotare cu DGA folosind produse externe (de ex. POS tagger, parser etc.)? Utilizatorul in acest caz ar avea rolul de a corecta o adnotare facuta automat si deci procesul de adnotare ar fi mult mai rapid.

Da, exista aceasta posibilitate. DGA permite vizualizarea si modificarea corpusurilor adnotate anterior (folosind comanda Open corpus din meniul File). Desi initial aceasta facilitate a fost prevazuta pentru a modifica adnotari facute tot cu DGA, ea poate fi folosita si in cazul unor produse externe (POS tagger, parser etc.). Trebuie doar ca, corpusul adnotat automat (cu produsul extern) sa fie transformat din formatul pe care il foloseste produsul extern respectiv in formatul XML folosit de DGA. Dupa aceasta operatie corpusul poate fi deschis cu DGA si corectate (modificate) adnotarile facute automat.

Poate fi modificat DGA, in principiu, astfel incat sa permita, in egala masura, adnotarea morfosintactica a textelor? Cum ar putea fi realizat acest lucru? (pusa de doua ori)

Da. Trebuie doar ca DGA sa mai permita si adaugarea informatiilor morfologice pentru un cuvant. Acest lucru se poate face foarte simplu adaugand in meniul contextual care se deschide cand se face clic dreapta pe un cuvant o comanda "morphology" (de exemplu) care, atunci cand este apelata, sa deschida o caseta de dialog unde sa fie introduse informatiile morfologice pentru cuvantul respectiv.

Am inteles ca DGA salveaza rezultatele in format XML. Dispuneti si de un XSLT care sa transforme rezultatele din format XML in alt format XML si, daca da, in care anume? Iar daca nu, asta inseamna ca ii revine utilizatorului sarcina de a scrie un XSLT?

Formatul XML folosit de DGA este unul foarte simplu, inspirat din standardul XCES. Nevoile utilizatorilor pot fi insa foarte variate asa ca, daca utilizatorul are nevoie de un alt format, atunci trebuie sa scrie un XSLT cu care sa transforme corpusul din formatul XML folosit de DGA in formatul care ii trebuie. De exemplu, eu folosesc un XSLT pentru a transforma textele aadnotate cu DGA in format HTML care sa permita vizualizarea acestor texte pe web.

Cum se pot vizualiza fisierele XML rezultate in urma adnotarii cu DGA on-line? (pusa de doua ori)

Exista mai multe solutii posibile. Voi prezenta una care a fost deja implementata:

Mai intai, fisierele XML rezultate in urma adnotarii cu DGA au fost transformate cu ajutorul XSLT in fisiere HTML. In fisierele HTML fiecare propozitie este continuta intr-un FORM. La operatia de SUBMIT (click pe o propozitie in cazul nostru), FORM-ul va trimite server-ului (cu ajutorul unor campuri de tip HIDDEN) informatiile cuprinse in adnotare. Pe baza acestor informatii, un script perl de pe server construieste o imagine jpeg care sa reprezinte in forma grafica obisnuita adnotarea. Aceasta imagine ii este returnata browser-ului care o va afisa intr-o fereastra noua. Puteti vedea cum functioneaza aceasta solutie la adresa:

http://phobos.cs.unibuc.ro/roric/texts/indexro.html

Ce este XCES? (pusa de doua ori)

XCES (XML Corpus Encoding Standard) este un standard de reprezentare a corpusurilor. Detalii si alte informatii puteti gasi la:

http://www.cs.vassar.edu/XCES/

Cum v-ati inspirat din setul de taguri X C E S cand ati proiectat instrumentul DGA? In ce consta asemanarea?

Deoarece nu exista inca un set standard de taguri cu care sa se marcheze adnotarea sintactica a unui text, DGA folosete pentru reprezentarea textelor adnotate un set de taguri inspirat din XCES (setul de taguri standard pentru reprezentarea adnotarii morfosintactice). Ideea generala a fost aceea de a folosi un set de taguri cat mai simplu pentru a putea fi usor facut compatibil cu un standard viitor. Din XCES s-au pastrat tagurile care marcau structura generala (delimitarea propozitiilor cu <s>...</s>, a fiecarui token din cadrul unei propozitii cu <tok>...</tok>). Pentru fiecare token, tot din XCES, s-a pastrat marcarea formei ortografice cu <orth>...</orth> si a partii de vorbire (neambigua) cu <ctag>...</ctag>. S-a renuntat la tagurile (din XCES) care se refereau la informatiile morfologice si s-au introdus taguri noi pentru informatiile sintactice: <syn>...</syn>, <head>...</head>, <reltype>...</reltype>.

Care sunt tipurile de dependente posibile?

Tipurile clasice de dependente sunt: subiect, obiect si complement (altul decat cel direct). Aceste dependente pot fi insa in continuare rafinate. De pilda, in stabilirea celor mai frecvente relatii de dependenta in limba romana s-a luat in consideratie, de cele mai multe ori, functia sintactica a cuvantului dependent. Un tabel continand cele mai frecvente tipuri de dependente in limba romana poate fi gasit in articolul aflat acum pe web. Acest tabel va fi actualizat de RORIC la sfarsitul lunii februarie.

Pentru ce anume este relevanta detectarea relatiilor de dependenta?

Detectarea relatiilor de dependenta este relevanta in special deoarece majoritatea lingvistilor sunt astazi de acord cu faptul ca in centrul conceptului de structura a propozitiei se afla relatiile dintre cuvinte, indiferent daca aceste relatii se refera la posibilele functii gramaticale (subiect, complement etc.), ori la acele legaturi care imbina cuvintele in unitati mai largi, cum ar fi grupurile sintactice. Spre deosebire de gramaticile generative, gramaticile de dependenta pot descrie cu mai mult succes fenomene lingvistice cum ar fi existenta constituentilor discontinui sau variatia ordinii cuvintelor in cadrul propozitiei. In ceea ce priveste aplicatiile de natura computationala, formalismul gramaticilor de dependenta s-a dovedit, spre exemplu, a fi mai adecvat decat cel al gramaticilor generative pentru a fi utilizat cu succes in efectuarea analizei sintactice de tip stocastic ("stochastic parsing").

 

Intrebari privind aplicarea gramaticilor de dependenta la limba romana

Dati exemple de cateva diferente intre relatiile sintactice clasice si relatiile de dependenta.

Diferenta cea mai importanta este constituita de subordonarea prepozitionala. In sistemul relatiilor de dependenta, prepozitia isi pierde, in general, calitatea de element subordonator si, in consecinta, stabileste ea insasi diferite relatii. Conventional, prepozitia preia relatia cuvantului pe care il preceda (atribut, complement etc.), iar acesta i se subordoneaza printr-o relatie numita prepozitionala. In alte situatii (spre ex. prepozitia A, morfem al infinitivului), prepozitia se subordoneaza verbului regent nepredicativ (prin relatie infinitivala), iar acesta, la randul sau, unui alt regent. De asemenea, din cauza dublei subordonari din sintaxa traditionala, am considerat, prin conventie, elementul predicativ suplimentar ca fiind complement circumstantial (de mod). O alta diferenta priveste articolele: articolul nehotarat intra in relatie nehotarata cu substantivul regent, articolul hotarat (antepus numelor proprii la G/D) stabileste o relatie hotarata cu regentul, articolul posesiv se subordoneaza regentului, preluand functia cuvantului in G. etc.

In unele situatii nu exista o continuitate intre enunturi. De ce?

Aceasta discontinuitate intre fragmentele de text se explica prin adnotarea unor fraze mai ample si prin segmentarea lor in propozitii. In cazul propozitiilor subordonate de diverse feluri, si, mai ales, in cazul celor intercalate, izolarea din contextul in care apar determina o rupere a continuitatii logice a enuntului.

Care este solutia propusa in situatiii ambigue din punct de vedere sintactic?

Am incercat sa evit texte care sa contina asemenea situatii, complicate, de altfel, pentru toate tipurile de gramatici.Totusi, daca, inevitabil, am fost in situatia de a rezolva un exemplu ambiguu, am apelat la argumente contextuale. Intr-un exemplu de tipul: Solutia fiind lasata in suspans, sedinta s-a incheiat, contextul ne indica, totusi, o valoare pasiva a participiului, iar dependentele sunt urmatoarele: FIIND stabileste o relatie auxiliara fata de LASATA care, la randul lui, depinde de verbul (s-a) INCHEIAT printr-o relatie de complement circumstantial (temporal).

Cum ati rezolvat problema locutiunilor (de orice fel)?

Am considerat, principial si conventional, ca, din punctul de vedere al relatiilor de dependenta, nu exista locutiuni. Am incercat, in masura posibilului, sa analizez in elemente componente locutiunile intalnite. In acelasi timp m-am straduit sa evit orice locutiune a carei structura nu se poate analiza.

Cum ati rezolvat problema locutiunilor prepozitionale alcatuite dintr-un adverb si o prepozitie? Dati un exemplu.

In exemple de tipul: inainte de, aproape de etc., am considerat doua unitati diferite (adverb si prepozitie), primul fiind cap pentru al doilea. Relatia stabilita de prepozitie este: complement indirect, iar relatia stabilita de adverb fata de un alt cuvant-cap este, in general: complement circumstantial: A plecat inainte de masa.

Cum ati rezolvat problema numelor compuse?

Daca numele compuse prezinta o clara structura sintactica, ele sunt analizate in elemente componente (intre care se stabilesc relatii de dependenta): Statele Unite, Ministerul de Externe, Marea Britanie; de la, pana la etc. In ceea ce priveste numele proprii compuse, le-am considerat o singura unitate lexicala.

Cum ati rezolvat problema numelor proprii compuse?

Numele proprii compuse (substantive compuse) au fost considerate, conventional, un singur cuvant. Tehnic, am eliminat spatiul dintre elementele componente.

Cum ati rezolvat notarea diferita a numeralelor gasite in textele adnotate (spre ex., 100 de mii, comparativ cu 100.000)?

In prima situatie (100 de mii), am considerat 100 numeral, de care depinde prepozitia DE printr-o relatie de "atribut substantival"; MII, ca substantiv, depinde de prepozitie prin "relatie prepozitionala". In cazul al doilea, am considerat un simplu si unic numeral cardinal.

Explicati cum ati procedat la diateza pasiva.

Explicatia este urmatoarea: verbele auxiliare intra, toate, in relatie de dependenta cu participiul verbului de conjugat. Aceasta relatie de dependenta se numeste: relatie auxiliara.

Cum se face diferenta intre cordonarea prin conjunctii si cea prin juxtapunere?

In cazul coordonarii prin conjunctii, cele doua unitati coordonate depind de conjunctia coordonatoare prin relatia numita conjunctionala, iar conjunctia se subordoneaza elementului regent, preluand functia determinantelor. In cazul coordonarii prin juxtapunere, toate elementele subordonate intra in dependenta directa cu elementul regent unic.

Cum ati rezolvat problema asa-numitelor "constructii" gerunziale si infinitivale?

Ca si locutiunile sau expresiile, aceste "constructii" nu au fost considerate ca atare (de altfel, ele sunt, oricum, susceptibile de obiectii). In consecinta, am interpretat toate situatiile de acest tip ca structuri analizabile. Iata un exemplu: Fiind plecata din oras, nu a vazut ce s-a intamplat. FIIND se subordoneaza verbului predicativ VAZUT (nu a vazut)prin relatie de complement circumstantial (de cauza), iar PLECATA este nume predicativ depinzand de regentul gerunzial (si copulativ) FIIND.

Coordonarea poate fi realizata, simultan, prin virgula (juxtapunere) si prin conjunctie. Explicati, printr-un exemplu, relatiile de dependenta stabilite.

Un exemplu de acest tip poate fi urmatorul: Colocviul a fost antrenant, interesant si plin de discutii pasionate. Adjectivele ANTRENANT, PASIONANT si PLIN sunt, toate, in gramatica "traditionala", nume predicative fata de verbul copulativ A FOST. In cazul relatiilor de dependenta, numai ANTRENANT este considerat nume predicativ; celelalte doua se subordoneaza conjunctiei coordonatoare SI (printr-o relatie "conjunctionala"); conjunctia SI preia, astfel, functia sintactica a adjectivelor si intra, ea insasi, in relatie de "nume predicativ" fata de verbul A FOST.

Ati facut vreo diferenta, in cadrul relatiilor de dependenta propuse, intre gradele comparativ si superlativ?

Nu am facut nici o diferenta intre cele doua grade de comparatie, subordonand toate situatiile din aceasta categorie unei unice relatii de dependenta, numita generic "relatie comparativa". In acest fel, am respectat un anume grad de rafinare, principial propus in realizarea relatiilor de dependenta.

Explicati ce tipuri de relatii de dependenta apar in contextul verbului a avea + verb la supin.

Relatiile care apar sunt urmatoarele: complement direct si relatie prepozitionala. Iata un exemplu minimal: Am de lucrat.Prepozitia DE (marca a supinului) stabileste fata de verbul regent AM rrelatia de complement direct, iar verbul de conjugat LUCRAT se subordoneaza prepozitiei, devenita, la randul ei, regent, prin relatia numita prepozitionala.

Cum rezolvati, din punctul de vedere al relatiilor de dependenta, un enunt de tipul: Imaginea este stearsa?

Acest enunt, lipsit de orice argument contextual suplimentar, este, intr-adevar, ambiguu din punct de vedere sintactic. Solutia este, in asemenea situatii, arbitrara: fie ESTE verb predicativ (si copulativ), iar STEARSA adjectiv (relatie de "nume predicativ"), fie ESTE verb auxiliar (diateza pasiva) si depinde de regentul sau STEARSA (considerat verb predicativ) (relatie "auxiliara").In cazul de fata, totusi, inclin spre prima varianta.

Cum ati numi relatiile de dependenta dintr-un context nominal de tipul: (Am admirat) o pictura a lui Picasso?

In acest context, relatiile de dependenta sunt urmatoarele: articolul nehotarat O depinde de substantivul PICTURA printr-o relatie numita "nehotarata"; articolul posesiv A se subordoneaza tot lui PICTURA prin relatia "atribut substantival"; articolul hotarat LUI (antepus datorita vecinatatii unui nume propriu masculin)se subordoneaza acestuia (lui PICASSO)printr-o relatie numita "hotarata"; in sfarsit, substantivul PICASSO depinde de articolul posesiv A printr-o relatie "posesiva".

Exista vreo relatie de dependenta in limba romana pentru care cuvantul-cap si cuvantul dependent sa fie prepozitii? Daca da, oferiti un exemplu! Cum ati numi o astfel de relatie?

Exista, in acest sens, situatia prepozitiilor compuse (in care, prin conventie, al doilea element depinde de primul).Exemplu: Cartea de la tine a fost interesanta. Prepozitia LA depinde de prepozitia DE, iar relatia se numeste PREPOZITIONALA (cuvantul-cap fiind o prepozitie).

Dati doua exemple de noi relatii de dependenta pentru limba romana aparute in urma adnotarii textelor din ziar.

  1. relatie prepozitionala, in care intotdeauna cuvantul-cap este o prepozitie, indiferent de elementul subordonat.

  2. relatie conjunctionala, in care intotdeauna cuvantul-cap este o conjunctie coordonatoare, indiferent de elementul subordonat.

Dati un exemplu de propozitie romaneasca care sa contina o relatie prepozitionala in care cuvantul-cap este o prepozitie iar cuvantul dependent este o conjunctie coordonatoare.

Un posibil exemplu este urmatorul: A fost acceptat dupa proba practica si interviu. PROBA si INTERVIU depind de conjunctia coordonatoare SI (relatie conjunctionala), iar aceasta de prepozitia regenta DUPA (relatie prepozitionala).

Dati un exemplu de propozitie romaneasca care sa contina o relatie prepozitionala in care cuvantul-cap este o prepozitie iar cuvantul dependent este un pronume demonstrativ.

Un posibil exemplu este urmatorul: Putini dintre acestia au acceptat. Prepozitia DINTRE este cuvantul-cap, iar pronumele ACESTIA este cuvantul dependent. Relatia este prepozitionala.

Exista vreo relatie de dependenta in limba romana pentru care cuvantul-cap sa fie articol posesiv, iar cuvantul dependent sa fie un pronume? Cum s-ar numi o astfel de relatie? In cazul in care ea exista dati un exemplu.

Da, exista. Iata un exemplu: Aceste interese ale lui nu ma intereseaza. Articolul posesiv ALE este cuvantul-cap, iar pronumele personal LUI este cuvantul dependent. Relatia se numeste RELATIE POSESIVA.

Ce tipuri de relatii de dependenta ati gasit, pentru limba romana, in care cuvantul-cap sa fie o prepozitie? Dati exemple.

Atunci cand cuvantul-cap este prepozitie, toate relatiile de dependenta (indiferent de termenul dependent) se numesc RELATII PREPOZITIONALE. De o prepozitie pot depinde: un substantiv, un adverb, un pronume, un verb nepredicativ, o conjunctie coordonatoare, un numeral.

Dati un exemplu de relatie de dependenta de tip "nume predicativ" formata cu un cuvant-cap verb si un cuvant dependent numeral (in limba romana).

Exemplul este urmatorul: Premiantii din aceasta clasa sunt trei. In acest caz, numeralul cardinal TREI este nume predicativ fata de verbul copulativ SUNT. Relatia se numeste predicativa.

Dati exemplu de un subiect exprimat printr-o conjunctie.

Un exemplu simplu poate fi acesta: Americanii si britanicii au bombardat sistematic Afganistanul. Cele doua substantive depind de conjunctia coordonatoare prin relatie coordonatoare, iar SI este in pozitie de subiect fata de verbul regent AU BOMBARDAT.

Explicati, inclusiv printr-un exemplu, cum arata un nume predicativ "exprimat" printr-o prepozitie.

Iata exemplul: Aceasta replica nu este in masura sa ma ajute. In acest caz, prepozitia IN intra in relatie de nume predicativ cu verbul regent copulativ ESTE (preluand, in realitate, functia sintactica a intregii sintagme IN MASURA). Substantivul MASURA intra in relatie prepozitionala fata de elementul regent IN.

Relatia auxiliara priveste exclusiv verbele auxiliare?

Nu. Sunt doua tipuri de relatie auxiliara: primul se realizeaza intre elementul regent verbal si verbele auxiliare (la moduri si timpuri compuse, ca si la diateza pasiva); al doilea se realizeaza intre elementul regent verbal si conjunctia SA, element component si morfem specific al conjunctivului. In ambele situatii, verbul este cuvantul-cap, iar verbele auxiliare, respectiv conjunctia auxiliara sunt cuvinte dependente.

Dati un exemplu de relatie de dependenta in limba romana pentru care cuvantul-cap sa fie un numeral, iar cuvantul dependent sa fie substantiv, in cazul in care o astfel de relatie exista.

Acest tip de relatie exista si se numeste: atribut substantival. Iata un exemplu: Pe 11 septembrie a avut loc un atentat asupra Statelor Unite.

Puteti da un exemplu de propozitie in limba romana in care sa intervina o relatie de dependenta in cadrul careia cuvantul-cap este un articol posesiv, iar cuvantul dependent este un adjectiv? Cum ati numi o astfel de relatie de dependenta?

Exemplul este urmatorul: M-a vizitat un prieten al meu. Relatia se numeste POSESIVA.

Dati un exemplu de relatie de dependenta, in limba romana, in care cuvantul-cap sa fie adjectiv, iar cuvantul dependent un articol demonstrativ.

Un exemplu poate fi urmatorul: Cea mai frumoasa casa este a ta. Relatia se numeste: relatie comparativa.

Un exemplu poate fi urmatorul: Cea mai frumoasa casa este a ta. Relatia se numeste: relatie comparativa. (pusa de doua ori)

Sunt, pana acum, cinci tipuri. Iata relatiile rezultate:

  1. Complement direct: L-a intrebat pe colegul ei daca a invatat.

  2. Complement indirect: Se gandeste la vacanta.

  3. Complement de agent: A fost ajutat de tatal lui.

  4. Nume predicativ: Astazi sportivul nu a fost in forma.

  5. Complement circumstantial: Se plimba cu masina.

Dati un exemplu de relatie de dependenta, in limba romana, in care cuvantul-cap sa fie un adjectiv, iar cuvantul dependent o prepozitie.

Cunosc o persoana capabila de orice. CAPABILA este cuvantul-cap, DE este cuvantul dependent, iar relatia este: complement indirect.

Dati exemple de situatii in care o conjunctie este cuvantul-cap si explicati procedeul.

Un exemplu poate fi urmatorul: Am primit o carte interesanta si utila. Adjectivele INTERESANTA si UTILA se subordoneaza regentului SI (devenit astfel cuvant-cap)prin relatii conjunctionale. La randul sau, conjunctia coordonatoare SI se subordoneaza substantivului CARTE prin relatia de atribut adjectival (preluand functia traditionala a acestora). Un alt exemplu: Sunt interesat de fizica si de matematica. Prepozitiile DE se subordoneaza amandoua cuvantului-cap SI prin relatii conjunctionale. SI se subordoneaza verbului prin relatia de complement indirect. Cele doua substantive (FIZICA si MATEMATICA) se subordoneaza prepozitiilor DE prin relatii prepozitionale.

In sfarsit, un alt exemplu: Relatiile de prietenie si colegialitate sunt preferabile celor de dusmanie si invidie. PRIETENIE si COLEGIALITATE se subordoneaza cuvantului-cap SI prin relatii conjunctionale, conjunctia SI se subordoneaza cuvantului-cap DE printr-o relatie prepozitionala, iar acesta substantivului regent RELATIILE prin relatia de atribut substantival.

Explicati, pe scurt, care este rolul prepozitiei in sistemul relatiilor de dependenta.

Prepozitia are urmatorul rol: in pozitie de cuvant dependent, preia functia sintactica a determinantului (complement, atribut, nume predicativ etc.); acesta din urma se subordoneaza, la randul lui, prepozitiei si stabileste, fata de aceasta, intotdeauna o relatie prepozitionala.

Numele predicativ poate fi exprimat printr-o prepozitie?

Da. Iata un exemplu: Acest costum iti este pe masura. Prepozitia PE este nume predicativ, subordonat verbului regent copulativ ESTE.

Exista vreo relatie de dependenta in limba romana pentru care cuvantul "cap" sa fie o prepozitie, iar cuvantul "dependent" sa fie un pronume? Daca da, cum s-ar numi o astfel de relatie? In cazul in care ea exista, dati un exemplu.

Da, exista. Un exemplu poate fi urmatorul: Multi dintre noi ar vrea sa vada Italia. Prepozitiei DINTRE (cuvant-cap) i se subordoneaza pronumele personal NOI prin asa-numita relatie prepozitionala (care apare intotdeauna cand cuvantul-cap este o prepozitie).

Care este diferenta dintre "conjunctie auxiliara" si "conjunctie coordonatoare"?

Diferenta este urmatoarea: conjunctia coordonatoare (SI, SAU, ORI)coordoneaza doua parti de propozitie de acelasi fel, iar cea auxiliara este reprezentata de morfemul de conjunctiv SA. Prima preia functia elementelor coordonate, a doua se subordoneaza, ea insasi, verbului la conjunctiv printr-o relatie auxiliara.

Relatia auxiliara se refera strict la verbele auxiliare sau nu?

Nu.Sunt doua posibilitati: prima priveste verbele auxiliare (care intra in relatie de dependenta cu verbul de conjugat); a doua priveste conjunctia auxiliara SA (morfem al conjunctivului). Ambele relatii se numesc auxiliare. Ex: As fi vrut sa vin acasa mai repede. AS si FI sunt verbe auxiliare (fata de VRUT), iar SA este conjunctie auxiliara (fata de VIN).

Dati un exemplu de relatie de dependenta in limba romana, in care cuvantul "cap" sa fie o prepozitie, iar cuvantul "dependent" sa fie o conjunctie.

Un exemplu este urmatorul: Colaborarea dintre SUA si Anglia este remarcabila. Cuvantul "cap" este DINTRE, cuvantul "dependent" este SI. Relatia este prepozitionala. La randul lor, substantivele SUA si ANGLIA depind de SI prin relatii conjunctionale. Prepozitia DINTRE se subordoneaza substantivului regent prin functia (relatia) de atribut substantival.

Dati un exemplu de relatie de dependenta in limba romana pentru care cuvantul-cap sa fie un verb nepredicativ, iar cuvantul dependent sa fie un numeral, in cazul in care o astfel de relatie exista.

Exista. Iata un posibil exemplu: Fiind al doilea din clasa, dupa decernarea premiilor, el a ramas cam suparat.FIIND este verbul nepredicativ, AL DOILEA este numeral ordinal, iar relatia este de nume predicativ.

Exista vreo relatie de dependenta in limba romana pentru care cuvantul-cap sa fie o prepozitie, iar cuvantul dependent sa fie un numeral si cum s-ar numi o astfel de relatie? In cazul in care ea exista, dati un exemplu.

Exista. Un posibil exemplu este acesta: Numai doi concurenti din zece au terminat cursa. Prepozitia DIN este cuvant-cap pentru numeralul cardinal ZECE. Relatia de dependenta stabilita intre prepozitie (cap) si numeral (dependent) se numeste PREPOZITIONALA.

Exista vreo relatie de dependenta in limba romana pentru care cuvantul-cap sa fie o prepozitie, iar cuvantul dependent sa fie un verb predicativ si cum s-ar numi o astfel de relatie? In cazul in care ea exista, oferiti un exemplu.

Nu exista. Este imposibila, din punctul de vedere al logicii sistemului relatiilor de dependenta.

Exista vreo relatie de dependenta in limba rommana pentru care cuvantul-cap sa fie un pronume, iar cuvantul-dependent sa fie o prepozitie? Cum s-ar numi o astfel de relatie? In cazul in care ea exista, dati un exemplu de propozitie romaneasca in care sa intervina.

Exista. Iata un exemplu: Unii dintre colegi nu au venit astazi la facultate. Pronumele nehotarat regent (cap) este UNII, iar DINTRE este prepozitia subordonata. Relatia se numeste atribut substantival.

Exista vreo relatie de dependenta in limba romana pentru care cuvantul "cap" sa fie un adjectiv, iar cuvantul "dependent" sa fie o prepozitie? Cum s-ar numi o astfel de relatie? In cazul in care exista, dati un exemplu de propozitie in romana in care sa intervina.

Exista. Iata un exemplu: Bucuros de vestea primita, a plecat acasa. Adjectivul BUCUROS este "cap", iar prepozitia DE este "dependent". Relatia este: complement indirect. Un alt exemplu de relatie poate fi complement circumstantial: Odata plecati din oras, nu s-au mai intors.

Explicati printr-un exemplu relatia hotarata.

Relatia hotarata este posibila numai in cazul numelor proprii in genitiv si in dativ (masculine si, in unele situatii, feminine), precedate de articolul hotarat LUI. Iata un exemplu: I-am cerut scuze lui Petru. LUI se subordoneaza lui PETRU prin relatia hotarata. PETRU se subordoneaza lui AM CERUT prin relatia de complement indirect.

Explicati relatiile in cadrul prepozitiilor compuse.

In cadrul prepozitiilor compuse, am considerat, conventional, primul component pe post de cuvant-cap (care depinde, la randul lui, de un alt element regent); al doilea component se subordoneaza primului prin relatie prepozitionala; in sfarsit, cuvantul pe care il introduce prepozitia compusa respectiva se subordoneaza, de asemenea, primului component, prin aceeasi relatie prepozitionala. Ex: Vin de la scoala. DE este cuvant-cap pentru LA si pentru SCOALA. El se subordoneaza verbului prin relatia de complement circumstantial (preluand rolul intregului element de relatie subordonator).

Explicati diferenta dintre relatiile posesiva si nehotarata (prin raportarea la cuvantul-cap).

In cazul relatiei posesive, articolul posesiv devine cuvant-cap (preia rolul substantivului regent, cu care se acorda formal: carte a colegului); substantivul in genitiv se subordoneaza lui A, iar relatia este posesiva. In cazul relatiei nehotarate, articolul nehotarat se subordoneaza substantivului pe care il preceda si de care depinde formal (cumpar o carte); este, asadar, un element dependent.

De ce, dintre toate tipurile de pronume din limba romana, ati particularizat pronumele reflexiv?

Explicatia este urmatoarea: pronumele reflexiv, dintre toate celelalte categorii, este singurul cu valoare morfematica (ajuta la formarea diatezei reflexive). Pentru a evidentia aceasta diateza, am recurs la relatia reflexiva (realizata cu ajutorul pronumelui reflexiv).

In situatia in care cuvantul cap este o prepozitie, relatia de dependenta corespunzatoare va fi intotdeauna numita relatie prepozitionala? (pusa de doua ori)

In toate situatiile de acest gen (cuvantul-cap prepozitie), relatia va fi numita prepozitionala.

Care sunt elementele morfologice care intra in relatie de dependenta cu o conjunctie coordonatoare? Dati cateva exemple.

Conjunctia coordonatoare poate fi cuvant-cap in situatii de felul urmator:

  1. fata de substantive: Am vizitat Roma si Milano.

  2. fata de pronume: Nu stiu daca au intrat multi sau putini.

  3. fata de adjective: Ea a devenit frumoasa si inteligenta.

  4. fata de numeral: Au ramas doar doi sau trei dintre noi.

  5. fata de prepozitii: S-a plimbat prin Iasi si prin Bucuresti.

Exista vreo relatie de dependenta in limba romana pentru care cuvantul-cap sa fie un verb, iar cuvantul dependent sa fie o prepozitie? Daca da, cum s-ar numi o astfel de relatie? In cazul in care ea exista, dati un exemplu.

In limba romana exista numeroase asemenea situatii. Denumirea relatiei difera in functie de rolul sintactic al cuvantului precedat de prepozitia respectiva: daca prepozitia preceda un nume predicativ, relatia e predicativa, daca preceda un complement circumstantial, relatia e circumstantiala, daca preceda un complement direct, relatia e de complement direct etc. Iata un posibil exemplu: Plec la facultate. In acest context, LA stabileste o relatie de complement circumstantial fata de verbul regent PLEC, iar substantivul FACULTATE intra intr-o relatie prepozitionala fata de cuvantul-cap LA.

Dati cate un exemplu de propozitie romaneasca in care sa intervina cate o relatie de tip "nume predicativ", formata cu un cuvant-cap verb si un cuvant dependent adverb, respectiv pronume.

Exemple pot fi urmatoarele:

  1. cuvant-cap verb, dependent adverb: Este bine in vacanta.

  2. cuvant-cap verb, dependent pronume: Intrebarea este aceasta.

In ambele situatii, verbul regent este copulativ, iar relatia este "nume predicativ".

 

Intrebari referitoare la HPSG

Cine a inventat HPSG ?

Fondatorii HPSG sînt Ivan A. Sag (profesor de lingvistica si sisteme simbolice la Universitatea Stanford California) si Carl Pollard (profesor de lingvistica la Universitatea statului Ohio, Columbus).

Exista la universitate cursuri de introducere in HPSG?

Pana anul trecut a existat un curs introductiv pentru ultimul an si un curs cu aplicatii la limba româna pentru anul de masterat - ambele la Facultatea de Litere de la Universitatea din Bucuresti. Prin decizia sefului catedrei de limba româna, din acest an nu mai exista decat cursul de la masterat.

Exista si alte prezentari in limba romana ale HPSG?

Exista, de asemenea, o prezentare sintetica în Doina Tatar, "Inteligenta artificiala", Editura Albastra, Cluj, 2001.

Cum as putea gasi mai multe lucrari de HPSG? (pusa de doua ori)

Formeaza hpsg drept cuvant-cheie si vei gasi o adresa pentru "HPSG literature", care contine o foarte bogata bibliografie.

Exista implememtari computationale ale HPSG?

Da, exista. Cele mai recente (cunoscute de noi) sunt implementarile gramaticii interogativelor în engleza. De asemenea, exista o implementare referitoare la ordinea cuvintelor în germana.

Au fost deja implementate mecanisme computationale bazate pe HPSG?

Nu sunt sigur ca înteleg corect ceea ce întelegeti prin "mecanisme computationale bazate pe HPSG". Daca aveti în vedere principii HPSG (de exemplu, principiul sintactic al trasaturilor de centru, care pentru mine chiar este un "mecanism computational bazat pe HPSG"), atunci v-as raspunde ca nu cunosc vreo lucrare care sa se fi ocupat în mod concret cu asa ceva. Cu toate acestea, cel care doreste sa implementeze un fragment al unei gramatici, nu poate evita implementarea principiilor foarte generale. Prin urmare, chiar daca nu sunt capabil sa indic o lucrare tratand în mod specific acest subiect, as spune ca astfel de implementari chiar trebuie sa existe si ca implementarea principiilor la care m-am referit este fezabila.

Ce utilitate poate avea implementarea computationala a unei analize HPSG?

Principala utilitate consta în faptul ca analiza devine testabila si poate oferi ipoteze privitoare la plauzibilitatea psihologica a modului în care se achizitioneaza structura supusa analizei.

Ce limbaj de programare se foloseste pentru aplicatiile computationale ale HPSG?

Noi cunoastem aplicatii în PROLOG, dar credem ca exista si aplicatii în LISP.

Ce limbaje de programare recomandati pentru aplicatiile computationale ale HPSG?

Majoritatea aplicatiilor sunt în PROLOG (în special în Europa). Aceasta, fireste, nu înseamna subestimarea celuilalt limbaj, LISP.

Se poate asimila conceptul de unificare celui de reuniune din teoria multimilor?

Da, se poate. Ceea ce se unifica poate fi privit si ca o reuniune.

Ce fenomene lingvistice se modeleaza cel mai bine prin intermediul formalismului HPSG ?

HPSG se doreste a fi o gramatica a unei limbi în general. Nu exista, de aceea, fenomene preferate si fenomene în dizgratie. Se poate însa spune ca, pentru analiza dependentelor la distanta (precum "Who do you think killed Kennedy ?"), s-a lucrat mai multa vreme, primele rezultate nefiind satisfacatoare. Analiza propozitiilor relative a beneficiat, în mod special, de reconsiderari succesive.

Este HPSG o gramatica universala?

Radacinile ultime ale HPSG se gasesc în programul lui Chomsky al Gramaticii Universale. În acest sens, HPSG este o versiune a Gramaticii Universale deoarece este în mod firesc interesata de invariantele limbajului uman. Spre deosebire de programul lui Chomsky, însa, HPSG nu privilegiaza invariantele. Dimpotriva, HPSG întelege sa se apropie cu egal interes de complexitatea si bogatia idiomatica a limbilor concrete. În acest sens, teoria este mai degraba "traditionala".

Cum se comporta HPSG fata de conceptul de "movement", al lui Chomsky?

HPSG nu foloseste operatia de deplasare din gramaticile lui Chomsky, deoarece nu considera ca exista dovezi convingatoare ca aceasta operatie exista cu adevarat, ca parte a "gramaticii mentale".

De ce refuza HPSG conceptul lui Chomsky de "movement"?

Pentru ca nu gaseste nici o dovada empirica pentru aceasta operatie.

Împrumuta HPSG ceva din arhitectura modulara a computerelor? (pusa de trei ori)

Da, împrumuta. Felul în care constrangerile din HPSG sunt verificate seamana mult cu modul în care ne utilizam computerele. De exemplu, nu e nevoie sa întrerupem programul în care lucram daca vrem sa ascultam un CD la computer. Amandoua lucrurile pot fi facute fara ca unul sa depinda de celalalt. Într-un mod asemanator, constrangerile pe o structura lingvistica data sunt verificate în mod independent, adica verificarea unei constrangeri nu presupune verificarea alteia.

Ce inseamna lexicalismul strict si este el tipic pentru abordarea HPSG referitoare la teoria gramaticala?

Lexicalismul strict (sau tare) este o optiune de organizare a unei teorii gramaticale, în conformitate cu care structura interna a cuvintelor este independenta de felul în care cuvintele contribuie la articularea sintagmelor. Aceasta optiune nu caracterizeaza numai HPSG. De pilda, tot strict lexicalist este si Programul Minimalist, în ciuda faptului ca versiunea precedenta a programului lui Chomsky -Teoria GB - nu era.

Cum este organizata informatia lexicala în HPSG?

Principalele nivele ale informatiei lexicale în HPSG sunt cel gramatical, cel semantic, cel fonologic si cel pragmatic. Exista, de asemenea, o trasatura care este raspunzatoare de plasamentul cuvântului în sintagma. Ceea ce este specific reprezentarilor lexicale în HPSG este faptul ca sunt bogate - daca sunt comparate, de pilda, cu reprezentarile lexicale folosite în GB. Se întampla asa deoarece reprezentarile lexicale sunt raspunzatoare de fenomene precum dependenta la distanta, cuantificare sau anaforicitate, care în alte teorii gramaticale sunt considerate autonome si independente.

Constrangerile prin exceptare si regulile lexicale nu sunt mecanisme declarative si procedurale. E corect sa spun ca HPSG nu este pur declarativa? (pusa de doua ori)

Da, este corect sa spuneti asta. Numai ca în absenta acestor mecanisme nedeclarative, analiza limbii naturale ar fi mult mai dificila.

Care este justificarea valorilor coindexate? (pusa de doua ori)

Valorile coindexate reprezinta un instrument util pentru a semnala identitatea nonaccidentala de informatie lingvistica, în contradistinctie cu identitati accidentale de informatie. De pilda, este esential sa semnalam ca în propozitia "Pe Ion nimeni nu stie unde sa-l mai caute" grupul nominal "pe Ion" trebuie sa se refere la acelasi individ ca si pronumele neaccentuat l. Daca nu se semnaleaza ca aceasta identitate de informatie este esentiala, exista posibilitatea sa se interpreteze propozitia si în sensul ca pronumele neaccentuat se refera la o persoana diferita de cea indicata prin grupul nominal "pe Ion". Caz în care putem avea si propozitia "Pe Ion nimeni nu stie unde sa-l mai caute pe Vasile". Dimpotriva, în acelasi enunt, pronumele neaccentuat si pronumele negativ au aceeasi persoana si acelasi numar, dar aceasta identitate de informatie nu este esentiala pentru corectitudinea enuntului. Într-adevar, pronumele negativ poate fi înlocuit cu un grup nominal de o persoana sau de un numar diferit, propozitia ramanand mai departe corecta: "Pe Ion voi nu stiti unde sa-l mai cautati". Aceasta din urma identitate de informatie nu va fi notata prin coindexare.

Cum sunt tratate dependentele la distanta în HPSG?

În mod esential, e vorba de trei constrangeri: una reglementeaza "colectarea" de catre un element lexical a informatiei ca un constituent lipseste. Una reglementeaza transmiterea acestei informatii în sintagmele proiectate de centrul lexical în speta, iar ultima "închide" dependenta, furnizand un constituent care aduce informatia-lipsa. De pilda, pentru propozitia:

(1) Bagels_i , John always said that he likes _ i.

elementele lexicale likes si said colecteaza informatia ca lipseste un constituent:

(i) likes _ i
(iv) said that he likes _ i.

Aceasta informatie este transmisa sintagmelor proiectate de likes si respectiv de said:

(ii)he likes _ i
(iii) that he likes _ i
(v) always said that he likes _ i
(vi) John always said that he likes _ i.

Structura (vi) se închide prin completarea "golului" cu constituentul relevant: bagels.

Cum pot fi clasificate, conform teoriei HPSG, fenomenele legate de acord?

Pollard si Sag ("Head-driven Phrase Structure Grammar", Chicago University Press, 1994, 73-88), clasifica acordul în functie de elementele care realizeaza aceasta relatie:

  1. Pronume-antecedent

  2. Subiect-verb

  3. Determinator-nume

Accentuam faptul ca aceasta clasificare nu este determinata de teoria HPSG ci de limba supusa investigatiei - aici engleza. Daca se lucreaza pe româna, clasificarea se modifica, deoarece româna - limba cu morfologie bogata - face uz si de alte forme de acord în comparatie cu engleza: de pilda, acordul nume-adjectiv.

Cum trateaza teoria HPSG fenomenele legate de acord?

Pollard si Sag , trateaza acordul în functie de elementele care realizeaza aceasta relatie:

  1. Pronume-antecedent

  2. Subiect-verb

  3. Determinator-nume

Accentuam ca aceasta clasificare nu este determinata de teoria HPSG ci de limba supusa investigatiei - aici engleza. Daca se lucreaza pe româna, clasificarea se modifica, deoarece româna - limba cu morfologie bogata - face uz si de alte forme de acord în compartie cu engleza: de pilda, acordul nume-adjectiv.

Va rog descrieti pe scurt felul în care sunt tratate sintagmele în HPSG.

Elementul esential în tratamentul HPSG al sintagmelor este valoarea nonvida pentru trasatura DAUGHTERS (RAMURI). Aceasta înseamna ca o sintagma este obligata sa aiba structura interna în sensul ca ea poate fi descompusa în alte elemente constitutive, care pot fi cuvinte sau de asemenea sintagme, dar nu morfeme. Aceasta este de fapt cea mai generala proprietate a sintagmelor. Ce se întampla mai departe si cum sunt ele tratate depinde de limba care este analizata. De pilda, româna, dar nu si engleza, detine o sintagma de tipul centru-marcator, prin intermediul careia sunt puse în evidenta anumite grupuri nominale, care sunt obiect direct:

Ion o iubeste pe Maria
John loves Mary

Intentionati sa aplicati teoria HPSG in viitor pentru limba romana?

O aplicam deja! Veti putea vedea acest lucru chiar în aceasta pagina, peste cateva luni. Exista de fapt cativa cercetatori care analizeaza limba româna în perspectiva HPSG.

Exista descrieri HPSG ale limbii romane?

Da, exista. Dintre lucrarile publicate în strainatate amintim, în primul rand, analizele Paolei Monachesi privind pronumele neaccentuate. O analiza a negatiei multiple apartinand lui Emil Ionescu a fost publicata în "Proceedings of Formal Grammar Conference", Utrecht, 1999. Este sub tipar o analiza a ordinii constituentilor în grupul nominal (Ana Maria Barbu). Exista apoi un numar de lucrari de licenta nepublicate, dar care dovedesc interesul studentilor pentru aplicatiile HPSG.

Analizati in HPSG propozitia: "Fata rade fericita".

Aceasta propozitie este o sintagma de tipul head-subject. Centrul este el însusi o sintagma (rade fericita), iar subiectul este numele "fata". Sintagma "rade fericita" este de tipul head-adjunct, unde headul este verbul, iar adjunctul este adjectivul "fericita". Acordul acestui adjunct cu subiectul sintagmei "rade fericita" se noteaza prin coindexare: ceea ce este subiect pentru sintagma "rade fericita" este în acelasi timp subiect al adjectivului "fericita".

Cum se poate analiza în HPSG propozitia "Luna straluceste vesela"?

Aceasta propozitie este analizata drept o sintagma de tipul centru subiect (centrul fiind sintagma "straluceste vesela", iar subiectul fiind "luna"). Sintagma "straluceste vesela", la rîndul ei, este de tipul centru-adjunct si se descompune în centrul verbal "straluceste" si în adjunctul "vesela". Dubla dependenta a adjectivului "vesela" - pe de-o parte dependent de verbul-centru "straluceste", pe de alta dependent de substantivul-subiect "luna" - este simplu consemnata prin precizarea ca subiectul adjectivului este identic cu subiectul verbului. Procedura face inutila analiza unei asemenea structuri prin derivarea ei, în stilul teoriei transformationale standard, dintr-o structura de baza de tipul "Luna straluceste si este vesela".

Presupunem ca analizam o limba necunoscuta prin intermediul unui dictionar frazeologic (fiecarei fraze din limba respectiva ii este asociata o fraza in romana). Exista vreun mod de a descoperi care sunt categoriile gramaticale relevante, care vor constitui matricile de trasaturi? Exemplu: Consideram ca limba in cauza este engleza, pentru care acordul adj. subs. este nespecificat pentru gen, nr.. Se poate imagina o procedura de scriere a matricilor de trasaturi pentru adjectiv in engleza plecand de la matricea de trasaturi a adj. in romana, dictionarul de mai sus si principiile generale ale HPSG?

Nu, nu vad cum asa ceva ar fi posibil. Faptele gramaticale relevante pentru o expresie dintr-o anumita limba nu pot fi deduse din sensul expresiilor în cauza - sens captat prin traducere - împreuna cu particularitatile gramaticale ale expresiei care serveste drept "metalimbaj".