Buletinul RORIC-LING

lunile 13 - 18

 

Intrebari generale privitoare la cele doua abordari ale morfologiei luate in discutie

Ce este, in mod cat mai exact, un dictionar morfologic? (pusa de doua ori)

Un dictionar morfologic este un rezumat reprezentativ al tuturor formelor lexicale de baza dintr-o anumita limba, insotite de caracteristicile lor gramaticale. Aceste trasaturi determina generarea tuturor formelor lexicale care sunt derivate din cea de baza si furnizeaza informatia de baza pentru rezultatele analizei textului. Dictionarele morfologice sunt printre primele aplicatii din domeniul procesarii limbajului natural si reprezinta un instrument esential in colectarea si organizarea datelor lingvistice.

Dictionarul morfologic este o baza de date care furnizeaza o gama larga de informatii referitoare la caracteristicile morfologice si la formele unui cuvant dat. El permite, de asemenea, regasirea rapida a informatiilor gramaticale care provin simultan de la paradigme diferite. Principalul tel al unui dictionar morfologic este sa identifice relatiile dintre o forma lexicala concreta si invarianta ei (lema). Scopul dictionarului morfologic este, prin urmare, sa identifice forma lexicala si caracteristicile acesteia si sa o clasifice in raport cu lema sa.

Pentru mai multe informatii asupra dictionarelor morfologice, va invitam sa consultati pagina bulgara a proiectului BALRIC-LING, la adresa
                                                                          http://www.larflast.bas.bg/balric/index/index_eng.htm

Care este diferenta dintre radacina si radical? (pusa de doua ori)

Prin radical (engl. "stem", "theme" sau "thema") intelegem radacina cuvantului (engl. "root") la care se adauga eventuale afixe/infixe. Este vorba despre baza flexionara a unui cuvant, careia ii pot fi adaugate alte elemente: vocale de legatura, desinente etc. Evident, in multe cazuri, radicalul poate fi identic cu radacina unui cuvant.

In majoritatea lucrarilor de specialitate (romanesti si straine), termenul de radacina este sinonim cu cel de radical, desi nu este normal sa se foloseasca doi termeni diferiti pentru exact aceeasi realitate lingvistica. Dupa Valeria Gutu-Romalo (vezi Morfologie structurala a limbii romane, Bucuresti, 1968, p.39 si urm.), radacina poate sa coincida cu radicalul ori poate fi inclusa in acesta din urma atunci cand e vorba de cuvinte formate prin derivare. Astfel, la nivelul limbii romane, un segment fonic cum este cant - (din cant-a) trebuie considerat, in acelasi timp, radacina si radical, insa in descant-a radicalul este descant-, ceea ce inseamna ca el coincide cu asa-zisa "tema lexicala". Tot asa, in calatori radacina este cal- (din cal-e), pe cand radicalul e o grupare de doua morfeme ( cal-ator ), deci o unitate divizibila, in a carei componenta intra si radacina privita exclusiv ca "morfem independent" sau "unitate morfemica indivizibila". Precum vedem, radicalul poate sa contina in plus anumite afixe derivative, pe cand radacina este intotdeauna o unitate minimala indivizibila. Indiferent daca el coincide cu radacina (ca in bat-e, cant-a etc.) sau nu se identifica cu aceasta (ca in razbat-e, incant-a si altele), radicalul apare ca element constant in toate formele flexionare ale unui cuvant, fie el derivat sau nederivat. Acceptand aceasta distinctie, care se intalneste si la unii lingvisti straini si pe care o consideram binevenita, cei doi termeni (adica radacina si radical) pot fi folositi precis specializati din punct de vedere semantic.

Care sunt avantajele utilizarii dictionarului morfologic (prin comparatie cu abordarea flexionara)? (pusa de 3 ori)

Principalele avantaje sunt:

  1. Se evita o data pentru totdeauna discutia "dureroasa" purtata la nivel morfematic si atentia se concentreaza direct asupra cuvintelor, care au rol de "caramida" (dar toate formele lexicale sunt luate in consideratie in mod separat). Flexiunea se refera la particularitatile de formare a cuvintelor intr-o limba data. Intrucat astazi tehnologia limbajului este preocupata in special de analiza textului in cazul majoritatii limbilor europene, este necesara punerea in evidenta a legaturii cuvant - text, o sarcina careia dictionarul morfologic ii este extrem de util.

  2. Suprapunerea oricarui text peste un asemenea lexicon permite discutarea problemelor de POS-dezambiguizare, despre care se considera astazi ca reprezinta adevaratele probleme ale analizei textului (la nivelul cuvantului).

Care este criteriul esential pe baza caruia o anumita trasatura va fi inclusa in dictionarul morfologic? (pusa de 3 ori)

Principalul criteriu de includere a unei trasaturi poate fi exprimat prin intermediul urmatoarei intrebari: "Este acea trasatura importanta pentru producerea si distingerea membrilor paradigmei?"

 

Intrebari referitoare la dictionarul morfologic si implementarea corespunzatoare acestuia

Poate fi folosit un dictionar morfologic la construirea unui spell checker pentru limba romana? (pusa de doua ori)

Nu cred ca in mod direct, dar avand in vedere ca intr-un astfel de dictionar sunt prezente in mod explicit toate formele flexionare ale unui cuvant, dictionarul (unul real, nu o mostra) ar putea fi folosit la alcatuirea unei liste de cuvinte, care mai apoi ar putea fi folosita la constructia unui spell checker. O astfel de solutie nu ar exploata decat o mica parte din informatia prezenta intr-un dictionar morfologic.

Care este diferenta dintre un dictionar al formelor flexionare complete si un dictionar de morfologie flexionara (derivationala)? (pusa de doua ori)

Diferenta principala este ca intr-un dictionar al formelor flexionare complete nu exista reprezentarea structurii cuvantului.

De ce ati ales doar articole de ziar drept surse de corpus? (pusa de doua ori)

Articolele de ziar sunt reprezentative pentru starea unei limbi la un moment dat, si de altfel in munca de alcatuire a corpusurilor este o practica uzuala sa se foloseasca astfel de esantioane.

Nu este si tranzitivitatea o trasatura interesanta din punct de vedere morfologic? Care este motivul pentru care nu a fost inclusa printre trasaturile verbului? (pusa de doua ori)

Motivul a fost ca tranzitivitatea unui verb nu este marcata in limba romana morfologic.

Veti extinde dictionarul? (pusa de doua ori)

Bineinteles, dorim sa facem asta, dar totul depinde mai departe de oportunitatile legate de un nou proiect.

Mai exista si alte contributii on-line la realizarea de resurse morfologice pentru limba romana? (pusa de doua ori)

Din cate stim noi, contributii on-line nu exista, dar exista proiecte in desfasurare la Institutul de Inteligenta Artificiala din Bucuresti si la laboratorul de lingvistica computationala de la Cluj.

Diateza pasiva este o categorie morfologica sau lexicala? Aveti in lexicon si constructii pasive? (pusa de doua ori)

Intr-adevar, gramaticile normative considera diateza pasiva o categorie morfologica. Nu suntem de aceeasi parere, motiv pentru care nu am retinut pasivul in inventarul de trasaturi si nici in lexiconul formelor.

Cum tratati cazurile de ambiguitate morfologica? (pusa de doua ori)

Voi relua explicatia data in prezentarea dictionarului. Sa presupunem ca avem cuvantul englezesc fly. Trasaturile de lema ne vor ajuta sa dezambiguizam mai intai partea de vorbire si astfel cuvantul fly va intra in dictionar cu doua leme, una pentru verb si alta pentru nume. Verbul la randul lui e ambiguu si dezambiguizarea urmatoare se va face cu trasaturile formelor flexionare. Vom avea din nou doua intrari, adnotate dupa cum urmeaza: fly pr12sg; fly 123pl.

Nu mi-e clar de ce faceti diferenta intre nume proprii si comune. (pusa de doua ori)

Avem nevoie de distinctia aceasta deoarece exista diferente de flexiune intre nume proprii si nume comune.

Adjectivul este in romana o categorie care are si ea articol? Aratati-mi, va rog, diferenta dintre un adjectiv articulat si unul nearticulat. (pusa de doua ori)

Adjectivele pot avea si articol (definit) atunci cand preceda un substantiv. Pentru combinatia copilul frumos (in care articolul definit sta ca de obicei la substantiv), adjectivul postnominal nu poate fi articulat. In cazul plasarii lui inaintea verbului insa, adjectivul preia articolul substantivului: frumosul baiat.

Nu ar fi posibil sa imbogatiti dictionarul printr-un procedeu automat, mai clar, introducand forma unui cuvant manual si apoi construind restul paradigmei cu ajutorul unui program? (pusa de doua ori)

Sigur ca ar fi posibil, dar ne trebuie tocmai un astfel de program, pe care speram sa il realizam in viitor.

Care este de fapt scopul unui asemenea dictionar? (pusa de doua ori)

Un dictionar este o resursa, iar resursele sunt multifunctionale. Un scop pe care un astfel de dictionar l-ar putea servi este acela al invatarii limbii romane de catre straini.

Poate lexiconul sa-mi indice structura interna a unui cuvant? (pusa de doua ori)

Nu poate. El poate doar sa dea o forma intreaga impreuna cu informatia relevanta pentru forma in cauza.

Din cate stiu, romana foloseste mijloace analitice pentru exprimarea gradului de comparatie la adjective. Acesta este motivul pentru care gradul de comparatie nu apare in dictionar? (pusa de doua ori)

Da, acesta este. Adjectivele cu grade de comparatie sunt socotite cuvinte alcatuite din alte cuvinte.

De ce aveti nevoie de deosebirea dintre trasaturi de lema si trasaturi de forme flexionare? (pusa de doua ori)

Distinctia in cauza a fost adoptata mai ales din considerente de descriere uniforma - dictionarul bulgar procedeaza si el astfel. Intr-o anumita masura, ea este desigur si o distinctie teoretica, numai ca noi credem ca descrierea putea sa functioneze la fel de bine si fara aceasta distinctie.

6678 de forme flexionare este un esantion prea mic de dictionar. Il veti extinde in viitor? (pusa de doua ori)

Desigur, numai ca aceasta va fi parte a unui nou proiect.

Categoria particulelor nu este convingator definita in preambulul dictionarului. Ati putea fi mai explicit in privinta motivelor care v-au determinat sa adoptati o astfel de categorie? (pusa de doua ori)

Desigur, aceasta categorie este destul de eterogena, dar n-am gasit o solutie mai buna de a lucra cu elemente care nu sunt nici adverbe nici vreo alta parte de vorbire. Astfel incat solutia noastra a fost una de extrema urgenta.

Articolul posesiv si demonstrativ sunt si ele reprezentate in dictionar? N-am putut sa le gasesc. (pusa de doua ori)

Cele doua asa-numite articole nu apar in lexicon, probabil din motivul ca nici corpusul nu le contine. Dar nu e nici o dificultate sa extindem lexiconul cu aceste categorii.

Exista ceva ce n-am inteles privitor la relatia dintre corpus si lexicon. Contine lexiconul doar formele flexionare ale cuvintelor pe care le furnizeaza corpusul? Sau contine mai mult, mai precis paradigma completa reprezentata in corpus prin, sa zicem, doua forme flexionare? (pusa de doua ori)

Daca stiti romaneste e foarte usor de verificat relatia dintre corpus si lexicon. Lexiconul e mai bogat decat corpusul. In corpus sunt cam 1500 de forme lexicale, in timp ce lexiconul cuprinde, acolo unde este cazul, intreaga paradigma careia ii apartine forma din corpus.

Aceeasi trasatura este in mod alternativ inregistrata ca o trasatura de lema si respectiv de forma flexionara. De ce?

In unele cazuri, trasatura caracterizeaza doar lema (precum trasatura gen in raport cu numele). In alte cazuri aceeasi trasatura este implicata in caracterizarea formei flexionare (precum trasatura gen in raport cu adjectivul).

Cum trateaza segmentatorul vostru lexical secventa am dormit? Ca pe doua cuvinte sau ca pe unul singur?

Am dormit este considerat un cuvant compus. Toate formele verbale primesc aceasta analiza.

Cuvintele analizate morfologic exista intr-un dictionar sau sunt analizate automat?

INu suntem siguri ca intelegem ce spuneti. Daca va referiti la cuvintele pe care le gasiti in dictionar, ele se gasesc acolo impreuna cu informatia morfologica relevanta. Dar daca va referiti la felul in care vi se livreaza informatia legata de o anumita forma lexicala pe care o cereti, bineinteles ca aceasta informatie este livrata in mod automat.

Cum este extins lexiconul, prin achizitie automata sau manual?

Lexiconul a fost extins in mod manual.

Cate cazuri sunt in limba romana?

Lasand la o parte vocativul, se disting in mod curent patru cazuri: nominativ, genitiv, dativ si acuzativ.

Am incercat sa accesez pagina cu tokenizerul si nu am gasit-o. S-a schimbat adresa initiala?

Din cate stiu, nu. Mai incearca.

Care este utilitatea analizorului morfologic?

Analizorul livreaza informatia ceruta in legatura cu o anumita forma lexicala.

Segmentatorul este independent de limba?

Segmentatorul este independent de limba in sensul ca, daca i se da un corpus de antrenament intr-o limba diferita de limba romana, el va face pentru acea limba ceea ce face acum pentru romana.

Care este utilitatea unui segmentator in prelucrarea textelor?

Segmentatorul ne ajuta sa extragem dintr-un text cuvintele mai repede si mai usor decat daca am lucra manual.

Cum analizati cuvintele compuse?

Un cuvant compus este considerat un singur element lexical, dar desigur compus din alte elemente lexicale. Marcam cuvintele compuse prin underscore: nici_un.

De ce distingeti permanent intre trasaturi de lema si trasaturi de forma flexionara?

In unele cazuri, trasatura caracterizeaza doar lema (precum trasatura gen in raport cu numele). In alte cazuri aceeasi trasatura este implicata in caracterizarea formei flexionare (precum trasatura gen in raport cu adjectivul).

Aveti distinctia articulat-nearticulat, dar in interiorul substantivelor articulate nu apare deosebirea hotarat-nehotarat. De ce?

Da, buna intrebare! Trebuie sa incorporam si aceasta pereche de trasaturi, caci, evident, influenteaza flexiunea.