Roric-Ling: Unele comentarii lingvistice

Unele comentarii lingvistice privind rezultatele obtinute

Theodor Hristea

Dorim sa mentionam, inca de la inceput, faptul ca, in majoritatea cazurilor, programele de calculator care implementeaza algoritmii referitori la WordNet lucreaza in mod corect si ca, atunci cand rezultatele obtinute nu sunt cele mai bune cu putinta, acest lucru se datoreaza, in primul rand, imperfectiunii dictionarelor bilingve existente. In pagina de web a proiectului sunt aratate, in mod special, acele situatii in care programul nu lucreaza corect sau in care propune mai mult de un singur synset romanesc, lasand la latitudinea lingvistului alegerea celui adecvat, in special pe baza glosei. In cele ce urmeaza, vom incerca sa comentam principalele tipuri de greseli care pot interveni in urma prelucrarii automate si sa analizam cauzele care le-au determinat.

Dorim, in mod special, sa semnalam urmatoarele trei tipuri de situatii: cele in care programul a generat mai multe synseturi romanesti dintre care unul este corect, cele in care nu a generat nici un synset romanesc si cele, mult mai rare, in care a generat unul sau mai multe synseturi, dar care sunt gresite.

In acele cazuri in care, pentru un synset englezesc dat, au fost obtinute mai multe synseturi romanesti posibile, alegerea celui corect (in functie de glosa) a fost, de cele mai multe ori, evidenta pentru lingvist.

Consideram ca mai interesante au fost situatiile in care, prin program, nu a fost generat nici un synset romanesc. Cel mai adesea, cauza o constituie imperfectiunea dictionarelor bilingve, care nu includ cuvintele respective. Alteori doar unul dintre dictionare este de vina, cel mai adesea fiind vorba de dictionarul roman-englez, relativ sarac in privinta numarului cuvintelor-titlu, dar si in privinta celor englezesti luate in consideratie. In multe dintre situatiile datorate acestui fapt, prin algoritmul propus, se vor obtine numai multimi elementare neetichetate. In acest caz, nu se genereaza, conform algoritmului, nici un synset romanesc.

Exista, prin urmare, situatii de naturi diferite in care nu este generat nici un synset romanesc. Fie cuvantul nu a fost gasit in dictionarul englez-roman, fapt care afecteaza in mod direct synseturile englezesti cu un singur cuvant, suficient de frecvente in WordNet, fie a fost gasit, dar, corespunzator lui, au fost obtinute numai multimi elementare neetichetate. Aceasta din urma este situatia cea mai frecventa. Este, de pilda, cazul lui crook, cu sensul "a long staff with one end being hook shaped", ori cazul lui wreckage, cu sensul "the remains of something that has been wrecked".

Uneori synsetul romanesc generat de program va fi incorect format datorita functiei de evaluare implementate. Noi functii de evaluare ar trebui implementate si testate in viitor. Cel mai adesea insa, functia de evaluare luata in consideratie nu lucreaza corect tot datorita imperfectiunii dictionarelor bilingve existente. Este cazul synsetului format din unicul cuvant rule cu sensul "directions that define the way a game or sport is to be conducted", tradus in romaneste prin [rigla], precum si al synsetului format din cuvantul convention cu sensul din diplomatie "an international agreement" tradus prin [adunare, intrunire, congres], deci cu sensul de "congress", in loc de [conventie, acord, contract, invoiala, intelegere, pact, tratat].

Asa cum am mai aratat, este destul de frecventa situatia in care un cuvant romanesc care apare in dictionarul englez-roman nu se regaseste in dictionarul roman-englez. Este, in special, cazul substantivelor provenite din verbe si care au semnificatia "actiunea de a...". Cuvinte importante si uzuale in limba romana, cum ar fi organizare (de la "a organiza" - "to organize") sau respingere (de la "a respinge" - "to reject"), apar ca traduceri ale unor cuvinte englezesti, dar nu se regasesc in dictionarul roman-englez. Acest lucru poate duce la esecul algoritmului de evaluare a e-multimilor, intrucat neregasirea unui cuvant in dictionarul roman-englez aduce cu sine o valoare mai mica a acelei e-multimi.

Tot datorita incompletitudinii dictionarelor existente, foarte multe imprumuturi recente existente in limba romana (in special in mass-media) nu vor aparea in synseturile romanesti generate.

In acele situatii in care dictionarul roman-englez nu este de vina, cauza erorilor pe care le face programul este de cu totul alta natura si trebuie cautata in sfera conceptelor. Trebuie avut in vedere faptul ca limba engleza si, in mod special, engleza americana, la care se refera WordNet, este o limba incomparabil mai bogata decat limba romana. Statistic vorbind, in timp ce romana are maximum 150,000 de cuvinte, engleza americana are aproximativ 450,000 cuvinte (judecand dupa informatiile furnizate de catre lexicograful St. Berg Flexner).

Dar, comparativ cu limba romana, engleza este o limba mult mai evoluata nu numai din punct de vedere gramatical si lexical (adica sub raport strict cantitativ), ceea ce insemneaza mai multe cuvinte sau unitati lexicale. Ea este totodata mult mai evoluata si sub raport strict semantic, acelasi cuvant englezesc avand adeseori un continut semantic mult mai bogat decat cuvantul romanesc corespunzator. Numeroase cuvinte existente atat in romana, cat si in engleza, sunt mai polisemantice in engleza decat in romana. Cu alte cuvinte, polisemia cuvintelor englezesti este superioara polisemiei cuvintelor romanesti. Spre exemplu, cuvantului englezesc feature cu sensul de "an article of merchandise that is displayed or advertised more than other articles" nu ii corespunde in limba romana un cuvant romanesc cu acelasi sens. Suntem deci obligati sa recurgem la traducere printr-un grup de cuvinte (o glosa), iar synsetului englezesc format din singurul cuvant feature care se refera la acest concept nu ii corespunde un synset romanesc. In acest caz, programul a lucrat gresit. Este, din nou, o situatie care afecteaza in special synseturile englezesti alcatuite dintr-un singur cuvant. Un alt exemplu de cuvant polisemantic englezesc este foundation, care ne atrage atentia prin unul dintre sensurile sale: "a woman's undergarment worn to give shape to the contours of the body". Acest sens al lui foundation nu exista in romana, iar conceptul la care se refera synsetul continand unicul cuvant foundation cu acest sens trebuie explicat in limba romana prin intermediul unei glose. Lui nu trebuie sa ii corespunda nici un synset romanesc. Programul a lucrat din nou gresit in aceasta situatie, ca si in cazul englezescului quiver cu sensul "a case for holding arrows".

O alta situatie in care programul nu lucreaza corect se refera la anumite substantive englezesti folosite cu negatie, cum ar fi matter cu negatie, ca in exemplul "they were friends and it was no matter who won the game". Astfel de substantive se traduc in limba romana printr-o colocatie al carei centru il constituie un substantiv care nu figureaza in dictionarul englez-roman printre posibilele traduceri ale lui matter sau care figureaza in dictionar printr-un echivalent de tip locutional, care nu va fi folosit de algoritmul pe care il implementeaza programul. In acest caz programul nu poate gasi synsetul romanesc (sau, in general, strain) corect. In particular, in cazul lui "matter" folosit cu negatie, au fost gasite cateva synseturi romanesti posibile, dar nici unul nu este corect deoarece nu contine substantivul importanta (importance), care intra in colocatia romaneasca corespunzatoare acestui sens. Expresia romaneasca corespunzatoare este un calc dupa frantuzescul "avoir de l'importance". Cazurile de calc dupa franceza sunt foarte frecvente in limba romana. Iata de ce simtim nevoia ca programele ulterioare sa ia in consideratie colocatiile, atat in limba engleza, cat si in limba tinta (in particular, romana).

Alteori, singurul cuvant din synsetul englezesc considerat nu se traduce in romaneste printr-o colocatie, ci chiar printr-un cuvant cu aceeasi forma. Si totusi programul nu lucreaza corect in unele dintre aceste situatii. Este cazul synsetului alcatuit din unicul cuvant englezesc act si denotand conceptul "lipsa de sinceritate". El a fost tradus gresit in limba romana prin synsetul romanesc [fapta, fapt, act, actiune], ce contine, printre altele, un cuvant romanesc cu aceeasi forma - act. Dar acest sens al englezescului act - lipsa de sinceritate - nu exista in romana. Este un exemplu de ceea ce lingvistii numesc "falsi prieteni". In astfel de cazuri este vorba despre cuvinte englezesti care sub aceeasi forma sau o forma similara exista si in alte limbi, dar fara a avea sensul specific limbii engleze. Aceeasi situatie se intalneste si in cazul synsetului [pattern] cu sensul inexistent in romana "the path that is prescribed for an airplane that is preparing to land at an airport" sau al synsetului [cosmos] cu sensul "any of various mostly Mexican herbs of the genus Cosmos". Multe dintre aceste sensuri sunt specifice englezei americane. Un alt exemplu il constituie synsetul [circumstances] cu sensul "the state (usually personal) with regard to wealth" tradus gresit prin [imprejurari, circumstante, conditii]. Sensul din WordNet al lui circumstances (plural) exista atat in engleza americana, cat si in cea britanica, dar nu si in limba romana.

O alta sursa de dificultati o constituie substantivele la plural. Astfel, exista in synseturile englezesti substantive la singular care se traduc prin substantive romanesti la plural. Exemple din aceasta categorie sunt foundation tradus prin fonduri sau knowledge tradus prin cunostinte. Pentru rezolvarea unor astfel de situatii au fost incluse in dictionarul roman-englez si aceste substantive la plural, dand astfel posibilitatea programului sa ia in consideratie si multimile elementare care contin substantive la plural.

In limba romana, ca si in alte limbi, cum ar fi de exemplu franceza, relatia dintre omonimie si polisemie este o problema extrem de complicata, asupra careia specialistii nu au cazut inca de acord. Ea nu constituie o problema rezolvata. In foarte multe cazuri, dupa unii cercetatori avem de-a face cu doua, trei sau chiar mai multe cuvinte omonime, iar dupa altii cu un singur cuvant polisemic, care are doua, trei sau mai multe sensuri fundamentale, mai mult sau mai putin inrudite. Un exemplu ar fi cuvantul bun (good), care in limba romana este in primul rand adjectiv, avand sapte sensuri fundamentale. In al doilea rand este substantiv cu doua pluraluri diferite, dar specializate semantic. Substantivul bun cu pluralul bunuri are patru sensuri, iar substantivul bun cu pluralul buni are un singur sens, acela de bunic. Astfel de situatii sunt suficient de frecvente in limba romana. Programele de calculator concepute in cadrul acestui proiect vor lucra mai bine atunci cand se folosesc dictionare care trateaza posibilele omonime, in special omonimele asa-zise semantice, ca pe un singur cuvant polisemantic. Altfel, ar trebui luata de la inceput in consideratie glosa pentru stabilirea sensului, adica a conceptului la care se refera synsetul englezesc de tradus.

In concluzie, putem spune ca principalele probleme care apar in traducerea automata a synseturilor englezesti si care pot genera situatii in care programul nu lucreaza corect, sunt reprezentate de asa-numitii falsi prieteni, de colocatii, de calcul lingvistic si de superioritatea polisemiei unor cuvinte englezesti in raport cu corespondentele lor romanesti. Tot ca o concluzie vom observa faptul ca cele mai multe probleme au aparut acolo unde synsetul englezesc era compus dintr-un singur cuvant, algoritmul neputand decide intre sensuri. In viitor se impune, probabil, o tratare diferita a acestor synseturi. In acelasi timp, trebuie sa accentuam faptul ca lipsa unor instrumente de lucru foarte performante (cu referire la dictionare) nu poate decat sa ingreuneze o reala evaluare a programelor folosite in traducere.

Nu putem incheia acest scurt comentariu fara a sublinia si unele dintre meritele algoritmilor implementati. Spre exemplu, vom nota faptul ca, in ciuda dificultatilor mentionate, exista suficiente exemple de synseturi cu un singur cuvant englezesc polisemantic care au fost corect traduse prin synseturi romanesti constand, de asemenea, dintr-un unic cuvant polisemantic. Exemple sunt: synsetul [art], corect tradus prin [arta] ori synsetul [creation] corect tradus prin [creatie].

Dupa cum se stie, conceptele sunt dependente de limba. In multe cazuri se intampla ca un cuvant englezesc sa se refere la un concept foarte larg, iar in romana sa ii corespunda mai multe cuvinte care se refera la concepte inrudite, dar mult mai specializate. Unul dintre exemplele comentate in acest sens de catre Nikolov si Petrova (2001) relativ la bulgara este valabil si pentru limba romana, ilustrand acest fenomen. Este vorba despre synsetul alcatuit din unicul cuvant castle. In traducerea lui castle in limba romana apar si cuvinte ca fortareata (fortress) sau citadela (citadel). Acestea sunt concepte inrudite, dar diferite. Am vrea sa ducem comentariul mai departe remarcand faptul ca aceasta este o situatie in care algoritmul va produce multimi neetichetate, iar programele de calculator vor lucra corect prin indepartarea acestor multimi.

In fine, nu putem sa nu remarcam faptul ca, atunci cand dictionarele bilingve utilizate au fost corecte si complete, algoritmul implementat s-a dovedit a fi extrem de performant. Astfel, in cazul unor concepte foarte apropiate in limba engleza, diferenta fina a fost sesizata de program, care o mentine in mod corect in traducerea romaneasca. Este, de pilda, cazul synseturilor englezesti [banishment, proscription] cu sensul "the act of banishing someone" si respectiv [ostracism] cu sensul "the act of excluding someone from society by general consent". Primul a fost tradus in limba romana prin [exilare, surghiunire, exil, surghiun, expulzare, ostracizare], in timp ce al doilea a fost tradus prin unicul [ostracism]. Romanescul ostracism este singurul care se refera la consens in luarea deciziei de a ostraciza si, prin folosirea lui in cazul celui de-al doilea synset, este pusa in evidenta diferenta dintre cele doua concepte diferite, dar inrudite la care se refera synseturile englezesti initiale.

In concluzie, vom spune ca un asemenea studiu asupra posibilitatii generarii semiautomate a synseturilor romanesti este binevenit si se anunta suficient de promitator. Incurajam continuarea lui in cazul limbii romane, cu largirea sferei de investigatie, in special prin luarea in consideratie, in viitorul apropiat, a colocatiilor. Acestea trebuie avute in vedere atat in limba engleza, cat si in limba romana si, in general, in limba tinta.

IST-2000-26454