Resurse Lexicale
Wim Peters
NLP group
Department of Computer Science
University of Sheffield
w.peters@dcs.shef.ac.uk

Introducere

Formatul de reprezentare a resurselor lingvistice

Standardizarea descrierii lingvistice

Metadate pentru descrierea lexicala

Compararea resurselor utilizand metadatele

Standardizarea descrierii lingvistice

 

Atunci cand se doreste descrierea resurselor referitoare la limbaj , crearea unora noi sau folosirea eficienta a celor existente, sunt necesare o metodologie adecvata, standarde de metodologie, instrumente software, precum si standardele corespunzatoare pentru marcare, interschimb, exploatare si evaluare.

Multe rezultate au fost deja obtinute cu privire la standardizarea descrierii si crearii lexicoanelor, in special cu scopul de a facilita aplicatiile de inginerie a limbajului. In timp ce TEI (1) nu face propuneri detaliate in privinta multimilor de taguri lexicale, acelasi TEI descrie in detaliu structura unei intrari in dictionar. Diverse eforturi de standardizare, cum ar fi EAGLES (2) si ISLE (3), s-au soldat cu propuneri concrete referitor la structuri lexicale standard. GENELEX (4) poate fi privit ca o incercare timpurie de descriere a unei structuri generice a lexiconului, cu o structura descriptiva complicata dar exhaustiva. Proiectele PAROLE si SIMPLE (5) au reprezentat o incercare de codificare a unor lexicoane multilingve intr-un mod uniform, avand ca rezultat 12 lexicoane de dimensiuni relativ mici, oferite ca exemple. MULTILEX (6) a fost un alt proiect care se concentra asupra implementarii a 15 lexicoane concrete, prin aplicarea unei structuri derivate din modelul GENELEX. Proiectul MILE (Multilingual Computational Lexicon) [8], inceput recent in cadrul ISLE, are sarcina standardizarii lexicoanelor multilingve.

Partial in domeniul terminologiei, o cercetare relevanta a fost realizata de catre consortiul OLIF2 (Open Lexicon Interchange Format) (7), care s-a materializat in propunerea OLIF2. OLIF2 defineste un mare numar de caracteristici lexicale, dar nu face afirmatii referitoare la asezarea lor structurala. Fiecare intrare OLIF2 este o intrare monolingva continand mai multe perechi de tipul caracteristica/valoare, referinte incrucisate intre intrari apartinand lexiconului aceleiasi limbi si transferuri definind relatii de transfer bilingve. Propunerea OLIF2 pentru caracteristici descrie patru categorii principale: administrative, morfologice, sintactice, semantice. Caracteristicile sunt similare celor care se gasesc in alte propuneri, generice, referitoare la lexicon. Mai jos sunt cateva exemple cu descrierile lor:

PtOfSpeechDCS

Elementul ptOfSpeechDCS (DCS este o abreviere pentru "data category specification") contine date referitoare la o schema extinsa a utilizatorului pentru descrierea partii de vorbire a intrarilor OLIF. Utilizatorii pot descrie, de pilda, tagurile lor aditionale referitoare la partea de vorbire prin intermediul unui URL sau prin intermediul unor sectiuni CDATA.

SubjField

Elementul subjField clasifica domeniul de cunostinte caruia ii este atribuita intrarea lexicala/terminologica. Exemple de valori sunt: agricultura, aviatie.

SubjFieldDCS

Elementul subjFieldDCS contine date despre o schema extinsa pentru utilizator necesara descrierii informatiei campului subiect al intrarilor OLIF (pentru mai multe informatii vezi comentariul referitor la elementul ptOfSpeechDCS).

Syllabification

Acest element contine date referitoare la granitele dintre silabe in cadrul sirului reprezentand intrarea. Exemplu: do-cu-men-ta-ry, li-be-ra-li-ty.

SyllabificationMarkInfo

Acest element contine date referitoare la practica editoriala adoptata in original cu privire la silabificare. Exemplu: se foloseste ca marcator '*'.

SynFrame

Acest element clasifica cadrul sintactic pentru sirul reprezentand intrarea (subcategorizare). Exemple de valori: subj-imps-opt, dobj-opt.

SynFrameDCS

Acest element contine date despre o schema extinsa pentru utilizator necesara descrierii cadrului sintactic al intrarilor OLIF ( pentru mai multe informatii vezi comentariul referitor la elementul ptOfSpeechDCS).

SynPosition

Acest element clasifica din punct de vedere sintactic pozitionarea nemarcata a sirului reprezentand intrarea. Exemplu de valoare: cl-init..

SynStruct

Acest element contine date despre structura de constituent a unei intrari formate din mai multe cuvinte. Exemplu de utilizare: [[adj]][noun]] (General Ledger)..

Exista numeroase lucrari in domeniul bazelor de date terminologice. Lucrarea MARTIF (Machine Reachable Terminology Interchange Format) (8) descrie un format care faciliteaza interschimbul datelor terminologice intre sisteme de gestiune a terminologiei. Rezultatul acestui studiu il reprezinta specificatiile ISO 12200 (9). In mod complementar, ISO 12620 specifica felul in care "Data Categories" (elementele de baza pentru descrierea continutului lexical) trebuie definite. Informatii legate de termeni specifica tipul lingvistic al termenilor. Acest lucru este realizat prin atribuirea unor atribute lingvistice intrarilor, atribute cum ar fi partea de vorbire (conform OLIF2 mentionat anterior). Informatia descriptiva leaga termenii de domenii si tinteste spre anumite pozitii in cadrul ierarhiilor de concepte. Informatii de natura administrativa sau legate de proprietate, cum ar fi numele autorului sau data crearii, pot fi, de asemenea, adaugate fiecarui termen.

Proiectul SALT (Standards-based Access to Lexicon and Terminologies) (10) a fost recent initiat, in special datorita cerintelor domeniului ingineriei limbajului. SALT sugereaza familia de formate XLT (XML representations of Lexicons and Terminologies) (11) pentru reprezentarea, manipularea si folosirea in comun a datelor terminologice. Structura de baza SALT se bazeaza pe propunerea MARTIF.


  1. http://www-tei.uic.edu/orgs/tei/
  2. http://www.ilc.pi.cnr.it/EAGLES96
  3. http://www.mpi.nl/ISLE
  4. http://www.ilc.pi.cnr.it/EAGLES96/lexarch
  5. http://www.ub.es/gilcub/SIMPLE/simple.html
  6. http://www.ilc.pi.cnr.it/EAGLES96/lexarch
  7. http://www.olif.net/
  8. http://coral.lili.uni-bielefeld.de/~ttrippel/terminology/node76.html
  9. http://www.iso.ch/iso/en/ISOOnline.openerpage
  10. http://www.ttt.org/salt/
  11. http://www.ttt.org/oscar/xlt/DXLT.html