Resurse Lexicale
Wim Peters
NLP group
Department of Computer Science
University of Sheffield
w.peters@dcs.shef.ac.uk

Introducere

Formatul de reprezentare a resurselor lingvistice

Standardizarea descrierii lingvistice

Metadate pentru descrierea lexicala

Compararea resurselor utilizand metadatele

Metadate pentru descrierea lexicala

 

Informatiile pe care le contin categoriile lingvistice, precum si relatiile structurale ale acestora, pot fi cel mai bine descrise, din motive de generalitate si claritate conceptuala, prin intermediul unor metadate, i.e. informatii despre tipurile de informatii lingvistice disponibile. De fapt, toate informatiile continute in lexicoane si alte resurse inrudite reprezinta metadate, dar aceste resurse difera din punctul de vedere al terminologiei, al nivelului de granularitate al descrierii lingvistice si al formatului datelor (a se vedea sectiunea 2.3). Toate acestea sunt exemplificate prin eforturile de standardizare descrise anterior (e.g. termenul ptOfSpeechDCS este specific OLIF si poate contine diferite valori ale e.g. EAGLES) si prin comparatia intre resurse realizata in sectiunea 5. Metadate sunt propuse prin intermediul unor initiative ca OLIF si ISLE. Functia lor este de a descrie si de a accesa resursele intr-un mod standard. Consortiul ISLE (1) a emis o propunere (2) care imparte metadatele lexicale in doua mari grupuri: externe (informatii cu privire la lexicon ca un intreg) si interne (informatii privitoare la intrarea lexicala).

4.1 Metadate externe

Unitati de informatie externe descriu lexiconul ca pe un obiect si pot fi urmatoarele:

Name O denumire scurta care identifica lexiconul
Title Un titlu mai elaborat al lexiconului
Date Data crearii si a principalelor modificari
Version Indicatie referitoare la versiune
Creator Persoana care a creat sau care este responsabila de crearea resursei
Name Numele creatorilor
Contact bloc de caracteristici legate de persoana de contact sau de organizatie (a se vedea mai jos)
Description O descriere adecvata asociata cu multimea de autori
Project Un bloc care descrie proiectul
Name Numele scurt al proiectului
ID Identificator unic de proiect
Contact Adresa de contact
Description Spatiu rezervat unei descrieri asociate proiectului
LexiconType Tip care urmeaza unei taxonomii (a se vedea lista din sectiunea 1)
Object Languages Un bloc de descriere a limbajelor incluse in lexicon
Description Spatiu rezervat unei descrieri
MultilingualityType diversele limbi pot interveni ca intrari multilingve in lexicul ML, dar pot, de asemenea, interveni ca traduceri ale unor descrieri de sensuri, spre exemplu; aceste diferente pot fi indicate cu ajutorul unui vocabular controlat
Language o lista a limbilor incluse, fiecare limba fiind descrisa in cadrul unei substructuri
Format o descriere bruta a formatului lexiconului, descriere reprezentata printr-un tabel relational, text simplu structurat, un format XML, un format html,...
AccessTool Multe lexicoane sunt interpretabile numai prin intermediul unor unelte de acces concrete, cum ar fi Shoebox, ORACLE, FoxPro, Access, Web-Browser,...
Media Aceasta intrare spune daca lexiconul include esantioane de tip audio sau video ori grafica
Character Encoding Aceasta lista ar trebui sa creeze o impresie referitoare la tipurile de fonturi necesare pentru redarea tuturor datelor inclusa, cum ar fi UTF-8, ISO-latin
Size Marimea lexiconului in bytes
No Lexical Entries Numarul intrarilor lexicale incluse in lexicon
Access Schema in care sunt oferite informatii referitoare la acces (vezi mai jos)
Keys O posibilitate de a adauga perechi de tipul caracteristica/valoare pentru a defini noi cuvinte cheie
Source Aceasta intrare descrie ce surse au fost folosite in constructia lexiconului
References Bloc pentru bibliografie
     
Access
ResourceLink URL care tinteste spre resursa, daca aceasta este direct accesibila
Availability codificarea conditiilor de acces
Description Descriere de tip proza asociata cu accesul
Date data afirmatiilor referitoare la acces
Owner defineste proprietarul lexiconului
Publisher defineste pe cel care publica lexiconul
Contact Informatie referitoare la persoana de contact
     
Contact
Name numele persoanei de contact
Address Informatii referitoare la adresa
Email Adresa de posta electronica
Organization numele unei institutii
   
Language
Language ID Specificator formal al limbii preluat din listele ISO sau SIL
Name Numele general al limbii
Description Aici poate fi asociata si o descriere a limbii

 4.2 Metadate interne

Acest tip de date furnizeaza informatii despre continutul lingvistic al lexiconului. Urmatoarele unitati lingvistice de descriere au fost remarcate in cadrul initiativei ISLE referitoare la metadatele lexicale. Lista care urmeaza nu este exhaustiva.

Modality indica ce mod de comunicare este captat in lexicon. Valorile posibile sunt:
Spoken                      vorbit
Written                     
scris
Sign                           
semn
Headword type indicatie referitoare la natura lingvistica a intrarii din lexicon. Valori posibile sunt:
Sentence                   propozitie
Phrase                      
grup sintactic
Wordform                
forma flexionara
Lemma      
                 lema - intrare corespunzatoare formei flexionare nemarcate
                                    (e.g. infinitivul verbelor )
Abstract Lemma       lema abstracta - intrare care nu se supune nici unei forme flexionare apartinand
                                    grupului la care se refera lema.
Stem                            tema sau tulpina cuvantului
Affix                           
afix
Orthography Ortografie valorile posibile sunt:
Hyphenated Spelling           ortografiere cu cratima
Syllabified Spelling              
scriere in silabe
Spelling Variants
                   variante ortografice cu sau fara cratima
Citations                                 citat, nota (in josul paginii)
Morphology Morfologie valorile posibile sunt:
Stem                          tema - tema de adancime sau de suprafata
Stem Allomorphy    alomorfia temei cuvantului (variatii la nivelul temei)
Segmentation          segmentare - analiza la nivelul constituentilor morfologici de tip afixe
Production rules     reguli de productie - administreaza producerea formelor de suprafata pe baza temelor
Typology                 tipologie - orice clasificare a unor intrari sau a unor entitati morfologice
Morphosyntax Morfosintaxa valorile posibile sunt:
Part of Speech          Parte de vorbire - clasa sintactica a intrarii.
Inflection                   Flexiune - orice informatie legata de flexiune sau de conjugare
Countability              Numarare - proprietati legate de formele de plural
Gradability                 Gradare - constructii adjectivale comparative/superlative
Gender                        Gen - e.g. neutru
Typology                   Tipologie - Orice clasificare a intrarilor
Syntax Sintaxa valorile posibile sunt:
Complementation     Complementare - Complementare sintactica
Alternation                Alternare - scheme de complementare alternative
Modification              Modificare - scheme de modificare adjectivala
Shallow Parsing         Analiza sintactica de suprafata - segmentare in bucati (mari)
Deep Parsing              Analiza sintactica in adancime - analiza granulata dincolo de nivelul obtinut in
                                     shallow parsing
Functional Parsing    Analiza sintactica functionala - functii sintactice cum ar fi aceea de subiect
Collocations               Colocatii - intrari/forme flexionare semnificative juxtapuse
Typology                   Tipologie - Orice clasificare
Phonology Fonologie valorile posibile sunt:
Transcription            Transcriere - orice tip de transcriere fonetica/fonologica
IPA Transcription     Transcriere IPA - transcriere in Alfabetul Fonetic International (International
                                     Phonetic Alphabet)
CV pattern                  Schema CV - transcriere in termeni de combinatii consonantice/vocalice
Constituent Structure
segmentare in constituenti fonetici
Intonation                  Intonatie - marcarea accentului, lungimea constituentilor etc.
Semantics Semantica valorile posibile sunt:
Sense distinction      Distinctie intre sensuri - polisemie si/sau omonimie
Ontological classification Clasificare ontologica - concepte inrudite si relatii conceptuale
Gloss                            Glosa - descriere neformala in limbaj natural a sensului
Definition                    Definitie - descriere formala a sensului folosind, de pilda, logica de ordinul intai
Connotation               Conotatie - informatie non-denotationala, cum ar fi peiorativele
Idiom                            Folosire idiosincratica a idiomurilor
Componential Features  Trasaturi de componenta - formula sau lista continand o multime finita de
                                           atribute de sens
Cross-references        Referinte incrucisate - legaturi la alte intrari/forme flexionare
Semantic relations      Relatii semantice - relatii intre intrari sau concepte asociate
Etymology Etimologie - informatie despre contextul istoric (morfologic, fonologic, sintactic, semantic) al unei intrari lexicale sau forme flexionare.
Usage Folosire - Informatie pragmatica/sociolingvistica; valorile posibile sunt:
Region                          Regional e.g. dialect
Style                              Stil e.g. slang
Frequency Frecventa - frecventa a ocurentei, calculata pe baza unui corpus

O alta initiativa paralela in cadrul ISLE, Grupul de lucru pentru lexicoane multilingve EAGLE/ISLE, isi propune standardizarea intrarilor lexicale multilingve. In acest scop a fost creata o lista de verificare, care se suprapune in mare masura peste multimea de metadate anterioara, dar care in multe cazuri prezinta o acoperire de mai mare granularitate sau rafinare. Iata o scurta explicatie a abrevierilor folosite: SL=limba sursa ("source language"); TL=limba tinta ("target language"); IPA=Alfabet fonetic international ("International Phonetic Alphabet")(3).

 
Componenta de intrare
Continutul informatiei
Mod
Functie
1 cuvant cap Forma (formele) lexicale ale cuvantului cap: cum se ortografiaza cuvantul cap SL Ajuta utilizatorii atat de SL, cat si de TL, sa gaseasca informatia pe care o cauta
2 Transcriere fonetica Modul in care se pronunta cuvantul cap (sau varianta) in Alfabetul fonetic international IPA Ajuta utilizatorul sa pronunte corect cuvantul
3 Forma varianta Ortografiere alternativa a cuvantului cap sau mica variatie in forma acestui cuvant SL Ajuta ambele tipuri de utilizatori sa gaseasca informatia pe care o cauta
4 Forma flexionara Alte forme gramaticale ale lemei (cuvant cap) SL Ajuta utilizatorul sa gaseasca informatia pe care o cauta; ajuta utilizatorul sa foloseasca in mod corect cuvantul
5 Referinta incrucisata Indicatie asupra unui alt cuvant cap corespunzator caruia intrarea contine informatie relevanta sau asupra altei parti din dictionar unde poate fi gasit cod Ajuta ambele tipuri de utilizatori Ajuta ambele tipuri de utilizatori cauta sau alte informatii utile
6 Informatie morfosintactica
  a marcaj pentru partea de vorbire Partea de vorbire a cuvantului cap (sau a cuvantului cap secundar) cod Ajuta ambele tipuri de utilizatori sa gaseasca informatia pe care o cauta, prin centrarea cautarii
b clasa flexionara Paradigma inflexionala a intrarii cod Ajuta utilizatorul SL sa foloseasca corect obiectul TL; ajuta utilizatorul TL sa dezambiguizeze cuvantul TL;

ajuta utilizatorul TL sa foloseasca corect obiectul SL; ajuta utilizatorul SL sa dezambiguizeze cuvantul SL
c derivare Informatie incrucisata referitoare la partea de vorbire, forme derivate morfologic SL Ajuta utilizatorul SL in identificarea sensului cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
d gen Informatie despre genul intrarii in SL si TL cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
e numar Informatie asupra numarului gramatical al intrarii in SL si in TL cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
f Mass vs. Count Information whether the a noun is mass or count, in SL and TL cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
g gradare Pentru adverbe si adjective cod Ajuta utilizatorul SL sa foloseasca corect obiectul TL; ajuta utilizatorul TL sa dezambiguizeze cuvantul TL
7 Contor al subdiviziunii Indica inceputul unei noi sectiuni sau subsectiuni nr. / lit. Indicator care ajuta utilizatorul sa se descurce in mod eficient cu referire la intrarea respectiva
8 Subdiviziune a intrarii Sectiune ori subsectiune separata in cadrul intrarii (adesea numita sens din dictionar) text din dict. "sparge" intrarea, facilitand citirea si gasirea a ceea ce se cauta
9 Indicator de sens Sinonim sau parafraza a Sinonim sau parafraza a corespunzator acestui sens sau un alt indiciu asupra sensului, care denota un sens specific al obiectului SL sau TL SL Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
10 Eticheta lingvistica the style, register, regional variety, etc. of the SL or TL item cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap; ajuta ambii utilizatori sa traduca;
ajuta utilizatorul TL sa inteleaga
11 Informatie sintactica
  a Cadru de subcategorizare (i) Numar si tipuri de complemente (ii) introducator sintactic al unui complement (e.g. prepozitie) (iii) tipul reprezentarii sintactice (e.g. constituenti, functional etc.)etc. cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
b Obligativitatea complementelor Informatie care spune daca un anumit complement este obligatoriu sau nu cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
c Auxiliar Ce tip de auxiliar este selectat de un predicat dat cod Actioneaza ca un indicator al sensului; ajuta utilizatorul SL sa aleaga echivalentul TL adecvat
d Constructii usoare sau de tip suport Constructii cu verbe usoare SL sau TL Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
e Constructii perifrastice Constructii continand perifraze, valoare semantica etc. SL sau TL Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
f Verbe de tip "phrasal" Reprezentari Reprezentari constructii de tip locutiune SL sau TL Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
g Collocator (i) subiect/obiect tipic al verbului, substantiv modificat de un adjectiv etc. (ii) tipul relatiei de colocatie etc. SL sau TL Actioneaza ca un indicator de sens; ajuta utilizatorul SL sa aleaga echivalentul TL adecvat; ajuta utilizatorul TL sa traduca sau sa inteleaga obiectul SL
h Alternatii Alternatii sintactice pe care le poate avea o intrare Cod Actioneaza ca indicator de sens
12 Informatie semantica
  a Tipul semantic Referinta la o ontologie de tipuri care sunt folosite pentru a clasifica sensuri ale cuvintelor Cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
b Structura argumentelor Cadre ale argumentelor plus informatie semantica care identifica tipul argumentelor, constrangerile selectionale etc. Cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
c Relatii semantice Diferite tipuri de relatii (e.g. sinonimie, antonimie, meronimie, hiperonimie, roluri Qualia etc.) intre sensuri ale cuvintelor etc. Cod Actioneaza ca un indicator SL de sens pentru utilizatorul SL;
actioneaza ca un indicator TL de sens pentru utilizatorul TL
d Polisemie obisnuita Reprezentarea alternantelor polisemice obisnuite Cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
e Domeniu Informatie privind domeniul terminologic caruia ii apartine un sens dat Cod Ajuta utilizatorul SL sa identifice sensul cuvantului cap sau al unui alt obiect SL;
ajuta utilizatorul TL sa identifice sensul unui echivalent TL
f Descompunere Reprezentarea componentei relevante a sensului, e.g. cauzalitate, agentivitate, miscare etc. Cod Actioneaza ca un indicator SL de sens pentru utilizatorul SL;
actioneaza ca un indicator TL de sens pentru utilizatorul TL
13 Traducere Echivalentul TL al unui obiect SL TL Ajuta utilizatorul TL sa inteleaga;
ajuta ambii utilizatori sa traduca
14 Glosa Explicatie TL a sensului unui obiect SL care nu are un echivalent direct in TL TL Ajuta utilizatorul TL sa inteleaga;
ajuta ambii utilizatori sa traduca
15 Echivalent apropiat Obiect TL corespunzand unui obiect SL care nu are un echivalent direct in TL TL Ajuta utilizatorul TL sa inteleaga;
ajuta ambii utilizatori sa traduca
16 Grup sintactic dat ca exemplu (direct) Un grup sintactic sau o propozitie ilustrand folosirea neidiomatica a cuvantului cap, intr-un context in care echivalentul TL este o traducere mot-a-mot SL Actioneaza ca un indicator SL de sens pentru utilizatorul SL; actioneaza ca un indicator TL de sens pentru utilizatorul TL; ajuta utilizatorii TS & SL sa foloseasca corect obiectul dintr-o limba straina
17 Grup sintactic dat ca exemplu (problematic) Un grup sintactic sau o propozitie ilustrand folosirea neidiomatica a cuvantului cap, intr-un context in care este cerut un anumit echivalent TL (i.e. un exemplu SL care este usor de inteles de catre vorbitorul TL, dar genereaza probleme de traducere pentru vorbitorul SL) SL Ajuta utilizatorul SL sa evite o greseala de traducere; actioneaza ca un indicator SL de sens pentru utilizatorul SL; ajuta ulterior utilizatorul TL sa foloseasca corect obiectul SL
18 Unitate frazeologica Unitate frazeologica idiomatica care contine cuvantul cap (in engleza desemnat prin MWE, termen care acopera expresii, colocatii fixe si semi fixe, compuse etc.) SL Ajuta ambii utilizatori sa traduca
19 Cuvant cap secundar Lema legata morfologic de cuvantul cap, care figureaza ca si cap al unei intrari secundare SL Economiseste spatiu; ajuta ambele tipuri de utilizatori sa gaseasca informatia pe care o cauta
20 Nota referitoare la utilizare Indica felul in care este folosit cuvantul cap; informatie de tip "macro" care nu poate sa apara in cazul fiecarei intrari; avertisment cu privire la diferentele culturale dintre cele doua limbi etc. SL sau TL Ajuta ambele tipuri de utilizator sa evite neintelegerile cu privire la obiectul intr-o limba straina, pe baza cunostintelor din propria limba
21 Frecventa Informatie privitoare la frecventa intrarii cod Ajuta ambii utilizatori sa traduca  1. (http://www.mpi.nl/world/ISLE/)
  2. Gibbon, D., Peters, W., Wittenburg, P., (December 2001), Metadata Elements for Lexicon Descriptions, Version 1.0, MPI Nijmegen.
  3. http://www2.arts.gla.ac.uk/IPA/ipa.html