Resurse Lexicale
Wim Peters
NLP group
Department of Computer Science
University of Sheffield
w.peters@dcs.shef.ac.uk

Introducere

Formatul de reprezentare a resurselor lingvistice

Standardizarea descrierii lingvistice

Metadate pentru descrierea lexicala

Compararea resurselor utilizand metadatele

Compararea resurselor utilizand metadatele

 

Pentru a ne face o impresie asupra utilitatii metadatelor in compararea si evaluarea resurselor lexicale, tabelul de mai jos listeaza continutul lingvistic a patru resurse, conform unei multimi de metadate care constituie un nivel general de submultime al multimilor ISLE discutate anterior. Resursele examinate sunt Longman Dictionary of Contemporary English (LDOCE) (1), baza de date Celex, WordNet si Cambridge International Dictionary of English (CIDE) (2).

  LDOCE CELEX WORDNET CIDE
ORTOGRAFIE  
Ortografie 1 1 1 1
Variante ortografice 1 1 1 1
Silabificare 1 1 0 0
Scriere cu majuscule 1 1 1 1
 
FONOLOGIE  
Transcriere fonetica 0 1 0 1
Marcarea accentului 0 1 0 1
 
MORFOSINTAXA  
Parte de vorbire 1 1 1 1
Flexiune 1 1 1 1
Conjugare 1 1 1 1
Numarare 1 1 0 1
Gradare (e.g. ocupat, mai ocupat) 1 1 1 1
Tip (e.g. verb auxiliar) 1 1 0 1
Gen 1 1 0 1
 
MORFOLOGIE  
Derivare/compunere 0 1 0 0
Segmentare 0 1 0 0
 
SINTAXA  
Alternare 1 1 1 1
Complementare 1 1 1 1
Pozitionare (atributiv, predicativ) 1 1 0 0
Analiza unitatilor cu mai multe cuvinte 0 0 0 1
Restrictii colocationale 0 0 0 1
 
SEMANTICA  
Sensuri 1 0 1 1
Clasificare ontologica 1 0 1 1
Relatie semantica 1 0 1 1
Definitie 1 0 1 1
Preferinta 1 0 1 1
Polisemie obisnuita 0 0 1 0
Domeniu 1 0 0 1
Idiom 1 0 0 1
 
ALTELE  
Note de folosire 1 0 0 1
Exemple 1 0 1 1
Traducere 0 0 0 0
Frecventa 0 1 0 0

Pentru a rafina comparatia, informatia de nivel inalt furnizata de acest sistem de clasificare poate fi extinsa prin alegerea unor niveluri din ce in ce mai rafinate ale descrierii lingvistice (de pilda prin incorporarea listelor ISLE complete). De exemplu, o subclasificare a unitatilor alcatuite din mai multe cuvinte poate fi furnizata pe baza partilor lor constituente (grupuri sintactice fixe, idiomuri, cuvinte compuse, constructii verbale suport etc.). Rafinarea maxima este obtinuta atunci cand informatia lingvistica a fost descompusa in unitatile de informatie de baza. Rezultatul este o structura foarte complexa de blocuri cu informatie lingvistica minimala, aflate intr-o stransa relatie de interdependenta si este exemplificat prin arhitectura GENELEX.

Un exemplu de diferente intre resurse si intre modurile in care ele isi gasesc locul in schema de clasificare a metadatelor il constituie codificarea complementarii verbale si a informatiei legate de preferinta in cadrul celor patru resurse mentionate anterior. Pentru acest tip particular de continut lingvistic urmatoarele informatii au fost gasite:

CELEX

LDOCE

WordNet

CIDE

Figura de mai jos ilustreaza cazul verbului "fall" (a cadea).

Complementation and preference for the verb 'fall'

Legarea fragmentelor de descriere specifice anumitor resurse de un metamodel cat mai fin granulat va prezenta mai multe avantaje:

'I*' = 'I' = 'intranzitiv' = 'cineva Vs'

 forma flexionara <derivat din> lema <sinonim> cuvant cap
<morfologic_compus_din> tema

Click to view larger

Click to view larger


  1. Procter, P. (1979), The Longman Dictionary of Contemporary English , Longman, London
  2. Cambridge International Dictionary of English (2001), Cambridge University Press, Cambridge U.K.