Formatul XML folosit de DGA

Textele adnotate sunt salvate in format XML, standardul in descrierea datelor adoptat si de comunitatea lingvistica ca modalitate standard de reprezentare a corpusurilor. Desi pentru adnotarea sintactica nu exista inca un set standard de taguri XML, asa cum exista pentru adnotarea morfosintactica XCES, DGA foloseste un set minimal de taguri inspirat din XCES. Astfel, fisierele XML produse de DGA pot fi transformate usor cu ajutorul XSLT in fisiere XML bazate pe alt vocabular (set de taguri), care sa raspunda nevoilor utilizatorului sau sa fie conforme cu un standard viitor.

Pentru a ilustra setul de taguri folosit dam mai jos un fragment de fisier xml care reprezinta adnotarea propozitiei "Ana are mure" (vezi Ce este DGA).

<s>
   <tok>
      <orth>Ana</orth>
      <ordno>1</ordno>
      <ctag>Substantiv</ctag>
      <syn>
         <head>2</head>
         <reltype>Subiect</reltype>
      </syn>
   </tok>
   <tok>
      <orth>are</orth>
      <ordno>2</ordno>
      <ctag>Verb</ctag>
      <syn>
         <head>4</head>
         <reltype>Predicat</reltype>
      </syn>
   </tok>
   <tok>
      <orth>mure</orth>
      <ordno>3</ordno>
      <ctag>Substantiv</ctag>
      <syn>
         <head>2</head>
         <reltype>Complement</reltype>
      </syn>
   </tok>
</s>

Fiecare propozitie este marcata de tagul <s> ... </s>. Fiecare cuvant din propozitie impreuna cu informatiile referitoare la adnotarea acestui cuvant este marcat de tagul <tok> ... </tok>. In interiorul acestui tag, forma ortografica, asa cum apare in textul care este adnotat, este marcata cu tagul <orth> ... </orth>, tagul <ordno> ... </ordno> indica numarul de ordine al cuvantului in cadrul propozitiei (al catalea este de la inceputul propozitiei), cu tagul <ctag> ... </ctag> se specifica partea de vorbire, iar <syn> ... </syn> delimiteaza informatiile sintactice. In interiorul tagului <syn> ... </syn> se specifica cuvantul cap prin numarul sau de ordine in cadrul propozitiei, numar delimitat de tagul <head> ... </head>. Cu ajutorul tagului <reltype> ... </reltype> se specifica tipul relatiei de dependenta care exista intre cele doua cuvinte (cuvantul caruia ii apartine adnotarea si cuvantul cap)..

Next Page

>Dependency Grammar Annotator