Zientzia eta Teknologiaren Corpusa

Sarrera eta azalpen laburra

Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

ztcorpusa.net gunean aurkezten dugun eta kontsulta daitekeen bertsioa corpus-proiektu zabal baten lehen emaitza da. Proiektu horretan diseinatu den corpusari eta corpusgintza-metodologiari buruzko informazio zehatza ZT corpusaren diseinua eta metodologia atalean duzu irakurgai.

Corpusaren osaera dela eta, 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak hartu dira kontuan corpusa elikatzeko. Corpus sailkatua da, eremuaren (jakintza-alorraren) eta generoaren (testu-motaren) arabera.

Corpus etiketatua da, bai testuaren egiturari eta formatuari dagokionez, bai linguistikoki. Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili da (IXA taldearen Eustagger etiketatzailea). Testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatu dira. Corpusaren lehen bertsio honetan, 8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu dira. Corpusgintza-lanak egiteko eta kudeatzeko, Corpusgile tresna garatu dugu; tresna horrek corpusa eratzeko urratsak hartzen ditu bere baitan, eta, etiketatze linguistikoa egiteko, IXA taldearen Eustagger eta Eulia tresnekin egiten du lan. ZT corpusa baliabide linguistikoa da, ez dokumentala; beraz, irudiak eta testu ez diren bestelako objektuak (ekuazio-editoreekin sortutako formulak, esaterako) ez dira corpusean adierazi, baina bai horien aztarna utzi, etiketa huts baten bidez.

Corpusa XMLn etiketatuta dago, eta TEI estandarrari jarraitu diogu.

Eskuz landutako testuak ez dira nolanahi hautatu. Izan ere, esana dugu orain Interneten aurkezten dugun bertsioa proiektu zabal baten parte dela, eta corpus-proiektu hori bi atalez osatua da:

  • Zientzia eta teknologiaren alorreko euskarazko testugintzaren adierazgarria izateko asmoz diseinatu den gune orekatua
  • Eskuragarritasunaren arabera corpuseratzen diren obrez edo obra-zatiez osatutako atal irekia

Gune orekatuan zein obra sartu behar den eta obra bakoitzetik zein testu-masa eta zein pasarte sartzen diren ere irizpide jakin batzuen arabera erabaki da. Horretarako, lehenik 1990-2002 bitarteko zientzia eta teknologiaren alorreko obren inbentarioa egin da. Hurrena, adierazgarritasuna edo 'oreka' bermatuko duen lagintze-eredu estatistikoa landu da, lehen azaldutako eremuan eta generoan oinarrituta. Adierazgarritasuna bermatzeko, kalkulatu da gune orekatuaren tamainak 5 milioi hitzekoa behar lukeela izan. Orain arte bildu eta etiketatu ditugun gune orekatuko obretakoak dira, hain zuzen ere, corpusaren lehen bertsioan eskuz zuzendu diren 1,9 milioi hitzak.

Corpusa etiketatzean, gune orekatuko laginak automatikoki prozesatu dira lehenik, eta gero eskuz landu, etiketatze-lana, egiturazkoa zein linguistikoa, aberasteko, zuzentzeko eta desanbiguatzeko. Gune orekatukoak ez diren testu-zatiak, berriz, automatikoki baizik ez dira prozesatu, baina prozesamendu hori gune orekatuko lanak amaitutakoan egin da, sistemak eskuz landutakotik 'ikasi' duena aplika dezan, etiketatze automatiko hobea lortzearren.

Corpusa kontsultatzeko interfaze ahaltsua antolatu dugu, eta erabiltzaileak era askotako bilaketa bakunak eta konplexuak egiteko aukera izango du, horretarako parametro-multzo zabala erabiliz: lema, testu-forma, kategoria, eremua, generoa, corpus-atala (eskuz zuzendua/corpus osoa)... Emaitzak bi eratakoak izan daitezke:

  • Batetik, bilagaiaren testuinguru labur lerrokatuak (KWIC edo konkordantziak), zenbait irizpideren arabera ordena daitezkeenak (dokumentua, lema, forma, aurreko eta ondoko testuingurua, eremua, generoa...); nahi izanez gero, agerraldi bakoitzaren testuinguru zabalagoa bistara daiteke (300 hitz), dagokion obraren erreferentziarekin batera
  • Bestetik, informazio kuantitatiboa: lemen eta formen agerraldien maiztasuna, horien aurretik edo ondoren agertzen diren lemen edo formen maiztasunak, eremu edo generoaren araberako banaketa, eta abar

Bi emaitza-mota horiek konbinatzeko aukera ere izango du erabiltzaileak. Kontsulta-interfazearen erabileraren informazioa Kontsulta-sistemaren laguntza atalean duzu.

ZT corpusaren lehen bertsioan sartu diren obrak direla eta, asko formatu digitalean jaso ditugu hainbat hornitzailerengandik, haiekin sinatutako hitzarmenei esker. Bihoazkie denei ere gure esker beroenak. Hemen duzu hornitzaileen zerrenda .

ZT corpusaren Interneteko bertsioa gizarteratzeko hiru modalitate antolatu ditugu:

  • Interneteko doako kontsulta: web gune hau bera da asmo horren gauzatzea
  • Ikerkuntzarako hitzarmen bidezko dohaintza: ikerkuntzan ari diren erakunde eta ikertzaile-taldeek doan eskura dezakete, hitzarmen bidez, eta ikerkuntzarako betiere
  • Ustiapen komertzialerako lizentzia bidezko banaketa: corpuseko datuak hiztegigintzan, hizkuntza-teknologietako aplikazioetan eta abarretan erabiltzeko aukera eskaini nahi dugu; 2007tik aurrera, corpusa ELDAren baliabideen artean egongo da, eta bertatik kudeatuko da corpusaren banaketa

Azken bi aukerak aitzindariak dira euskal corpusen alorrean, orain artean eratu diren corpusek ez baitute kontsulta-sistema puntuala beste erabiltze-aukerarik eskaintzen.

Hasieran esan bezala, Zientzia eta Teknologiaren Corpusa UPV/EHUko IXA taldearen eta Elhuyar Fundazioaren lankidetza-proiektua da. 2003. urtean hasi ziren oinarrizko diseinu-lanak, eta 2004-2006 bitartean lantalde zabal batek jardun du corpusgintzan (ZT corpusaren lantaldea). Hizking21 ikerketa estrategikoko proiektuaren barnean hasi zen egiten. Hizking21 proiektuak honako laguntza hauek jaso ditu: Eusko Jaurlaritzaren Industria Sailaren Etortek programa (2002-2004) eta Gipuzkoako Foru Aldundiaren Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea programa (2004). Bestetik, Zientzia eta Teknologiaren Corpusa-k Eusko Jaurlaritzaren Kultura Sailaren 2005eko Euskara eta Teknologia Berriak programaren eta 2006ko IKT programaren laguntza ere jaso du.

ztcorpusa.net guneko corpus-bertsioaren ezaugarri nagusiak

Epea:
1990-2002 (biak barne)
Eremuak:
Zientzia zehatzak
Materiaren eta energiaren zientziak
Lurraren zientziak
Biziaren zientziak
Teknologia
Orokorra
Bestelakoak
Generoak:
Oinarrizko hezkuntzako materiala
Goi-mailako liburua
Artikulu espezializatua
Dibulgazio-artikulua
Dibulgazio-liburua
Administrazio publikoko dokumentua
Egitura-etiketatzea:
TEI P4 (XML)
Automatikoa: testuaren egitura-ezaugarriak (atalburuak, atalak, azpiatalak, paragrafoak, zerrendak, taulak, oin-oharrak, irudi-oinak, eta abar.); nabarmentze-ezaugarriak (tipografikoak, hau da, letra-estiloa eta komatxo edo kakotxak)
Eskuz landua (gune orekatuko laginak): nabarmentze-ezaugarrien balioa (enfasia, aipua, atzerri-hitza, ohiz kanpoko adiera edo erabilera ironikoa, metahizkuntza, terminoa, izen berezia...)
Aurreprozesamendu linguistikoa (gune orekatuko laginak):
Corpusaren lexikoi osagarria elikatzea (EDBLn eta Elhuyar Hiztegian ez dauden eta corpusean atzeman diren maiztasun handiko lema espezializatuak)
Aldaeren normalizazioa (<reg> etiketa)
Akats ortotipografikoen zuzenketa (<corr> etiketa)
Etiketatze linguistikoa:
Erabilitako baliabide lexikalak: EDBL (http://ixa2.si.ehu.es/edbl/ )+ZT corpusaren lexikoi osagarria (Elhuyar Hiztegia+corpusaren aurreprozesamendu linguistikoan bildutako lexiko espezializatua)
Automatikoa:
  • lema eta kategoria
  • hitz anitzeko unitate 'seguruak' eta marraz lotutako izen-elkarte diren lema konplexuak etiketatu dira, eta horien osagaien informazioa (lema eta kategoria) ere gorde da, horien araberako kontsultak egiteko aukera ere izateko
  • testu-hitz batek analisi bat baino gehiago dituenean (anbiguoa denean), desanbiguazio automatikoaren bidez analisi bat hobesten da, baina gainerako analisiak gorde egin dira
  • desanbiguazio automatikoa amaieran egin da, eskuz egindako desanbiguazio-lanetik 'ikas' dezan
Eskuz landua (gune orekatuko laginak):
  • desanbiguazioa: lema/kategoria mailako analisi bat baino gehiago ematen duten testu-formetarako analisi zuzena hautatu da
  • prozesamendu linguistikoan izandako akatsak zuzendu dira
  • aldaeren normalizazioa: EDBLn zehaztutako aldaera ez-estandarren agerraldiak aldaera estandarraren lemarekin etiketatu dira. EDBLn aldaeren estandartasuna ebazteko erabiltzen den iturria Euskaltzaindiaren Hiztegi Batua da
Tamaina:
Guztira: 8,5 milioi hitz (8.529.505)
Automatikoki landuak: 6,6 milioi hitz (6.634.573)
Automatikoki landuak eta gero eskuz berrikusiak eta zuzenduak: 1,9 milioi hitz (1.894.932)
Lema-kopurua:
Guztira: 149.793
Eskuz egiaztatuak: 78.637