Kontsulta-sistemaren laguntza
1 Corpusaren kontsulta-interfazearen egitura
Kontsulta-sistemaren helburua da erabiltzaileak corpusean dagoen informazioa ikusteko
eta aztertzeko aukera ematea. ZT corpusetik hainbat informazio-mota eskura daiteke, eta,
horregatik, kontsulta-sistemak ere hainbat aukera eskaintzen ditu. Hona hemen
interesgarriak izan daitezkeen adibide batzuk:
-
ekuazio hitzaren agerraldiak ikustea, testuan ondoan duen hitzaren arabera
ordenatuta
-
programa-z hasten diren lemak (bakunak zein hitz anitzekoak) ikustea
(programa, programatu, programatzaile, programazio, programazio-lengoaia,
programazio-teknika…), bakoitzaren maiztasunarekin eta agerraldiekin batera,
horiek dokumentuaren arabera ordenatuta eta multzokatuta ageri direla
-
argi hitzaren kategoriaren araberako erabilera-datuak ikustea (izena,
adjektiboa, adberbioa)
-
integratu aditza eremu jakin batean (hau da, zientzia zehatzetan,
teknologian…) erabili den ikustea, edo agerraldiak eremuaren arabera nola banatuta
dauden ikustea
-
ingurugiro hitzaren erabilera urtearen arabera nola aldatu den,
ingurumen hitzaren erabilerarekin konparatzeko
-
azido hitzaren ondorengo adjektiboak zein diren eta bakoitza zenbat aldiz
erabili den ikustea (azido sulfuriko, azido nitriko, azido azetiko…)
-
baita… ere hitz anitzeko unitatearen agerraldiak bistaratzea
Horrelako eta bestelako hainbat bilaketa egiteko aukera ematen du ZT corpusaren
kontsulta-sistemak. Honen guztiaren helburua da erabiltzaileari erabilera errealaren
testigantzak eta datuak ematea, hark nahi duen gaia edo alderdia azter dezan.
ZT corpusa kontsultatzeko sistemak bi bilaketa-mota ditu: bilaketa
arrunta eta bilaketa aurreratua. Hurrengo ataletan,
horietako bakoitzaren ezaugarriak zehatz-mehatz azalduko ditugu, baina, horren aurretik,
ideia orokor bat emango dugu. Oinarrizko egitura bera dute biek ere:
-
Bilaketa-atala. Hirutan banatuta dago, eta azpiatal horietako bakoitzak
aukera ematen du:
- bilatu nahi dena (bilagaia) zehazteko: lema, forma (edo testu-hitza) eta
kategoria
- bilaketa non (corpusaren zein atal edo sailetan) egin nahi den mugatzeko:
corpus osoan edo eskuz landutako corpus-atalean; halako eremuan edo generoan; lema
konplexuen osagaietan (bai/ez)
- emaitza-mota aukeratzeko (testuinguruak, kopuruak edo biak) eta bilagaiaren
agerraldiak ordenatzeko irizpidea hautatzeko (dokumentua, lema, forma, ondoko edo
aurreko testuingurua eta abar)
-
Emaitza-atala. Bi emaitza mota daude:
- Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen, formen,
lema/kategoria konbinazioen eta abarren zerrenda eta kopuruak (maiztasun-taula eta
-grafikoa)
- Bilaketa-atalean zehaztu diren baldintzak betetzen dituzten lemen edo formen
agerraldiak, KWIC edo 'konkordantzia' eran emanak; horien agerraldietan klik
eginez, agerraldiaren erreferentzia (obra, egilea eta abar) eta testuinguru
zabalagoa eskaintzen da aparteko leiho batean
Hurrengo irudiak bi atal horiek bilaketa aurreratuan nola antolatu diren erakusten du:
1. irudia. Kontsulta-interfazearen ikuspegi eta antolaketa orokorra.
Hurrengo ataletan, aukera horiek guztiak zehatz azalduko dizkizugu. Bilaketa arruntari
ekingo diogu lehenik.
Hasierara
2 Bilaketa arrunta
Bilaketa arruntaren bidez corpusaren oinarrizko kontsultak egin daitezke, arin eta
erraz. Corpus-kontsultan erabilienak izaten diren aukerak hautatu ditugu bilaketa
arrunta diseinatzeko.
2.1 Bilaketa-atala
Honako aukerak ditu erabiltzaileak:
2. irudia. Bilaketa arruntaren bilaketa-atala.
Bilagaia:
-
Zer: Lema / Forma. Lema, nolabait definitzearren, euskal
hitz baten forma hutsa da, deklinatu edo kasu-atzizkirik gabea, hiztegiko sarrera izan
litekeena. Esaterako, atomo, bero, geologiko, ernaldu, sekuentzialki… Formak,
berriz, kasu-atzizkidunak (atomoarekin, beroagatik…) edo flexionatuak
(ernaltzen, dator…). Hitz baten eratorriak aparteko lemak dira (hau da
bero eta berotasun bi lema dira). Corpus honetan, hitz anitzeko
unitate batzuk (hala ere, baita … ere, kontuan hartu…) eta marraz lotutako
izen-izen elkarteak ere lematzat hartu dira, baina osagaien informazioa ere gorde da,
eta horien araberako bilaketa egiteko aukera ere badago (ikus
Osagaietan atala). Bestetik, kontuan izan behar dugu
lema-aldaera batzuk aldaera estandarraren arabera lematizatu direla. Adibidez,
jarduera/iharduera, elkarzut/elkartzut,
immunitate/inmunitate aldaera-bikoteetan, lehenak dira estandarrak; beraz,
jarduera, elkarzut edo immune lemak eskatuz gero,
iharduera, elkartzut eta inmune-ren agerraldiak ere
bistaratuko dira; aldaera-normalizazioa zein kasutan egon den zehatzago jakiteko, ZT corpusaren
diseinua eta metodologia ataleko "Baliabide lexikalak eta lematizazio-irizpideak" irakurtzea
gomendatzen dizugu
-
Konp. ('konparazio-mota'): Da / Hasi / Bukatu. Lehen aukera
erabiliko dugu bilaketa zehatz bat egin nahi dugunean, hau da, Bilatu laukian
sartzen dugunaren berdina den lema edo forma bilatu nahi dugunean. 'Hasi' eta 'Bukatu'
aukeren bidez, halako karaktere-segidaz hasten edo amaitzen diren lemak edo formak
bila daitezke. Adibidez, aurrizki jakin batez hasten direnak (supra-, hiper-...)
edo atzizki jakin bat dutenak (-tzaile, -zio...); hitz baten lema
eratorriak edo hitz-elkarteak bilatzeko ere balio dezake (esaterako, programa-z hasten
diren lema bakunak zein hitz-elkarte diren lemak: programa, programatu,
programatzaile, programazio, programagarri, programazio-lengoaia... )
-
Bilatu: bilagaia, hau da, corpusean bilatu nahi den karaktere-segida
-
Kategoria: hitz batzuk kategoria bat baino gehiago dute. Adibidez,
argi hitza izena, adjektiboa edo adberbioa izan daiteke. Izenen agerraldiak
soilik nahi baditugu, Kategoria laukian 'iz.' (izena) hauta
dezakegu.
Hauek dira erabil daitezkeen kategoria-balioak:
- adb.
- adberbioa
- ad.
- aditza
- adj.
- adjektiboa
- best.
- bestelakoa
- det.
- determinatzailea
- izord.
- izenordaina
- interj.
- interjekzioa
- iz.
- izena
- junt.
- juntagailua
- lok.
- lokailua
- mend.
- menderagailua
- partik.
- partikula
Izenondoak eta izenlagunak adjektiboa kategoria nagusian bildurik daude, -dun
eta -(t)ar atzizkidun adjektiboekin batera.
Bilaketa arruntean, Bilatu laukian zerbait sartu behar da nahitaez
bilaketa egiteko, hau da, ezin dugu Bilatu laukia hutsik utzi,
Kategoria laukian, esaterako, 'det.' (determinatzailea)
hautatu, eta bilaketa egin, determinatzaile guztien agerraldiak kontsultatzeko. Aukera
hori ez eskaintzeko arrazoi nagusia da emaitzen multzoa oso handia litzatekeela.
Bilaketa aurreratuan, ikusiko dugu hiru 'bilagai' zehazteko aukera izango dugula, eta
kasu batzuetan kategoria erabil daitekeela irizpide murriztaile hustzat.
Bilaketaren 'espazioa':
-
Non: Corpus osoan / Eskuz zuzenduan.
ZT corpusaren aurkezpena atalean esan dugun bezala,
corpusean parte bat eskuz landua eta zuzendua da. Atal horren tamaina 1,9 miloi
hitzekoa da corpusaren bertsio honetan (guztira 8,5 milioi hitz daude). Gainerakoak
automatikoki prozesatu dira
-
Osagaietan: bai / ez. ZT corpusean badira hitz anitzez
osatuak diren lemak. Batetik, hitz anitzeko unitate 'seguru' batzuk lema bakartzat
hartu dira: hala ere, baita ere, kontuan hartu, Euskal Herria… (ikusi
hitz anitzeko unitate guztien zerrenda); bestetik,
marraz lotutako izen-izen elkarteak ere lematzat etiketatu dira: mahai-inguru,
haize-energia... Dena den, horien osagaien informazioa ere badago corpusean,
eta erabiltzaileak aukera dauka bilaketa osagai horietan egiteko. Horretarako, lauki
hau aktibatu egin behar da. Esate baterako, lauki hau aktibatu gabe dagoela lema=
haize eskatzen badugu, haize-energia-ren agerraldiak ez dira
ikusiko, horien lema haize-energia delako. Gerta daiteke, ordea, testuan
haize energia agertzea (kontuan izan marra idaztea aukerakoa dela, eta
idazle edo argitaletxe guztiek ez dutela erabiltzen). Beraz, haize-ren
ondoren agertzen diren hitzak ikusi nahi baditugu, eta testuinguruak ondoko hitz
horien arabera ordenatu nahi baditugu, Osagaietan aukera aktibatu
egingo dugu, eta testuan haize-energia zein haize energia dagoen,
haize-ren ondoren energia hitzaren agerraldiak ikusiko ditugu.
Baliabide hau interesgarria da hitz baten elkarteak aztertzeko (hitza elkartearen
lehen osagaia zein bigarren osagaia izanik)
Bilaketaren emaitzak antolatzea:
Bilaketa arruntean, emaitza-atala beti dago osatua ezkerraldeko taula-grafikoez eta
eskuinaldeko testuinguruez edo KWIC ikuspegiaz (ingelesezko key word in
context-etik). Aurrerago ikusiko dugunez, bilaketa aurreratuan aukera dago
emaitza-motak hautatzeko. Bilaketa arruntean, testuinguruak ordenatzeko aukera dago:
-
Ordenatu honen arabera:
Aukera interesgarria da, emaitzak
aztertzerakoan ikuspuntu edo interes desberdinak izan ditzakegulako. Adibidez,
bilagaiaren aurreko eta ondoko hitzen arabera ordena ditzakegu testuinguruak. Hauek
dira aukerak:
- Dokumentua
- Lema
- Kategoria
- Forma
- Ondoko testuingurua
- Aurreko testuingurua
- Eremua
- Generoa
- Urtea
2.2 Emaitza-atala
Lehen esan bezala, bilaketa arruntean emaitza-atala beti dago osatua ezkerraldeko
taula-grafikoez eta eskuinaldeko testuinguruez edo KWIC ikuspegiaz.
2.2.1 Emaitzen taula eta grafikoak
Erabiltzaileak egindako bilaketaren emaitzak (lemak edo formak) taula batean
bistaratzen dira, ondoan maiztasunak dituztela (agerraldi-kopuruak) eta behealdean
grafikoa dagoela.
3. irudia. Emaitza-ataleko kopuruen taula eta grafikoa.
Bilaketa-atalean Zer laukian 'Lema' eta Konp. laukian
'Da' hautatu badugu, taula honetan delako lemaren formak agertzen dira, maiztasunaren
arabera ordenatuta. 'Da' hautatu beharrean 'Hasi' hautatuz gero, ikusiko duzu lemak
bistaratzen direla. Zer laukian 'Forma' aukera sartuz gero, lemak
bistaratzen dira 'Da' hautatzean, eta formak, berriz, 'Hasi' hautatzean.
Lehen bistaratzean, aurreneko hamar itemak (lemak edo formak) agertzen dira. Emaitza
guztiak bistaratu nahi badira, 'Beste guztiak' aukera sakatu behar da. Dena den,
grafikoan beti lehen hamar itemak bereizten dira, eta gainerakoak 'Beste guztiak'
atalean biltzen dira. Grafikoa ulertzeko, kontuan izan koloreak taularen ezkerreko
zutabean ageri diren koloreei dagozkiela, hau da, koloreak zerrendako lema edo formei
dagozkiela.
Bilaketaren emaitzak pantailaratzen direnean, kontsulta-sistemak zerrendako item
guztien agerraldiak bistaratzen ditu testuinguruen atalean. Emaitza-taulako item batean,
lema zein forma batean, klik eginez, horri dagozkion testuinguruak bakarrik bistaratzen
dira; atzera berriz guztien agerraldiak ikusi nahi izanez gero, 'Guztien testuinguruak
batera' aukera sakatu behar da.
2.2.2 Testuinguruak (KWIC)
Emaitza-atalaren eskuinaldean, bilaketan aurkitutako agerraldien testuinguru laburrak
agertzen dira, bilagaia erdian eta koloreztaturik dagoela.
4. irudia. Testuinguruen atala (KWIC).
Koloreek testuko hitzaren analisiaren ziurtasun- edo fidagarritasun-mailak adierazten
dituzte, eta bilaketa aurreratuan zehatzago azalduko ditugu. Aski da oraingoz jakitea
berde-hori-gorri koloreek segurutik ez hain segurura bitarteko mailak adierazten
dituztela.
5. irudia. Gako-hitzaren nabarmentze-kolorea, analisiaren ziurtasunaren
adierazgarri.
Non laukiaren balioa Eskuz zuzenduan denean, agerraldi
guztiak berde argiz nabarmenduta daude, hori baita segurtasun handiena adierazten duen
kolorea (eskuz berrikusi eta zuzendu diren analisiak dira berde argiz nabarmenduta
daudenak).
Gogoan izan Ordenatu honen arabera aukeraz balia zaitezkeela
testuinguruak gehien komeni zaizun irizpidearen arabera ordenatzeko, eta ezkerreko
emaitza-taulan ageri den lema edo forma jakin baten testuinguruak bakarrik ikusi nahi
badituzu, aski dela haren gainean klik egitea.
Adibidez, hona hemen ekuazio lemaren agerraldiak, testuan ondoan duten
hitzaren arabera ordenatuta:
6. irudia. ekuazio lemaren agerraldiak, ondoko testuinguruaren
arabera ordenatuta.
Hurrengoan, berriz, programa-z hasten diren lemak (bakunak zein hitz
anitzekoak) (programa, programatu, programazio, programagarri, programatzaile
programazio-lengoaia, programazio-formatu…), bakoitzaren maiztasunarekin eta
agerraldiekin batera, horiek dokumentuaren arabera multzokatuta.
7. irudia. programa-z hasten diren lemak, dokumentuka.
Bestalde, testuinguru-atalaren argibide batzuk:
- Aurkitutako agerraldiaren gainean sagua pausatuz, agerraldi horren analisiaren
emaitza bistaratzen da (lema kategoria)
8. irudia. Gako-hitzaren informazio linguistikoa.
- Aurkitutako agerraldian sakatuz, agerraldi hori zein obratan dagoen eta testuinguru
luzeagoa erakusten duen leihoa irekitzen da. Testuinguru luzeago horretan, agerraldia
nabarmenduta dago
9. irudia. Testuinguru hedatuen eta metadatuen leihoa.
- Testuinguruan marka agertzeak adierazten du jatorrizko testuan irudi bat edo
testu ez den bestelako objektu bat zegoela (ekuazio-editoreekin sortutako formulak,
esaterako); horrelako objektuak ez dira corpuseratu (kontuan izan ZT corpusa baliabide
linguistikoa dela eta haren helburua ez dela testuak beren jatorrizko itxuran, formatuan
eta testu ez diren osagaiekin biltzea eta etiketatzea)
10. irudia. etiketa.
Hasierara
3 Bilaketa aurreratua
Bilaketa aurreratuaren bidez, kontsulta sakonagoak eta zehatzagoak egiteko aukera duzu.
Hauek dira bilaketa arruntari gehitu dizkiogun aukerak bilaketa aurreratua eratzeko:
3.1 Bilaketa-atala
Honako aukerak dituzu:
11. irudia. Bilaketa aurreratuaren bilaketa-atala.
Bilagaia:
-
Orain aukera duzu hiru bilagai erabiltzeko, eta batetik bestera dagoen
distantzia zehazteko ere bai. Distantzia handiena 4 da (lau testu-hitz).
Gainera, distantziaren norabidea ere aukera dezakezu (aurrerantz, atzerantz edo bietara).
Horrez gain, bilagai batean Bilatu eremua hutsik utz daiteke, eta
kategoria soilik zehaztu. Horri esker, lehen bilagaian zehaztu den lema edo formaren
ondoren gehienez halako distantziara dagoen kategoria jakin bateko hitzak bila daitezke;
esaterako, lema edo forma jakin baten ondoren (demagun, azido) dauden
adjektiboak bila daitezke.
12. irudia. Bilaketa aurreratuaren bilaketa-atala: bilagai anitz
sartzeko aukera.
Bilaketaren 'espazioa':
-
Non eta Osagaietan eremuez gain,
Eremua eta Generoa eremuak ere erabil ditzakezu
bilaketa aurreratuan. Horien bidez, bilaketa eremu edota genero jakin bateko obretan
egiteko aukera dago. Adibidez, integratu aditza informatika-testuetan erabili
den jakiteko, Eremua='Teknologia' aukera dezakegu, eta, horretara,
Zientzia zehatzen (hau da, Matematikaren) alorreko obretako integratu
aditzaren agerraldi ugariak begien bistatik galduko ditugu, eta agerraldi gutxiago
izango ditugu aztertzeko (Matematikakoa beste kontzeptu bat baita)
Bilaketaren emaitza-motak hautatzea eta antolatzea:
-
Emaitza. Hiru emaitza-mota hauta daitezke: 'Testuinguruak',
'Kopuruak' eta 'Testuinguruak eta kopuruak'
- Testuinguruak bistaratzea hautatzen bada, Ordenatu honen arabera
eremua agertzen da interfazean. Bilaketa arrunteko ordenazio-irizpideez gain, orain
beste irizpide batzuk agertzen dira bigarren bilagai bat zehaztu badugu: 2. hitzaren
aurreko eta ondoko testuinguruen arabera ordenatzea. Orobat 3. bilagaia zehazten
dugunean
- Kopuruak bistaratzea hautatzen denean, Kopuruak, Gehienez eta
% eremuak bistaratzen dira. Kopuruak eremuaren
aukerak hauek dira:
- Forma
- Lema
- Kategoria
- Lema eta kategoria
- Aurreko hitzaren forma
- Aurreko hitzaren lema
- Ondoko hitzaren forma
- Ondoko hitzaren lema
- Eremua
- Generoa
- Urtea
Gainera, bigarren edo hirugarren bilagaia sartzen bada, beste aukera batzuk
bistaratzen dira: hain zuzen ere, 'Eremua', 'Generoa' eta 'Urtea' kenduta (datu
horiek obrari baitagozkio), gainerakoetan aukera dago dagokion datua lehen, bigarren
edo hirugarren bilagaiaren arabera eskuratzeko.
Eremu honetan ez dago murrizketarik nahi beste parametro aukeratzeko. Letra larrien
tekla sakatuta, ondoz ondoko parametro-segida bat hauta dezakegu; kontrol-tekla
sakatuta, nahi dituzun parametroak hauta ditzakezu, elkarren ondokoak ez izan arren.
Bilaketa-atalean bilagai bat baino gehiago erabili dugunean, Kopuruak eremuan
aukera berriak ditugu:
- 2. hitzaren ondoko forma/lema
- ...
Gehienez eremuaren helburua da tauletan zenbat emaitza bistaratuko
diren zehaztea, edo irizpide batzuen arabera mugatzea. Hauek dira aukerak:
- Zenbat emaitza bistaratzea nahi dugun: maiztasunen ranking-eko lehen 10 / 20 /
50 emaitzak
- Maiztasunaren arabera: 10 / 3 / 1 baino maiztasun handiagokoak
- Denak
% aukera hautatuz gero, emaitzen taulan item bakoitzak gainerako
emaitzekiko duen maiztasun erlatiboa agertzen da. Esaterako, lema baten erabilera
eremuaren arabera nola banatzen den aztertu nahi badugu.
13. irudia. protozoo terminoaren banaketa eremuaren
arabera.
3.2 Emaitza-atala
Funtsean, emaitza-atalaren ezaugarri nagusiak bilaketa arruntean azaldu ditugunak dira.
Orain aukera dugu kopuruak bakarrik bistaratzeko, edo testuinguruak besterik ez, baita
biak batera ikusteko ere. Bestetik, azaldu berri dugu Kopuruak laukian
aukera gehiago ditugula bilaketa aurreratuan. Adibide batzuen bidez jabetuko gara hobeto
horien baliagarritasunaz:
3.2.1 Emaitzen taula eta grafikoak
14. irudia. argi lemaren formen eta kategorien banaketa.
15. irudia. ingurugiro eta ingurumen terminoen
maiztasunak urtearen arabera.
16. irudia. integratu aditzaren Teknologia eremuko agerraldiak.
17. irudia. azido-ren ondoan agertzen diren adjektiboak.
18. irudia energia hitzaren aurreko eta ondorengo izenen
maiztasunak, marraz lotuak zein gabeak (Osagaietan aukeraren erabilera)
3.2.2 Testuinguruak (KWIC)
Bilaketa arruntean bezala, aurkitutako agerraldiaren gainean sagua pausatuz, agerraldi
horren analisiaren emaitza bistaratzen da (lema kategoria). Automatikoki
prozesatu diren testu-hitzen kasuan, gerta daiteke anbiguoak izatea, hau da analisi bat
baino gehiago onartzea. Esaterako, hartzen testu-hitza hartu aditzaren forma
izan daiteke (aspektu burutugabea), edo hartz izenarena (hartz + -en). Analisi guztiak bistaratzen dira, eta desanbiguazio automatikoan
probableentzat jo dena letra lodiz ikusiko duzu. Esaterako, hurrengo adibidean
desanbiguatzaile automatikoak hartu
aditza analisia hobetsi du (baita asmatu ere).
19. irudia. hartu-ren agerraldi batzuk, ziurtasun-maila
desberdinekoak.
Zergatik ageri da orduan hartzen horiz nabarmenduta? Horra azalpena:
- Agerraldiak lau koloretan ager daitezke:
- berde argia: eskuz zuzendua
- berde iluna: automatikoki prozesatua, baina analisi
bakarra eman duena, eta aski segurua izan daitekeena
- horia: automatikoki prozesatua, eta analisi bat baino
gehiago eman duena, baina desanbiguazio automatikoan bilagaiarekin bat datorren
analisia onentzat edo seguruentzat eman da. Azaldu berri dugun adibidean,
erabiltzaileak hartu lema sartu du, eta hartzen testu-hitz baten
analisien artean hartu da desanbiguazio automatikoan hobetsi den analisia;
horregatik ageri da hitza horiz nabarmendurik
- gorria: automatikoki prozesatua, eta analisi bat
baino gehiago eman duena, baina desanbiguazio automatikoan onentzat edo
seguruentzat eman dena ez dator bat bilagaiarekin. Erabiltzaileak hartz
lema eskatzen badu, delako hartzen hori gorriz nabarmenduko da, hobetsi
analisia (hartu aditza) ez datorrelako bat berak eskatu duenarekin
20. irudia. hartz-en agerraldi ez-ziurrak.
Azken hiru aukerak Non laukiaren balioa 'Corpus osoan' denean soilik
bistaratzen dira. Dena den, ezkerraldeko emaitza-atalean kopuruak ez dira lau taulatan
antolatzen, bitan baizik:
- Lema eskuz zuzenduak edo analisi bakarrekoak: berdez (argiz zein ilunez) bistaratuak
zenbatzen dira (seguruak edo aski seguruak direnak)
- Lema anbiguoak: gainerako biak (hori eta gorriak)
Hasierara