Zientzia eta Teknologiaren Corpusa

Inbentarioa eta laginketa

1 Inbentarioa

Gune orekatua eratzeko lehen eginkizuna inbentarioa egitea da. Horretarako, Euskal Herrian egin diren lanak eta ISBN datu-basearen CD-ROMa hartu dira abiapuntutzat:

  • Joan Mari Torrealdairen XX. mendeko euskal liburuen katalogoa (http://www.jakingunea.com/grafikoak/katalogoa.htm)
  • Inguma - Euskal Komunitate Zientifikoaren Datu-Basea (http://www.inguma.org/berria/index.cfm)
  • Agencia Española del ISBN (http://www.mcu.es/bases/spa/isbn/ISBN.html#A01)

Inguma-ren jabe den UEUrekin hitzarmena sinatu da, baliabide hori HIZKING21eko corpusgintzan erabili ahal izateko.

1990-2002 bitarteko Zientzia eta Teknologia alorreko obrak sartu dira inbentarioaren datu-basean. Horretarako, aipatu iturrietako datuen bidezko hautatze-prozedura automatikoak erabili dira lehen bilketa-lana egiteko. Jatorrizko datuak iragazteko, SHU sailkapeneko balioak erabili dira.1 Batzuetan, iturburuan ez dago horri buruzko informaziorik. Adibidez, Jakinen bibliografian 'Hezkuntza' atal generikoan bildu dira zientzia eta teknologiaren alorreko obrak. Beraz, atal hori osorik landu behar izan dugu, ZT alorrekoak ez direnak baztertzeko.

Bilketa hori datu-base bakarrera ekarri da, eta, ondoren, eskuz berrikusi dira emaitzak, bat ez datozen datuak bateratzeko, osatzeko, eta estaldura eta doitasuna hoberentzeko.

Prozesu hori antolatzeko irizpide batzuk:

  • ISBN zenbaki bereko argitalpenak: azken edizioa hartu da
  • Liburu edo aldizkari bakarrean argitaratutako artikuluak: bakoitza obratzat hartu da

Inbentarioa egin ondoren, obrak Laginketa-eredua atalean zehaztu ditugun eremu- eta genero-balioen arabera sailkatu dira.

Emaitzak:

  • Obra-kopurua: 9.481
  • Hitz-kopuruaren aurreikuspena: 86.360.275
  • Eremuaren araberako banaketa
  • Eremua Obrak % Eremua Hitzak %
    Biziaren zientziak 4.010 42,30 Biziaren zientziak 28.478.966 32,98
    Teknologia 2.210 23,31 Zientzia zehatzak 17.191.685 19,91
    Materiaren/energiaren zientziak 876 9,24 Teknologia 15.890.121 18,40
    Zientzia zehatzak 864 9,11 Bestelako gaiak 10.570.116 12,24
    Bestelako gaiak 641 6,76 Materiaren/energiaren zientziak 6.047.952 7,00
    Orokorra 454 4,79 Lurraren zientziak 4.773.169 5,53
    Lurraren zientziak 426 4,49 Orokorra 3.408.266 3,95
  • Generoaren araberako banaketa
  • Generoa Obrak % Generoa Hitzak %
    Dibulgazio-artikulua 5.136 54,17 Oinarrizko hezkuntza 39.090.780 45,26
    Oinarrizko hezkuntza 1.751 18,47 Goi-mailako liburua 22.226.400 25,74
    Artikulu espezializatua 1.051 11,09 Dibulgazio-liburua 12.151.080 14,07
    Dibulgazio-liburua 524 5,53 Administrazio publikoa 7.967.160 9,23
    Administrazio publikoa 473 4,99 Dibulgazio-artikulua 2.876.140 3,33
    Goi-mailako liburua 546 5,76 Artikulu espezializatua 2.048.715 2,37

Nabarmena da 'Dibulgazio-artikulua' generoko obra-kopuru handia. Kontuan hartu behar da, dena den, artikulu horietako asko (2.915, obra guztien % 30,75) lagin-tamaina minimoa baino laburragoak direla (<300 hitz). Bistan dena, dagokien hitz-kopurua txikia da (382.724, hitz, % 0,44).

2 Laginketa

Inbentarioaren datuak ikusita, honako hauek erabili ditugu gogoan laginketarako geruzen proportzioak erabakitzerakoan:

  • Geruzen arteko alde handiak nabari dira; eremu eta genero batzuetako produkzioa oso handia da beste batzuen aldean. Zenbaitetan, alde horiek eremu- edo genero-banaketaren zentzuzko ondorio dira. Esaterako, 'Biziaren zientziak' oso eremu zabala da (Biologia, Zoologia, Botanika, Ekologia, Ingurumena, Medikuntza, Psikiatria…). Nolanahi ere den, proportzio horiek hein batean doitzeak aukera emango luke corpusean biltzen diren edukien arteko 'oreka' handiagoa izateko
  • Laginketarako geruzen proportzioek ez lukete gehiegi urrundu behar inbentarioko proportzioetatik; doitze-lanak ez lituzke desitxuratu behar ZT alorreko benetako testu-produkzioaren ezaugarriak.

Horiek horrela, proportzioak zertxobait doitzea erabaki da, baina inbentarioak iradokitzen duen irudi orokorra gehiegi aldatu gabe: 'Hitzak' parametroan, 'Zientzia zehatzak', 'Biziaren zientziak' eta 'Bestelako gaiak' eremuen pisu erlatiboa gutxitu egin da; orobat 'Oinarrizko hezkuntza' generoarena.

Bestetik, kontuan hartu behar da 'Dibulgazio-artikulua' generoko obra asko ez direla lagin-tamaina minimora iristen (300 hitz), eta beraz laginketatik baztertu egin dira.

Horren guztiaren emaitza:

Grafikoa

1. irudia. Eremuaren araberako lagintze-proportzioak (hitzetan)

Grafikoa

2. irudia. Generoaren araberako lagintze-proportzioak (hitzetan)

Bi parametro horiek konbinatuz, 42 geruza edo 'sail' sortzen dira. Lehen azaldu dugun laginketa-eredu estatistikoa aplikatu da. Sail bakoitzean honako prozesua egin da: saileko hitz-kopurua (zenbatetsia) da abiapuntua; hortik, cospuseratzekoa den obra-kopurua kalkulatu, eta obrak ausaz hautatu dira (zotz eginez); hurrena, obra bakoitzetik hartu beharreko hitz-kopurua kalkulatu da; azkenik, obra bakoitzetik hartu behar diren lagin etenak zehaztu dira.

Sail bakoitzeko obren artean zotz egin ondoren, guztira 2.019 obra sartu dira gune orekatuan.

Hasierara