Zientzia eta Teknologiaren Corpusa

Lagintze-eredu estatistikoa

Lagintze-sistema geruzatua erabiltzea erabaki da. Laginketa geruzatuan, populazioa zenbait multzo edo 'geruzatan' banatuta dago. Corpusean sartuko diren testu-laginak ausaz hautatzen dira, geruza bakoitzaren barnean betiere. Horretara, geruza bakoitzak corpusean halako proportzioa izango duela bermatzen da. Proportzio horiek geruzek populazioan duten proportzio berberak izan daitezke, edo horiek ez bezalakoak. Izan ere, populazioaren izaeraren arabera, gerta daiteke geruza batzuetako testu-produkzioa kuantitatiboki txikia izatea, baina linguistikoki interesgarria. Laginketa proportzional batean, horrelakoak oso ezkutuan gera daitezke. Geruzen arteko 'oreka' handiagoa nahi bada, geruza jakin bakoitzak corpusean izango duen proportzioa aldatzeko aukera dago, beraz.

Horiek horrela, hauek dira gure laginketa-ereduaren ezaugarriak:

  • Geruzak: geruzak edo 'sailak' eratzeko, parametro batzuk erabil daitezke, eta parametro horien balioen konbinazioak dira geruzak. Guk bi parametro erabili ditugu: a) eremua; b) generoa. Hona hemen horien balioak:
  • Eremua
    • Zientzia zehatzak (Matematika eta Logika)
    • Materiaren eta energiaren zientziak (Fisika eta Kimika)
    • Lurraren zientziak (Geologia, Ozeanografia, Geografia...)
    • Biziaren zientziak (Biologia, Medikuntza, Ingurumena...)
    • Teknologia (Teknologia Mekanikoa, Teknologia Elektrikoa/Elektronikoa, Telekomunikazioak, Informatika, Aeronautika...)
    • Bestelakoak (Ekonomia, Arte-teknologiak, Antropologia...) 1
    • Orokorra
  • Generoa
    • Oinarrizko hezkuntzako materiala
    • Goi-mailako liburua (espezialistentzako liburua + goi-mailako hezkuntzako liburua)
    • Artikulu espezializatua
    • Dibulgazio-artikulua
    • Dibulgazio-liburua
    • Administrazio publikoko dokumentua
  • Geruza bakoitzaren tamaina, hasiera batean behintzat, geruzak populazioan duen proportzioaren araberakoa izatea

    n i = N i n N

    Horretarako, N eta Ni balioak jakin beharra dago. Horien kalkuluak gutxi gorabeherakoa behar du izan, halabeharrez. Inbentarioak obra bakoitzaren tamainari (hitz-kopuruari) buruz ematen dizkigun datuak hauek dira: a) orrialde-kopurua; b) orrialdearen neurriak. Azterketa bat egin dugu bi parametro horien eta hitz-kopuruaren arteko erlazioa zehaztu nahian.2 Hala ere, azterlan horren emaitzetatik ez da ondorio argirik atera, eta batezbestekoarekiko desbiazioa handia da. Nolanahi ere den, orrialdeko batez besteko hitz-kopurua (175) aski gertu dago UZEIk kalkulatu zuenetik (180), eta hori da erabili dugun balioa inbentarioan obra baten hitz-kopuruaren estimazioa egiteko.

    Lehen esan dugun bezala, inbentarioa egindakoan ni/ Ni balioa aldatzea komenigarria den azter daiteke; hurrengo atalean azalduko ditugu horrekikoak.

  • Geruza bakoitzetik hautatu beharreko obra-kopurua. Geruzako obra-kopurua oi bada, eta geruzatik hartzen den kopurua mi bada, honakoa bete behar da:

    m i o i n i ( j ) N i ( j ) = n i N i

    n i ( j ) N i ( j ) : geruzako obra batetik hartuko den proportzioa

    Ni(j) aukeratutako obra bakoitzaren tamaina da, eta ni(j) aukeratutako obra bakoitzetik hartzen den testu-kantitatea. Muturreko aukerak hauek dira:

  • Geruza bakoitzari dagokion hitz-kopurua obra osoak corpuseratuz betetzea:

    m i o i = n i N i

  • Geruza bakoitzari dagokion hitz-kopurua obra guztietatik lagin bana hartuz betetzea: m i o i = 1 ; obra bakoitzetik n i N i proportzioa corpuseratuko litzateke

    1. irudia. Lagindutako obra-ehunekoaren (mi/oi) eta obratik lagindutako proportzioaren (nij/Nij) arteko erlazioa

    Bi mutur horien arteko puntu bat interesatzen zaigu, hau da, obretako batzuk hartu eta horietako bakoitzetik zati bana. Bi aldagaiak berdintzen diren puntua hobetsi dugu:

    m i o i = n i ( j ) N i ( j ) .

    Beraz:

    m i = o i n i N i

  • Geruza bakoitzeko obren zozketa: denek probabilitate bera izatea
  • Obra bakoitzetik hartuko den testu-masa: obraren tamainaren araberakoa izatea

    n i ( j ) = N i ( j ) n N N i N i ( t )

  • Obra bakoitzetik hartu beharreko testu-masa jarraitua ez izatea, halako karaktere-kopuruko tartean behin (p ) hartutako k karaktereko laginak izatea baizik. k -ren balioa 300 hitz izatea erabaki dugu (orrialde estandarraren inguruko balioa)

    2. irudia. Obra baten lagin etenak antolatzeko prozedura

  • Lagin-tamaina minimoa: obra baten tamaina lagin jarraituaren tamaina baino txikiagoa denean, laginketan ez sartzea erabaki da
Hasierara