Prvo harvestiranje sadržaja iz .hr internetske domene

Nacionalna i sveučilišna knjižnica u Zagrebu i Sveučilišni računski centar u utorak su predstavili rezultate prvog harvestiranja, odnosno pobiranja hrvatskog web prostora.

22.11.2011.
18:13
VOYO logo

NSK je u suradnji sa Srcem od 18. srpnja do 18. kolovoza 2011. godine izvršila harvestiranje preko 56 milijuna datoteka ukupne veličine preko 3.1 TB. Harvestiranje je postupak pobiranja web-stranica i spremanje na za to određen poslužitelj. Prikupljani su i arhivirani javno dostupni sadržaji s aktivnih web domena .hr, .com.hr i .biz.hr i to sadržaji dubine do četiri razine "ispod" naslovnice. Među takvim sadržajima su i komentari na forumima.

U sklopu programa Hrvatski arhiv weba, NSK još od 2004.godine selektivno prikuplja obvezni primjerak online publikacija. Obvezni primjerak je zakonska odredba (Zakon o knjižnicama) koja obvezuje proizvođače svih vrsta publikacija na dostavu i pohranjivanje primjerka svake publikacije u određenu knjižnicu odnosno sličnu ustanovu.

Tekst se nastavlja ispod oglasa

Kako bi se upotpunio opseg arhiviranih web-publikacija i postigla veća potpunost nacionalne zbirke Croatica. Robot-pobirač predstavlja se kao Mozilla/5.0 (compatible; heritrix/1.14.4; +http://haw.nsk.hr/harvestiranje), a pobirao je i web domene koje imaju selektivno restriktivne postavke.

Prema prvim rezultatima, tekstualni formati i dalje zauzimaju vodeće mjesto. Slijede ih slike i .pdf datoteke, a tek onda video sadržaji.

Tekst se nastavlja ispod oglasa

Rezultatima harvestiranja u prvo će vrijeme pristup biti omogućen samo unutar Nacionalne i sveučilišne knjižnice u Zagrebu.

Više:Hrvatski arhiv weba

Tekst se nastavlja ispod oglasa
Tekst se nastavlja ispod oglasa
Skriveno u raju
Gledaj odmah bez reklama
VOYO logo