Liší se potřeby archivnictví významně od potřeb knihoven, muzeí, repozitářů výzkumných organizací, apod.?
Protože existuje řada stabliních a rozšířených OpenSource řešení, které se pro knihovny a digitální archivy v těchto organizacích využívají. Např. světově nejrozšířenější systém Dspace je pod MIT licencí: dspace.org Většina dalších (Eprints, Fedora, Invenio, ad.) má také svobodné licence i otevřený vývoj.
Nechat si napsat a hlavně udržovat analogický system "na zelené louce" mi připadá jako rozhodnutí, pro které by měly existovat velmi, velmi vážné důvody. Nevýhody jsou totiž zřejmé.
Vůbec neodpovídáte na to, jestli se opravdu požadavky systémově liší, nebo jde o nastavení systému a "pár skriptů kolem" (což samozřejmě nemusí být žádná trivialita).
Systémovým rozdílem by bylo, kdyby archivní sw. byl v principu něco jiného než knihovna fungující zhruba podle OAIS modelu: Vloží se tam datové objekty a metadata o nich. Pak už vkladatel nemůže objekt sám měnit. Vyhledává se v tom, objekty se unikátně a persistentně identifikují a zálohují, případně přesouvají mezi archivy a pak se nějak zpřístupňují navenek. Změny metadat se sledují (provenance records), identita dat se kontroluje, případně se udržují repliky...
Já to opravdu nevím, je archivní software něco principielně jiného?
Protože to, jak se co zformátuje, komu se umožní přístup a kdy se co zazálohuje či smaže, to je nastavení.
V principu je to podobné. Ale český zákon klade řadu dalších specifických požadavků.
Například musíte (měl byste, ten zákon je takový nedopečený) řešit integritu digitálních dokumentů. To znamená s dokumentem archivovat podpisový certifikát, certifikát autority, všechny mezilehlé certifikáty, seznamy odvolaných certifikátů všech autorit po cestě, a to všechno musíte opatřit časovým razítkem, které budete pravidelně přidávat nové, a ke každému razítku opět všechny certifikáty a seznamy odvolaných certifikátů k ověření razítka. Také nesmíte zapomenout, že to nejde dělat okamžitě, ale je třeba podle politiky každé autority počkat na vydání následného seznamu odvolaných certifikátů. Dále je třeba vzít v úvahu, že podle unijního práva musíme uznávat všechny unijní kvalifikované autority (což zcela prakticky nikdo nedělá). Navíc například německé autority žádné seznamy odvolaných certifikátů nemají, ony používají OCSP.
A protože ve správě digitálních dokumentů jsme břídilové, tak digitální dokumenty autorizovaně konvertujeme do papírových, takže ke každému digitálnímu dokumentu máte ještě analogovou kopii, kterou je třeba archivovat, neztratit a včas řádně skartovat.
Ostatně skartace je další kapitola. Různé dokumenty mají různé skartační lhůty, podle nich se přesouvají mezi archivy. Na to máme samozřejmě český specifický datový formát. A pak taky musíte řešit, že legislativa se mění, a co se mělo skartovat za pět let se může po změnit na deset nebo dva roky.
Dále ten archiv má podporovat metadata spisové služby. To znamená, že se eviduje, kdy, jak, od koho, komu dokument byl doručen (včetně dokumentů vzniklých při doručování jako jsou dodejky České pošty), k tomu spisová metadata jako čísla jednací, evidenční a tak dále. Cest, jak může přijít dokument, je celá řada: papírovou poštou, datovou schránkou, elektronickou podatelnou, obyčejným e-mailem, může být podán na místě, na podatelně úřadu, telefonicky, ústně… To všechno se musí zachytit a archivovat.
To je velmi zajímavé, díky. Konečně rozumím, v čem je ten opravdový problém.
To docela vypadá, že ideální řešení je v principu jako níže zmíněný systém Kramerius: robustní standardní základ, jako třeba ta Fedora, která dobře řeší i provenance logs, a k tomu veliká netriviální nádstavba řešící ty specifické požadavky. A že jich teda je. Hlavně ten interface s fyzickým světem kopií a doručování atd. je tedy radost.
https://code.google.com/p/kramerius/
Kramerius 4
je softwarové řešení pro zpřístupnění digitálních dokumentů. Primárně je určen pro digitalizované knihovní sbírky, monografie a periodika. Využit může být ke zpřístupnění dalších typů dokumentů např. map, hudebnin a starých tisků, případně částí dokumentů jako jsou články a kapitoly. Systém je vhodný také pro tzv. digital born dokumenty, tedy dokumenty, které vznikly v elektronické podobě. Kramerius je průběžně upravován tak, aby struktura metadat odpovídala standardům vyhlašovaným Národní knihovnou České republiky. Systém poskytuje rozhraní pro přístup koncových uživatelů, zajišťující vyhledávání v metadatech a v plných textech, generování vícestránkových PDF dokumentů z vybraných stran, vytváření virtuálních sbírek a další operace nad uloženou sbírkou digitálních dokumnetů.
Aktuální verze 4 je vyvíjena a průběžně publikována od roku 2009. Navazuje funkčností na předchozí verzi systému Kramerius končící označením 3.3.1. Nově je jako jádro systému použit open source repozitář Fedora (http://www.fedora-commons.org). Při vývoji jsou využívány další volně dostupné technologie třetích stran - Apache, Apache Tomcat, Apache Solr, Postgres SQL. Systém je založen na technologii Java a lze ho provozovat jako samostatnou webovou aplikaci v libovolném J2EE kontejneru (např. Apache Tomcat).