Hlavní navigace

Organizujeme data - pořádek v datech

30. 9. 2002
Doba čtení: 6 minut

Sdílet

Práce s Linuxem – to nejsou jen programy a balíčky. Jsou to také data těmito programy připravená, ať už to jsou zakázky, fotografie z dovolené, nebo třeba nahrávka z koncertu… Chceme-li se v nich vyznat i za několik let, je dobré si je organizovat. Dnes otevřeme malý seriál, ve kterém bych se chtěl podělit o své zkušenosti. V dnešním dílu jde o poznatky platformně nezávislé.

Začneme Murphyho zákonem, který beze zbytku platí i pro data na disku.

Zabere-li vám hledání více než polovinu pracovní doby, je nejvyšší čas uklidit.

Leží na vašem disku bez ladu a skladu naskládány na sebe soubory s výkazy pro šéfa, rozepsané dopisy, data zakázek v deseti verzích, jak jejich vývoj postupoval? I lidé, kteří jsou jinak pořádní a na stole jim neleží ani smítko, jsa zlákáni obrovskou skladovací kapacitou disku, udělají si z něj smetiště dávno nepotřebných dat. Často k tomu vede několik nejběžnějších o­mylů:

Uklidím později.

Toto předsevzetí je přímou cestou ke zmatku. Dnes možná vím, že do souboru tel.txt jsem si uložil důležitá telefonní čísla ještě předtím, než jsem na ně pustil přečíslovávač, zatímco do tel2.txt až potom. Nechám-li takový soubor ležet půl roku, nejenže si nebudu pamatovat, který je který, ale s největší pravděpodobností zapomenu i to, proč jsem je vlastně vytvořil.

Disk je dost velký.

Ano, disk je skutečně velký. Ale čím více dat, tím hůř a pomaleji se v nich hledá. A pokud zálohujeme (a to bychom měli), zálohování zbytečností se také prodraží.

Nejlepší je začít s organizací hned. Pokud data již ukládáme organizovaně, zmatek vůbec nevznikne a nebude co řešit.

Jaká je užitečnost dat? K čemu je můžeme potřebovat

Data jsou užitečná jen tehdy, jsou-li dostupná. Na vyhořelém disku nám nejsou k ničemu (nechceme-li za jejich získání zaplatit nehorázné částky). Opačným extrémem je skříň plná záloh všech fází práce. Je-li v datech někdo schopen se vyznat (přinejlepším kdokoliv bez dlouhého školení, přinejhorším vyhledávací automat) a netrvá-li vyhledání potřebných dat příliš dlouho, lze hovořit o datech užitečných. Pokud ne, jde spíš o informační krizi. Špatná dostupnost dat jejich užitečnost snižuje.

Pokud ze vstupních dat vzniká nějaká výstupní sestava, zvážíme, zda se vzhledem k pracnosti jejího vytvoření, velikosti souborů a četnosti jejího pozdějšího použití vyplatí i její archivace. Tyto sestavy většinou nelze editovat, ale umožní použití hotových dat bez jejich přegenerování.

Adresáře

Adresáře byly vymyšleny již v dávných dobách počítačů a každému počítačově gramotnému člověku by to mělo být jasné – pro každou ucelenou část práce (jedna zakázka, jedna dovolená, jedna nahrávka) vytvoříme vlastní adresář.

Jména adresářů si většinou nepamatujeme, a tak je často hledáme v seznamu. Většina nástrojů, které se k takovému hledání používá, řadí adresáře podle abecedy. To přímo nabízí využití jména adresáře pro řazení. K tomu je ideální vyhradit prvních několik znaků. Může se jednat o pořadové číslo (s dostatečným počtem nul na začátku), datum v obrácené notaci (při datování zpětně nezapomeňte na Y2K a číslujte čtyřmístně), nebo několik rozlišujících písmen, které určují typ dat, iniciály zákazníka nebo cokoliv jiného. Podívejme se, jak se nám taková data seřazená podle abecedy zpřehlední, zvlášť pokud v adresáři budou již stovky podadresářů:

Tabulka č. 346
Lužnice
bubeník
dovolená2000
hory
koncert
moře
pro_Ferdu
přehrávky
zakázka_Novák

 

DOV199809hory
DOV199905Lužnice
DOV200009dovolená
DOV200107moře
HUD001přehrávky
HUD002bubeník
HUD003koncert
ZAK001Novák
ZAK002Ferda

Adresáře umožňují vnoření. Výše uvedené schema může tedy vypadat i jinak:

dovolená-+-199809hory
     |-199905Lužnice
     |-200009dovolená
     +-200107moře
hudba-+-001přehrávky
   |-002bubeník
   +-003koncert
zakázky-+-001Novák
    +-002Ferda

Hloubka takového vnoření může být předmětem úvah. Ideální je, aby v žádném adresáři nebylo více než několik desítek podadresářů a v nejnižším adresáři bylo jen tolik souborů, kolik je pro daný úkol potřebné.

Stav úkolu

V praxi se mi velmi osvědčilo ostré dělení úkolů na rozpracované a dokončené.

Rozpracované úkoly

Rozpracované úkoly pravidelně zálohuji se všemi dočasnými soubory na běžná zálohovací média (ZIP, CD-RW). Konkrétní praxe zálohování záleží na četnosti změn, objemu a ceně dat. Většinou se doporučuje vícestupňové zálohování, kdy z posledního týdne je záloha denní, z měsíce týdenní a z roku měsíční nebo podobně. Více o pravidlech výměny médií najdeme v literatuře.

Uzavření úkolu

V okamžiku, kdy považuji úkol za dokončený, vymažu z adresáře všechny dočasné soubory (nebo je přesunu do likvidační oblasti) a v zakázce provedu úklid. Poté celý adresář zazálohuji a připravím na uložení na trvalé médium (CD-R). Od tohoto okamžiku považuji za nepřípustné v těchto souborech cokoliv měnit. Na disku mám adresář pro hotové zakázky, kam adresář přesunu. Pokud chci mít název zakázky na očích, udělám si na něj symbolický odkaz:

#!/bin/sh
# skript archivuj
for i in "$@"
do
 if [ -L "$i" ]
 then
 # adresář je odkaz
 echo "$i je již zaarchivovaný"
 else
 # zaarchivujeme
 tar -j -c -f "vypal/$i.tar.bz2" "$i"
 # nastavíme časovou značku
 touch -r "$i" "vypal/$i.tar.bz2"
 # přesuneme mezi hotové úkoly
 mv "$i" hotovo/
 # symbolický odkaz na původní místo
 ln -s "hotovo/$i"
 # druhá záloha
 cp -a -i "vypal/$i.tar.bz2" /media/zip/
 fi
done

Až bude mít vypalovací adresář dostatečný objem, data vypálím na CD-R, nejlépe dvojmo (samozřemě každé CD uložím jinam).

Pokud by později bylo něco nutné na zakázce opravit, vytvořím nový adresář a pojmenuji jej tak, aby bylo jasné, že jde o opravu. Začne-li docházet místo na disku, mohu cokoliv v adresáři hotových úkolů vymazat, protože mám ještě dvě kompletní zálohy.

Likvidační oblast

Na disku mám vyhrazenu likvidační oblast. Tam přesouvám pracovní data uzavíraných zakázek. Zde si ještě nějakou dobu pobydou a pak je smažu. Přesouvám sem také původní podklady. K této praxi mě přivedly různé opožděné dotazy na tyto podklady a různé reklamace.

Úkoly periodické

U periodických úkolů (časopisy, pravidelné zakázky) si vytvořím takovou adresářovou strukturu, abych měl všechny periodické úkoly stejného typu pohromadě. Je jasné, že celý tento adresář se zřejmě nedostane mezi dokončené úkoly, ale stanovím si jiná pravidla – například archivace na trvalé médium po roce práce (nebo měsíci či týdnu), mezitím archivuji na přepisovací média. Vyčištění provedu po dokončení každé dílčí zakázky.

Úkoly trvalé

U trvalých úkolů (typicky jde o webové stránky a jiné soustavné zakázky) si rozmyslíme, nakolik nám budou užitečná data z určitého dne v minulosti. Nabízí se nám několik postupů. První spočívá ve využití standardního zálohovacího cyklu. Pokud se však někdy stane, že potřebujeme znát stav zakázky k určitému datu, může to být problém. Navíc o historické zálohy tímto postupem po určité době přijdeme. Můžeme si proto dělat například trvalou zálohu jednou ročně a následující rok otevřít novou zakázku.

Druhou možností je použití datovaných záloh. Pokud je jakýkoliv soubor vyměněn, je jeho stará verze uložena pod jménem, k němuž se připojí datum jeho vyřazení (nebo datum vytvoření – to je uloženo i v jeho časovém razítku):

 16184 srp 5 2002 logo1.tif.0822
 16184 srp 22 2002 logo1.tif.0903
 16184 zář 3 2002 logo1.tif

Takový postup zaručí, že se žádná historická data neztratí. Tato praxe má ovšem několik nepraktických důsledků: v adresáři roste počet a délka souborů (to lze vyřešit praxí uzavírání zakázek a trvalých záloh – do nové zakázky přeneseme jen poslední verzi), rekonstrukce kompletního stavu k určitému okamžiku v minulosti je sice možná, ale ne snadná.

CS24_early

Naštěstí zde existuje další cesta – jsou jí systémy pro řízení verzí – nejčastěji známé CVS. Zakázka pak bude uložena v repozitáři CVS. Při každém provedení změn si je zároveň uložíme do repozitáře. Velikost repozitáře většinou roste méně, než by rostly samostatné soubory, a z jeho jediné zálohy jsme schopni zrekonstruovat stav v libovolném okamžiku v minulosti, a to jediným příkazem.

Do repozitáře CVS však není příliš vhodné ukládat generované soubory.

Byl pro vás článek přínosný?

Autor článku