Digitalizované matriky - SOA Zámrsk

Radim Dušek 23. Únor 2011 – 15:52Aktualizace: Níže uvedený postup už není potřeba využívat. Pro SOA Zámrsk najdete všechny potřebné informace na http://vychodoceskearchivy.cz/zamrsk/matriky/

Existuje seznam digitalizovaných matrik pro SOA Zámrsk. Je uložen ve formátu pdf a je dostupný ke stažení http://vychodoceskearchivy.cz/zamrsk/files/2012/09/digimatriky.pdf. Měl by být průběžně aktualizován při přidání nových digitalizovaných matrik. Toto se však neděje, i když jsou nové digitalizované matriky již dostupné ke stažení. Důvod je známý. SOA Zámrsk nemá informatika, který by toto prováděl. Existují tedy digitalizované matriky, které jsou již přístupné, ale nejsou v seznamu digitalizovaných matrik uvedené.

Protože existuje vazba mezi signaturou matriky a výsledným odkazem, rozhodl jsem se zveřejnit seznam všech odkazů, kde se dají stáhnout i matriky, které v oficiálním výše uvedeném seznamu nejsou.

Napsal jsem skript, který z pdf souboru obsahujícího inventární seznam všech matrik v SOA Zámrsk (http://vychodoceskearchivy.cz/zamrsk/files/2011/11/8700_Sbírka-matrik-východočeského-kraje-1587-1949_NAD_190.pdf) vytvoří textový soubor obsahující odkazy na digitalizované matriky. Obsahuje odkazy na již zveřejněné matriky, ale i odkazy na matriky ještě nezveřejněné nebo dosud nezdigitalizované.

 

Princip fungování skriptu je jednoduchý. Převádí pdf soubor na textový a ten pak upravuje. Je napsaný v bashi a využívá programy pdftotext, grep, sed a awk. Vyžaduje už stažený soubor inventar.pdf, ze kterého vychází.

Převodní skript:

zamrsk-matrikysh.zip

Výsledek převodu je textový soubor s odkazy. Kvůli velikosti je zde zazipovaný:

zamrsk-matriky.zip

Dá se využít třeba jako podklad pro automatické stahování matrik (např. pomocí programu wget) nebo kontrolu aktualizace nových nezveřejněných matrik.

 

Druhý skript, který se dá pravidelně pouštět, právě kontroluje, které soubory z odkazů na internetu SOA Zámrsk již existují a které ještě ne. Využívá předchozí vytvořený soubor zamrsk-matriky.txt a program wget. Výsledkem je soubor s logem tohoto programu. Je pojmenovaný YYYY-MM-DD-HH-mm.log, kde YYYY je rok, MM měsíc, DD den, HH hodiny a mm minuty podle data a času spouštění. Uvnitř souboru jsou odkazy na matriky a jestli digitalizované verze matriky existuje nebo neexistuje. V případě, že existuje, je u odkazu na konci řádku OK. V případě, že neexistuje, je zde uvedeno Vzdálený soubor neexistuje - slepý odkaz.

Ověřovací skript:

zamrsk-testsh.zip

Výsledné logy lze porovnávat a zjišťovat tak přírůstky nově přidaných matrik.

Přikládám zazipovaný log neboli výsledek druhého skriptu:

2011-02-23-21-17.zip

Jinými slovy, tento soubor prozrazuje, které matriky jsou dostupné a které zatím ne.

Vybrané záznamy s OK na konci jsou požadované online matriky. Toto je cílový a požadovaný soubor. Budu se jej snažit průběžně aktualizovat.

Skripty doporučuji používat pouze zkušenějším uživatelům linuxu.   

 

Online matriky: 

zamrsk-matriky-online-2011-11-03.txt 

zamrsk-matriky-online-2011-02-23-21-17.log 

zamrsk-matriky-online-2011-04-15.log

zamrsk-matriky-online-2011-07-15.log

zamrsk-matriky-online-2011-11-03.txt

Komentáře

Děkuji pěkně. Všechny "stránky nenalezeny", nikam jsem se nedostala.
Potřebuji matriku zemřelých, československé církve, rok 1926.

Dobrý den,

ten seznam, kde jsou matriky Jičín a třeba Dřevěnice s odkazem na stažení *.zip vám vůbec nefunguje, stáhnout to nejde, jedině se musí člověk dostat do matrik a tam si to prohlédnout, to hledání je zbytečně složité a pracné, poučte se ve hledání Moravského zemského archivu, ten pro badatele velmi přátelský.

Hezký den

Jana Nová
Břeclav

Hledám vše o rodinách Pešků a Kříklavů z Krouny , Pusté Kamenice, Záboří (dokumenty,vzpomínky,fota). Děkuji Pešek

Stránky