• Zobrazit metadata DC pro tuto stránku
  • Zobrazit metadata DC ve struktuře RDF (ve formátu XML)
  • Kontrolní výpis trojic metadat ze struktury RDF (ve formátu HTM)
  • Grafické znázornění metadatového záznamu ve struktuře RDF (ve formátu PNG)
  •  


    Univerzita Karlova v Praze
    Filozofická fakulta

    Ústav informačních studií a knihovnictví

      

    Pořádání netextových objektů

     

     

    Autor: Martin Ledínský

     Praha, únor 2004


    Co jsou to netextové objekty?

    Jedná se převážně o grafické soubory (obrázky), zvukové (audio) soubory a video soubory, ale např. také o spustitelné počítačové programy, spořiče obrazovky, flashové animace apod. Mezi netextové objekty patří i dokumenty ve formátu PDF (pro Acrobat Reader), ač to není na první pohled patrné. Digitální objekty vznikají buď digitalizací (převodem z analogové podoby do digitální) nebo jsou jako digitální již vytvořeny. O netextových objektech se mluví také jako o digitálních objektech nebo multimediálních dokumentech.

    Nejběžnější formáty digitálních objektů jsou:

    obrázky: BMP (Windows bitmap), GIF (Compuserve GIF), JPEG (Joint Photographic Experts Group), TIF/TIFF (Tagged Image File Format), DjVu (formát pro svou vynikající kompresi zvlášť vhodný pro skenované dokumenty)

    zvukové soubory: MP3 (MPEG-2 Layer 3), OGG (Ogg Vorbis Audio), MIDI (Musical Instrument Digital Interface), RA (Real Audio), WMA (Windows Media Audio), WAV (Windows Audio)

    video soubory: AVI (Audio Video Interleaved), MOV (Apple QuickTime Movie), MPEG (Moving Picture Experts Group), WMV (Windows Media Video), ASF (Advanced System Format), RV (Real Video)

     

    Jak získávat netextové objekty?

    Netextové objekty jsou pořizovány různými způsoby, podle typu objektu. U obrázků se jedná o fotografie (pořízené digitálně nebo digitalizované), digitální počítačovou grafiku, nebo digitalizované knižní a jiné typy dokumentů (mapy, listiny apod.). Digitální fotografie se pořizují digitálními fotoaparáty, výstupem jsou obrázky v různých formátech a různém rozlišení. Digitalizace knižních a dalších typů dokumentů se provádí skenováním (skenují se buď z originálů nebo ze záznamu na mikrofilmech, mikrofiších, fotografie se dají skenovat i z negativu). Zvukové a video soubory jsou vytvořeny digitálně nebo se převedou z analogové podoby a následně uloží do různých digitálních formátů.

     

    Proč se digitalizuje?

    Hlavním cílem digitalizace je ochrana dokumentů před nemilosrdným zubem času, tedy před fyzickým poškozením (stárnutím nebo poničením). Ochrana je to samozřejmě pouze pomyslná, např. v tom, že cenná archiválie (nemusí se nutně jednat o cenný dokument – k digitalizaci je vhodná i oblíbená zvuková nahrávka, kterou máme třeba na praskající gramofonové desce nebo staré magnetofonové kazetě) není opotřebovávána v rukách badatelů, odpočívá zakonzervována v archivu a badatelé k ní mají přístup prostřednictvím její kopie přístupné přes webový prohlížeč na internetu. Digitalizace je tedy vytvoření digitální kopie, která na rozdíl od originálu nebude stárnout (pokud nezestárne nosič – populární média jako jsou CD-R a DVD bohužel ani ve zlomku nedosahují trvanlivosti tisíce let starých hliněných destiček), nicméně zůstane pouze druhořadou kopií, která originál nemůže nahradit.

    Druhotným cílem je zpřístupnění dokumentů širší skupině příjemců. Typickými dokumenty vhodnými pro digitalizaci jsou manuskripta, prvotisky, staré tisky nebo jiné vzácné dokumenty (kterých existuje např. jen jeden nebo několik málo exemplářů). Zdigitalizované dokumenty formou skenování je možné dále pomocí technologie OCR (optické rozpoznání znaků) převést na text. Digitalizovány nejsou samozřejmě jen knižní dokumenty, ale např. i filmové a zvukové nahrávky. Digitalizace je rozsáhlá problematika, která ale není hlavním předmětem této práce, proto zůstanu pouze u základních informací.

     

    Kde vyhledávat netextové objekty?

    Vyhledávat lze buď všeobecně na internetu nebo přímo v prostředí digitální sbírky.

     

    Google a Jyxo

    Vyhledávat všechny typy netextových objektů z jednoho místa na internetu (např. jedním vyhledávačem) prakticky nelze. V poslední době se ale v nabídkách vyhledávačů objevuje např. možnost vyhledávat obrázky. V největší míře tuto službu provozuje plnotextový vyhledávač Google (http://www.google.com/). Dnes nabízí podle dostupných údajů až 425 milionů zindexovaných obrázků. Některé z těchto obrázků jsou chráněny autorskými právy a není s nimi možno volně nakládat. Google obrázky indexuje s použitím jména obrázků, textu na stránce, kde byl obrázek zachycen, textu v URL, velikosti obrázku apod. Výsledky vyhledávání jsou tedy často velmi nepřesné.

    Obrázky vyhledává i český plnotextový vyhledávač Jyxo (http://www.jyxo.cz/). Pozoruhodnější je ale tento vyhledávač v tom, že je schopen vyhledávat i multimédia. Za touto funkcí stojí několik pracovníků CESNETu, kteří samotný projekt realizovali. Zjistili, že jen v doméně CZ se vyskytuje na veřejném internetu nejméně 23000 multimediálních dokumentů (údaje k říjnu 2003). Indexace nalezených multimédií probíhá na základě dostupných metadat (u těchto dokumentů často zcela chybí) obsažených v samotných souborech.

     

    Peer to peer sítě (P2P)

    V České republice i ve světě existují projekty, které se snaží uchovat a uložit určitou část sítě internet offline pro nejrůznější budoucí použití. Podle zvolené metody „sklizně“ dat obsahují tyto archivy řádově stovky GB dat. Nyní se podívejme na peer-to-peer (v českém prostředí dnes známé jako výměnné) sítě, které pomáhají jejím uživatelům sdílet nejrůznější (často ilegální) data. Uživatelé se zde připojují k tzv. hubům, serverům, které neobsahují samotná data, jen indexují sdílené složky připojených uživatelů a umožňují nad nimi vyhledávání. Těchto hubů jsou tisíce a k těm populárním může být připojeno až několik tisíc uživatelů. Celkový objem dat hubu o přibližně 5000 uživatelích je cca 200 TB! Nicméně, multiplicita dat je zde obrovská. Na P2P sítích tvoří většinu objemu dat video soubory, dále zvukové soubory (se skřípěním zubů filmového a hudebního průmyslu), počítačové programy, obrázky apod. Vyhledávání nad uživatelskými daty je u některých P2P programů (např. Direct Connect, Kazaa, Edonkey) poměrně sofistikované a přesné.

     

    Digitální knihovny

    Internetové vyhledávače netextové objekty přímo neobsahují, jen je indexují a umožňují je vyhledávat. Na internetu ale existuje značné množství digitálních knihoven (sbírek digitálních dokumentů), které digitální objekty přímo obsahují. Digitální knihovny jsou buď zcela veřejné nebo je přístup k jejich obsahu nějakým způsobem omezen. Profesionální digitální knihovny jsou často stavěny na základě hotových systémů pro správu digitálních objektů. Správa zde znamená širší proces, který počíná vytvářením objektů (digitalizací), pokračuje jejich popisem a končí zpřístupněním a uchováváním objektů.

     

    Možnosti vyhledávání netextových objektů

    K některým netextovým objektům není bezprostředně nutné vytvářet externí popis, pokud je chceme vyhledávat. Ve většině případů se ale popisu pro umožnění efektivního vyhledávání nevyhneme. Například dokument ve formátu PDF (Portable Document Format) sice může obsahovat samotný text i informace o formátování, jedná se ale přitom o vektorový obrázek (zjednodušený PostScript). Pokud má běžný uživatel na svém domácím počítači množství PDF dokumentů, bude určitě zklamán tím, že vyhledávací služba jeho operačního systému (např. MS Windows 98) nedokáže tyto dokumenty plnotextově prohledávat. Vyhledávače na internetu (např. Google) toto ale dokáží. Měl by to tedy teoreticky dokázat i domácí uživatel. Potřebuje k tomu instalovat PDF filtr, který umožní dekódovat textový obsah PDF dokumentu. Pak chybí jen krůček k tomu, aby byl obsah PDF dokumentu automaticky zindexován (např. pomocí indexovací služby u operačních systémů MS Windows) a dokument by bylo možné vyhledat (Při tvorbě PDF dokumentu - např. převedení HTML stránky do PDF - je ale možné zamknout jakékoli prohledávání dokumentu – to pak nebude možné v prohlížeči PDF, ani následně vyhledávačem). Pro takováto vyhledávání jsou ale většinou potřeba speciální programy.

    Vyhledávání v plných textech ale nemusí nutně vést k nalezení relevantního dokumentu – ne všechny vyhledávače dokáží dokument podle našeho dotazu správně ohodnotit (na náš dotaz jako výsledek dostaneme dokument, ve kterém se sice hledaná klíčová slova vyskytují, dokument o požadovaném tématu ale přímo nepojednává, naše téma je v něm jen okrajově zmíněno). Nejpřesnějších výsledků vyhledávání bychom dle mého názoru dosáhli, pokud by byl dokument po obsahové stránce (jakož i jmenné) popsán. To je možné buď externě, čímž myslím popis v nějakém speciálním dokumentu, který by obsahoval popisná metadata a k popisovanému dokumentu by byl nějakým způsobem připojen (na úrovni databáze). Druhou možností by bylo uložení metadat přímo do dokumentu. Autor by při vytvoření dokument (jakéhokoli typu) opatřil metadaty. Pomocí nich by bylo možné dokument ve vyhledávačích jednoduše vyhledávat. Aby toto bylo možné, musela by vzniknout dohoda mezi vlastníky práv k hlavním dokumentovým formátům. V dohodě by byly určeny společné popisné údaje pro všechny formáty a další údaje týkající se jednotlivých speciálních druhů (např. zvláštní údaje pro obrázky). Bylo by vybráno jedno metadatové schéma, které by umožnilo uložení všech potřebných dat a u kterého by zároveň bylo technicky možné ho implementovat do všech hlavních dokumentových formátů. Tím by byly splněny technické podmínky pro popis. Jedinou vadou na kráse by bylo to, že by zřejmě neexistoval způsob, jak přimět autory, aby dokumenty opatřovaly metadaty. Možnost přesného vyhledávání digitálních objektů zůstane v nejbližší budoucnosti zřejmě jen u digitálních sbírek, jejichž obsah byl ručně popsán.

     

    Podobně jako je možné prohledávat PDF dokumenty, můžeme se orientovat i v dalších formátech, například hudebních souborech MP3 (zkratka pro kompresní technologii MPEG Layer 3; o MP3 mluvím jako o formátu souboru) nebo obrázcích JPEG. Hudba ve formátu MP3 je masově rozšířena a MP3 je de facto neoficiálním standardem pro digitální hudbu. Zpočátku hudba v MP3 postrádala jakoukoli možnost textového popisu. Jistá chytrá hlava přišla s myšlenkou zabudovat krátké popisky na začátek každého souboru. Nápad se ujal a rozvinul a proto dnes každý MP3 soubor může být opatřen ID3 tagem (případně ID3v2), do kterého lze uložit informace o autorovi, názvu skladby, názvu alba, pořadí skladby v albu apod. Různé verze ID3 tagu jsou uloženy buď na začátku nebo na konci souboru. Podobně jako pro PDF, i pro MP3 existují speciální filtry, které umožňují tyto soubory vyhledávat. ID3 tagy ale nejsou dokonalé, jsou limitovány několika málo poli s maximálně 30 znaky pro zápis. JPEG je jeden z nejrozšířenějších formátů digitálních obrázků. JPEG je kompresní formát, který dovoluje uložit obrázky ve vysoké kvalitě do poměrně malého souboru. Pro své vlastnosti je populární u výrobců digitálních fotoaparátů (mnohé digitální fotoaparáty ukládají právě do JPEG). Další z populárních formátů je TIFF. Digitální fotoaparáty do těchto obrázků ukládají EXIF (Exchangeable Image File Format) informace – technická data o výrobci a modelu digitálního fotoaparátu, kterým byl snímek pořízen, rozlišení obrázku, hodnoty clony, datum pořízení a mnoho dalšího. EXIF informace jsou převážně data automaticky dodaná digitálním fotoaparátem, pokud chceme JPEG nebo TIFF opatřit vlastními metadaty, použijeme IPTC (International Press Telecommunications Council). Jak zkratka napovídá, standard IPTC má něco společného s tiskem – byl vyvinut primárně pro potřeby fotografů u tisku, aby byli schopni vložit informace o snímku do hlavičky obrázků, než je pošlou tiskové kanceláři. Obrázek může být opatřen kvalitními metadaty, pro ně je v IPTC 5 oddílů: pro záhlaví, klíčová slova, kategorie, autora a původ. Pro každý oddíl je vícero polí. Existují programy, které dovedou EXIF a IPTC informace číst a editovat (jednotlivě nebo dávkově). Zde je už jen krůček k tomu, aby díky těmto metadatům byly obrázky ve vyhledávačích snadno vyhledatelné. Potíž je ale v tom, že málokterý autor digitálních fotografií nebo počítačové grafiky o těchto možnostech ví a využívá je. EXIF i IPTC jsou citlivé na jakoukoli úpravu obrázků, pokud editační nástroj nedisponuje funkcí pro zachování těchto dat, data se ztratí. Z celkového množství TIFF a JPG obrázků na internetu jich dle mého názoru tato metadata obsahuje jen nepatrné promile.

     

    Proč a jak pořádat netextové objekty?

    Jak již vyplývá z předchozího textu, pořádání netextových objektů je nutné, stejně jako je nutné pořádání textových dokumentů. Potřebu pořádání následně ještě vysvětlím na jednoduchém příkladu.

    Se zvyšující se popularitou digitálních fotoapárátů roste počet lidí, kteří vytvářejí sbírky digitálních fotografií. Takoví jedinci brzy s rostoucím počtem obrázků zjišťují, že jejich orientace ve sbírce se snižuje. Už při počtu několika set až tisíc snímků se pomalu ale jistě začínají ztrácet, i když do té doby se dokázali orientovat pomocí názvů a dat vytvoření obrázků. V této fázi se „sběratelé“ začínají poohlížet po nějakém digitálním fotoalbu, kde by nad svou sbírkou opět nabyli kontrolu. I v jednoduchých programech zdarma je nutné jednotlivé obrázky nějakým způsobem popsat, aby byly dohledatelné. K popisu slouží metadata. Metadata jsou zjednodušeně řečeno „data o datech“. Díky nim je pak snadno možné objekt vyhledat. Metadaty jsou namátkou údaje o autorovi, údaje o obsahu objektu  (deskriptivní neboli popisná metadata), údaje o hierarchickém uspořádání objektu ve větším celku, např. jeden list knihy (strukturální metadata) a údaje o formátu souboru, datu vytvoření, rozlišení obrázku (administrativní metadata) apod. Dalším druhem metadat mohou být údaje o přistupnosti digitálního objektu – metadata ošetřující, kdo bude mít k digitálnímu objektu právo přístupu. Definovány mohou být i další druhy metadat, lišící se podle typů digitálních objektů.

     

    Metadata a jejich schémata

    U větších digitálních sbírek, které jsou pořádány více indexátory a které budou prohledávány různými systémy, je nutné striktně dodržovat pravidla popisu, jinak popis pozbyde smyslu. Vhodné je zvolení jednoho metadatového schématu při pořádání digitální sbírky.

    Existuje více schémat metadat, některé z nich jsou podobné MARCovským formátům, které slouží převážně pro popis tradičních typů dokumentů. Popis digitálních objektů se ale od tradičních tištěných dokumentů značně odlišuje. Tím pádem se odlišují i metadatová schémata. V posledních letech se pro popis internetových zdrojů často používá schéma Dublin Core (Dublinské jádro – podle města Dublin ve státě Ohio, USA). Jde o univerzální metadatové schéma aplikovatelné na různé digitální objekty. Dublin Core zahrnuje množinu 15 volitelných a libovolně opakovatelných základních popisných elementů, které lze v případě nedostatečnosti rozšířit o další prvky nebo prvky zpřesnit. Záznam Dublin Core lze uložit buď samostatně nebo např. do zdrojového kódu dokumentů HTML a XML. Dublin Core je vhodný pro popis elektronických dokumentů pro svou jednoduchost a snadnost vložení do dokumentů. V roce 2001 byl přijat Dublin Core jako norma NISO 39.85. Podrobnějším metadatovým schématem je např. MODS (Metadata Object Description Schema). MODS byl vytvořený Kongresovou knihovnou v USA. Jedná se o metadatové schéma založené na XML. MODS zahrnuje podmožinu tagů MARCu 21, tagy ale nejsou označeny číselně, ale textově.  Pro popis uměleckých, architektonických a dalších vizuálních děl, jakož i pro popis snímků, které tato díla dokumentují, bylo vytvořeno skupinou odborníků z Visual Resources Association metadatové schéma VRA Core. Dalším metadatovým schématem je např. EAD (Encoded Archival Description). EAD vychází se SGML a byl vytvořen pro popis archiválií. Kromě výše vyjmenovaných existují další metadatová schémata (např. TEI, CIMI ad.).

    Způsob pořízení metadat u netextových objektu se liší podle typu objektu i podle druhu metadat. Administrativní (můžeme je nazvat také technická) metadata lze do značné míry tvořit automaticky nad velkým množstvím digitálních objektů (speciálním softwarem získám automaticky údaje o velikosti obrázku, formátu, rozlišení atp.). Všechna další metadata musí opatřit katalogizátor ručně. I zde se pro dosažení větší přesnosti při věcném zpracování, zvlášť když je prováděno více katalogizátory, doporučuje použití řízených slovníků a tezaurů.

    K některým digitálním objektům nebude mít čtenář umožněn přístup (např. nebude mít možnost zobrazit obrázek), bude mít přístup pouze k popisným údajům. Zde má obrovský význam to, jak katalogizátor objekt zpracoval po věcné stránce. U zdigitalizované fotografie nebo obrazu je to poměrně náročný proces – katalogizátor musí stručně a přesně slovy zachytit místo na obrázku, osoby na něm obsažené, dobu pořízení snímku apod. Autor např. beletrie za svůj život napíše většinou ne více, než několik desítek knih. Fotograf, významný natolik, že jeho práce si zaslouží vytvoření digitální sbírky, za svůj život může vytvořit tisíce fotografií. Zpracování takovéto sbírky je časově náročné a pracné. V úvahu přichází, jaké dokumenty digitalizovat a jak moc podrobný má být popis, aby bylo umožněno efektivní vyhledávání. Takovéto plánování je dle mého názoru nejdůležitější etapou při vytváření digitálních sbírek a pořádání digitálních objektů.


    Bibliografie:

    1. BŘEZINA, Jan. Boj o standard - EXIF 2.2, EXIF PRINT nebo PIM? [online]. Posl. akt. 28.02.2002. Dostupný z WWW: <http://www.grafika.cz/art/df/pma_pim.html>.

    2. California Digital Library. Digital Object Standard: Metadata, Content and Encoding [online]. Posl. akt. 18.5.2001. Dostupný z WWW: <http://www.cdlib.org/news/pdf/CDLObjectStd-2001.pdf>.

    3. DOLEŽAL, Ivan et al. Vyhledávání v multimediálních datech na Internetu [online]. [cit. 2004-02-08]. CESNET, 2003. Dostupný z WWW: <http://www.cesnet.cz/doc/techzpravy/2003/jyxosearch/>.

    4. Google. About Google's Image Search [online]. [cit. 2004-02-08]. Dostupný z WWW: <http://images.google.com/help/faq_images.html>.

    5. HOFFMANN, Steve. Digital camera RAW converter comparisons with Canon 10D RAW images [online]. [cit. 2004-02-10]. Dostupný z WWW: <http://www.sphoto.com/techinfo/rawconverters/pages/exifiptc.htm>.

    6. Library Gateway. University of Illinois at Urbana-Champaign. Glossary [online]. Posl. akt. 24.1.2003. Dostupný z WWW: <http://door.library.uiuc.edu/accesswg/glossary.htm>.

    7. Lupa. Vyhledávání v multimédiích na Internetu. Lupa [online]. 2003. [cit. 2004-02-08]. Dostupný z WWW: <http://www.lupa.cz/clanek.php3?show=3086>. ISSN 1213-0702.

    8. The Library of Congress. Standards [online]. Posl. akt. 20.11.2003. Dostupný z WWW: <http://www.loc.gov/standards/standard.html>.

    9. The Library of Congress. Encoded Archival Description (EAD) [online]. [cit. 2004-02-10]. Dostupný z WWW: <http://www.loc.gov/ead/>.

    10. NILSSON, Martin. The short history of tagging [online]. [cit. 2004-02-10]. Dostupný z WWW: <http://www.id3.org/history.html>.

    11. State Library of Queensland. Digital standards: Digital Standard 1 - Cataloguing and metadata for digital images [online]. Posl. akt. 11.2.2004. Dostupný z WWW: <http://www.slq.qld.gov.au/pub/digital/sd1_meta.htm>.

    12. ŠVECOVÁ, Lucia. Sprístupňovanie digitálnych dokumentov [dokument DOC pro MS Word]. [cit. 2004-02-11]. Praha: Univerzita Karlova v Praze, 2003.

    13. TASI. Metadata and Digital Images [online]. Dostupný z WWW: <http://www.tasi.ac.uk/advice/delivering/metadata.html>.

    14. ÚVT MU. Soubor metadatových prvků Dublin Core, verze 1.1: referenční popis [online]. [cit. 2004-02-10]. Dostupný z WWW: <http://www.ics.muni.cz/dublin_core/DC-czech-1.1.html>.

    15. Visual Resources Association Data Standards Committee. VRA Core Categories, Version 3.0 [online]. Posl. akt. 20.2.2002. Dostupný z WWW: <http://www.vraweb.org/vracore3.htm>.

    16. What is DjVu, and what are the secrets behind DjVu's superior performance? [online]. [cit. 2004-02-10]. Dostupný z WWW: <http://www.djvuzone.org/wid/index.html>.

    17. Wikipedia, the free encyclopedia. Graphics file format [online]. Posl. akt. 21.1.2004. Dostupný z WWW: <http://en.wikipedia.org/wiki/Graphics_file_format>.

    18. Wikipedia, the free encyclopedia. Portable Document Format [online]. Posl. akt. 7.2.2004. Dostupný z WWW: <http://en.wikipedia.org/wiki/Portable_Document_Format>.

    19. ŽABIČKA, Petr. Archiv českého webu v roce 3 [online]. [cit. 2004-02-10]. Dostupný z WWW: <http://webarchiv.nkp.cz/nk2002.pdf>.

    20. ŽABIČKA, Petr. Dublin Core jako standard pro popis elektronických síťových zdrojů [online]. Brno: Moravská zemská knihovna, 2002. Dostupný z WWW: <http://www.mzk.cz/DC/rufis2000.html>.