Když dnes zadáte do Wayback Machine adresu webu a vyberete datum, dostanete se do minulosti internetu – k verzím stránek, které už dávno neexistují, změnily se, nebo byly smazány. Zároveň ale rychle zjistíte, že nejde jen o nostalgii: Internet Archive (IA) pro výzkumníky, novináře i běžné uživatele praktická infrastruktura proti „link rot“ (rozpadu odkazů) a ztrátě digitální paměti. IA sám sebe popisuje jako neziskovou digitální knihovnu a dlouhodobě staví svůj smysl na misi „univerzálního přístupu ke všemu vědění“.
Od původní myšlenky ke vzniku: „internet nemá paměť“

Za vznikem stojí Brewster Kahle, který v roce 1996 založil Internet Archive s ambicí uchovávat kulturní a znalostní stopu digitálního světa a zpřístupňovat ji veřejnosti. Už v raných materiálech a veřejných vystoupeních se opakuje motiv: znalosti mají být dostupné „komukoli“, ne jen těm, kteří si je mohou dovolit, a digitální obsah je křehký – mizí rychleji než tištěné knihy.
Klíčová inovace, která udělala z IA globální fenomén, přišla se službou Wayback Machine. IA ji zpřístupnil veřejnosti v roce 2001 jako rozhraní k archivovaným verzím webů. Podle oficiálního help-centra se projekt opíral i o technickou a datovou podporu od Alexa Internet a vznikl koncept „třírozměrného indexu“ webových dokumentů napříč časem.
Historie vývoje: od archivace webu k digitální knihovně všeho druhu
Z pohledu vývoje se Internet Archive postupně rozšiřoval z „archivu webu“ na mnohem širší digitální knihovnu. Wikipedia shrnuje, že IA poskytuje bezplatný přístup k digitálním sbírkám webů, softwaru, hudby, audiovize i textů a zároveň provozuje další projekty jako Open Library nebo Archive-It. Oficiální stránky IA navíc průběžně ukazují, že vedle webových archivů jde o masivní katalog „Texts / Video / Audio / Software / Images“ a další tematické kolekce.
Důležité je, že webový archiv se nevzniká jen jedním způsobem: IA získává data z mnoha crawlů (procházení webu), které mají různé motivace a původy. Help-centrum přímo uvádí, že „každý den stovky webových crawlů“ přispívají k dostupným zachycením a že u konkrétního snímku lze dohledat, z jaké kolekce a crawlu pochází. Historicky významným zdrojem byly i „donované“ crawly: sbírka Alexa Crawls popisuje, že od roku 1996 Alexa Internet poskytovala svá crawl data Internet Archive (po určité době zpoždění/embarga).
Poznámka: Technický slovníček s stručný návod najdete na konci článku.
Čím se Internet Archive zabývá: co všechno uchovává
V praxi IA uchovává dvě velké kategorie: (1) webové zachycení v čase a (2) kulturní a znalostní digitální objekty (knihy, audio, video, software aj.). IA uvádí, že umožňuje „Search the history of more than 1 trillion web pages“ a vedle toho funguje jako „non-profit library“ s miliony položek napříč médii. Wikipedia k tomu doplňuje, že jádro dat je sbíráno automaticky webovými crawly, zatímco část materiálů mohou nahrávat i uživatelé.
Vedle hlavního webového archivu hrají roli i specializované služby. Archive-It je popisován jako předplacená služba, která umožňuje organizacím definovat vlastní archivační projekty (co a jak často se má sklízet) – a výsledky jsou následně součástí ekosystému Wayback Machine. A Open Library se stala jedním z nejviditelnějších „textových“ pilířů IA – zároveň však právě kolem digitalizace a půjčování knih vznikly nejtvrdší právní střety (viz níže).
Proti ztrátě paměti a pro ověřitelnost
Přínos Internet Archive se dá shrnout do tří rovin: paměť, ověřitelnost, přístup. Help-centrum vysvětluje důvod archivace kulturních artefaktů: bez zachovaných stop „společnost nemá paměť“ a nemůže se učit z úspěchů i chyb; IA chce být internetovou knihovnou pro výzkumníky, historiky a veřejnost.
Praktický dopad je vidět zejména tam, kde se internet mění rychle: pro novináře a Wikipedisty je možnost citovat stabilní archivní kopii obrana proti mizení zdrojů – i to Wikipedia uvádí jako časté využití archivu.
Druhý velký přínos je „mikro“ a každodenní: když něco zmizí, IA často zachraňuje dohledatelnost – a to jak pro jednotlivce, tak pro instituce. IA sám aktivně podporuje zapojení veřejnosti přes „Save Page Now“: blog IA vysvětluje, že internet „zmizí“ i bez zlého úmyslu (mazání, změny, nedostupnost) a že ukládání stránek pomáhá zachovat odkazy a digitální historii.
Uživatelské zkušenosti
Z uživatelského pohledu jsou služby IA často chválené za jednoduchost a „citovatelnost“: funkce Save Page Now uloží stránku a okamžitě vrátí trvalý odkaz. Help-centrum zároveň otevřeně přiznává limit: běžně se ukládá jen jedna stránka, nikoli celý web, a funkce standardně „nezachraňuje outlinky“ (odkazy ven) a neumí spustit kompletní crawl webu. Pro pohodlí existují rozšíření do prohlížečů: oficiální popis rozšíření zdůrazňuje „Save Page Now“ jedním klikem a funkci, která při chybě 404 zkusí najít archivovanou kopii.
Na druhé straně, uživatelská zkušenost naráží na „realitu webu“: ne vše jde archivovat (dynamické aplikace, některé zabezpečené weby), a občas se projevují i provozní výpadky. IA například v květnu 2024 veřejně informoval o několikadenních výpadcích kvůli DDoS útoku; zároveň tvrdil, že sbírky jsou v bezpečí, i když dostupnost byla „nekonzistentní“. A v říjnu 2024 IA popsal obnovu služeb po dalších útocích: Wayback Machine se vracel postupně a archive.org byl dočasně dostupný „read-only“, bez možnosti nahrávání či půjčování.
Kam se činnost rozšířila a s kým IA spolupracuje
IA je sice „americký“ projekt původem, ale jeho činnost je globální a stále více „distribuovaná“. Help-centrum přímo uvádí, že IA spolupracuje s institucemi jako Library of Congress a Smithsonian. V posledních letech navíc přibývají „mise-aligned“ (mise-sdílející) organizace v dalších regionech.
Nejčerstvějším příkladem je Internet Archive Switzerland: IA oznámil vznik nezávislé švýcarské nadace se sídlem ve St. Gallen, která má působit v národním kontextu a zaměřit se mimo jiné na „endangered archives“ a archivaci generativní AI v partnerství s University of St. Gallen. Oficiální švýcarské stránky i oznámení kantonu St. Gallen zdůrazňují, že jde o samostatnou nadaci, „mission-aligned“ s Internet Archive, Internet Archive Canada a Internet Archive Europe. V těchto materiálech se objevuje i plán spolupráce s UNESCO v rámci ochrany ohrožených archivů.
Soudní spory: nejznámější konflikt o digitální půjčování knih
Nejvýznamnější právní střet posledních let je případ Hachette v. Internet Archive, který se týkal skenování a půjčování digitálních kopií knih přes model „controlled digital lending“ a zejména dočasné „National Emergency Library“ během pandemie. Wikipedia shrnuje, že v březnu 2023 soud rozhodl proti IA a později došlo k dohodě s trvalým zákazem půjčovat některé tituly tímto způsobem; odvolání u druhého okruhu (Second Circuit) verdikt potvrdilo a IA oznámil, že dál věc nenapadne. Primární právní zdroj (Justia) uvádí rozhodnutí odvolacího soudu ze dne 4. září 2024, které potvrzuje závěr, že takové digitální půjčování (v plném rozsahu knih) není „fair use“.
Dopad sporu na IA popisují i média: Ars Technica například uvádí, že po letech nákladných sporů došlo k odstranění více než 500 000 knih z Open Library a že IA se poté soustředí na jiné projekty. Zároveň Ars Technica cituje, že IA slaví velké milníky webového archivu, ale právní tlak umí zásadně změnit, co může služba nabídnout.
Budoucnost Internet Archive
Optimistický scénář stojí na představě, že IA a jemu blízké organizace vybudují „odolnější“ a distribuovanou digitální knihovnu. Směr naznačuje i vznik Internet Archive Switzerland a jeho projekty (ochrana ohrožených archivů, archivace AI modelů) – tedy rozšiřování archivačního záběru do nových typů digitálních artefaktů. Pokud se zároveň podaří stabilizovat financování (donace, partnerství) a posílit bezpečnostní obranu, může IA dál fungovat jako „veřejná infrastruktura“ pro výzkum, vzdělávání i občanskou kontrolu (např. dohledatelnost změn webů).
Pesimistický scénář kombinuje tři rizika: (1) právní omezení, (2) kyberútoky a (3) růst „uzavřeného webu“ (paywally, platformy, dynamické aplikace). Právní precedent z případu Hachette jasně ukazuje, že část aktivit (zejména kolem půjčování knih v digitální podobě) může být soudně zúžena. A série útoků v roce 2024 (DDoS, bezpečnostní incidenty, režim „read-only“) připomněla, že i velké archivy mohou být dočasně nedostupné – což je pro „knihovnu internetu“ citlivé.
Realita bude nejspíš někde mezi: IA bude dál balancovat mezi ideálem univerzálního přístupu, technickou a bezpečnostní odolností a tím, co právní rámec dovolí. V tom ale může být i jeho největší hodnota – nutí společnost řešit, kdo a jak má uchovávat digitální paměť světa, a za jakých podmínek má být dostupná.
Technický slovníček
Jak funguje crawling, WARC a „replay“ (Wayback Machine)
Crawling (sklízení webu)
Wayback Machine stojí na automatizovaných webových robotech (crawlers/spiders), kteří procházejí web, stahují obsah a ukládají ho jako záznamy „jak to vypadalo tehdy“. V praxi IA běží mnoho crawlů paralelně a opakovaně, aby zachytily změny v čase. (V komunitě webové archivace se jako klíčový nástroj často uvádí crawler Heritrix; je navržený pro archivaci a umí zapisovat výstup do WARC.)
Z pohledu Wayback Machine navíc nejde o „jeden archiv“, ale o souběh mnoha sběrů: help-centrum IA uvádí, že každý den přispívají stovky webových crawlů a u jednotlivých zachycení lze dohledat, z jaké „kolekce“ a jakého crawlu pochází.
Formát WARC (Web ARChive)
Surová data z crawlu se typicky ukládají ve formátu WARC, který je standardem pro webovou archivaci. WARC je „kontejner“ pro mnoho digitálních zdrojů a souvisejících informací v jednom souboru; používají ho webové archivy a lze ho přehrávat specializovanými nástroji (včetně systémů, na kterých stojí Wayback Machine).
Důležité je, že WARC není jen „HTML stránky“. Může v sobě nést i binární zdroje (obrázky, multimédia) a metadata, a standard počítá i se situací, kdy se stejné věci opakují: existuje typ záznamu pro duplicitní/deduplikované události (revisit), aby archiv nemusel ukládat totožný obsah zbytečně znovu.
Replay (přehrání archivované stránky)
Aby šlo archiv procházet „jako web“, potřebuješ playback/replay vrstvu: nástroj, který z uložených souborů poskládá stránku a umožní interakci podobně jako u původního webu. V materiálech k webové archivaci se to popisuje jako fáze „Playback“: archivovaný obsah je dostupný přes nástroj, který umožní uživateli s obsahem pracovat obdobně jako s originálem (typický příklad je právě Wayback Machine).
Praktická sekce
Jak Internet Archive (a Wayback Machine) používat v praxi
Rychlé vyhledání staré verze webu (Wayback Machine)
Základní workflow je jednoduchý: do Wayback Machine zadáš URL, vybereš časové období a procházíš archivovanou verzi webu. IA to popisuje přímo jako službu, která umožní navštívit archivované verze webů výběrem URL a data.
Archivace vlastního webu / blogu: „Save Page Now“ (nejrychlejší)
Pokud chceš mít jistotu, že se konkrétní stránka tvého blogu uloží, použij Save Page Now. IA uvádí, že:
- vložíš URL do formuláře a uloží se stránka,
- okamžitě získáš „permanentní“ (trvalý) odkaz,
- standardně se tím ukládá jedna stránka, ne celý web,
- ukládá se stránka včetně obrázků a CSS,
- neukládají se „outlinky“ (odkazy ven) a nelze tím iniciovat crawl celého webu,
- IA uvádí, že si u tohoto způsobu neuchovává IP adresu (odeslání je anonymní).
Praktický tip (doporučení): u blogu typicky ukládej homepage + každý nový článek zvlášť (jedním klikem po publikaci).
Archivace jedním klikem: rozšíření pro prohlížeč
IA má oficiální rozšíření pro prohlížeče, které umí „Save Page Now“ vyvolat jedním klikem a navíc pomáhá při chybách (např. 404) najít archivovanou kopii.
Když chceš archivovat celé weby pravidelně: Archive‑It (organizace)
IA v nápovědě uvádí, že pro organizace, které chtějí archivovat celé weby nebo velké kolekce, existuje služba Archive‑It: definuješ, co a jak často se má sklízet, a IA crawl provede a výsledky zpřístupní.
Citace ve vědeckém textu: proč a jak použít archivní odkaz
IA zdůrazňuje, že uložené stránky je možné citovat, sdílet a odkazovat, protože archivní kopie „nepřestane existovat“, i když se originál změní nebo zmizí.
Zároveň existují metodické materiály (např. akademické tutoriály), které doporučují archivní kopii jako stabilnější referenci pro vědecké práce oproti živému URL.
Praktický tip (doporučení): do citace obvykle dává smysl uvést archivní URL a datum zachycení (Wayback ho má přímo v adrese).
Temporal drift (časový posun): co to je a jak s tím počítat
Při procházení archivované stránky se může stát, že klikem na odkaz přejdeš na stránku, která je uložená z jiného data, než jsi původně otevřel. Tento jev se často popisuje jako temporal drift (časový posun) – záleží na tom, kdy byly jednotlivé stránky a jejich zdroje skutečně zachyceny.
Praktické tipy (doporučení), jak drift minimalizovat:
- Když ověřuješ citaci/„jak to tehdy bylo“, snaž se otevírat cílové stránky ze stejného období (podle kalendáře zachycení).
- Pokud stránka „vypadá rozbitě“, může chybět CSS/JS nebo se načítají zdroje z jiných časů – v takovém případě zkus jiný snapshot téhož dne/roku.
Proč někdy stránka v archivu není (nebo nejde zobrazit)
IA uvádí, že některé weby nejsou archivované nebo dostupné, protože je crawlery neznaly, byly chráněné heslem, blokované přes robots.txt, nebo jinak nepřístupné automatizovaným systémům; případně vlastník požádal o vyřazení.
Mini‑checklist
- Chci dohledat minulost webu: zadám URL → vyberu datum v Wayback Machine.
- Chci uložit svůj blog/post: Save Page Now (jedna stránka, ne celý web).
- Chci to dělat pohodlně: nainstaluju rozšíření pro prohlížeč (Save Page Now na klik + 404 helper).
- Chci archivovat ve velkém / pravidelně: Archive‑It (cílené crawly pro organizace).
- Chci citovat stabilní zdroj: použiju archivní odkaz (IA výslovně zmiňuje citovatelnost uložených stránek).
- Pozor na temporal drift: odkazy mohou vést do jiných dat zachycení.
Důležitý odkaz:
Internet Archive Help Center
Zdroje použité v článku (výběr)
- Internet Archive – Wikipedia
- Hachette v. Internet Archive – Wikipedia
- Hachette Book Group, Inc. v. Internet Archive (2nd Cir., 4. 9. 2024) – Justia
- Rozhodnutí (PDF) – Second Circuit (4. 9. 2024)
- Wayback Machine General Information – IA Help Center
- Save Pages in the Wayback Machine – IA Help Center
- Blog IA: Save Page Now (13. 3. 2025)
- Blog IA: DDoS útok (28. 5. 2024)
- Blog IA: Service update „read-only“ (21. 10. 2024)
- Alexa Crawls kolekce – archive.org
- Oficiální stránka Internet Archive (kolekce a rozsah)
- Oficiální rozšíření Wayback Machine (funkce, 404, ukládání)
- Ars Technica: „legal fights are over…“ (3. 11. 2025)
- Blog IA: Internet Archive Switzerland (6. 5. 2026)
- Internet Archive Switzerland – oficiální web
- Kanton St. Gallen: informace o Internet Archive Switzerland (5. 5. 2026)