2023.01.15 12:31

ウェブ膨張速度にはグーグル・クローラーも追いつけない。「URL保存」の愚

Kalev Leetaru | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Getty Images

開催後、1年ほどたってから、その会の主な成果は何だと思うか、その会を契機とした成功事例のリストを提供してもらえないかと主催者に尋ねることも少なくない。

しかし、返ってくる答えはたいてい、「会を開催したこと自体」が主たる成果だというものだ。1日かぎりの会合によって関係者が一堂に会することができるのは確かだが、人々を集めることはスタートであって最終的な成功の指標にはならない。図書館関係者とそれ以外の技術者のコミュニティが持続してパートナーシップを結ぶことが、ウェブアーカイブの世界にほんとうの変化をもたらす唯一の方法なのだ。

世界規模のオープンウェブからの情報収集を

図書館業界は「いつもの顔ぶれ」に留まることをやめ、外部の見識を取り込むことが重要だ。NSF、NEH、IMLSなどの主要な資金提供団体や民間団体の助成対象者のデータベースを見れば、ウェブアーカイブの研究者が比較的少数にかぎられているのがひと目でわかる。しかも、そうしたプロジェクトの研究者には、世界規模のオープンウェブからの情報収集やオープンウェブの細かなニュアンスについて豊富な経験と専門知識を有している人がほとんどいない。

これまで数千万ドルの資金が費やされてきたが、その支出に見合うだけの大きな成果は得られていない。実際、昨秋の会議で議論された技術や工程や手法のほとんどは、ウェブサイトを理解し、そこから情報を得ることで生計を立てている多くの企業や機関や専門家によってもたらされた商用ウェブの世界の話であり、図書館や学術界の人々はその影に隠れて革新的な技術を理解しようとしていたにすぎない。

現在のウェブ構造は「ケーキの層」

私自身は22年間、学術界、商業界、政府系企業で働いてきた経験から、ウェブスケールのクローラー、アーカイブ、解析システムについて独自の見解を持っている。

ウェブが成長し、どんどん複雑化するのを見てきたが、20年以上にわたって収集システムを構築してきた立場から、現在のウェブは「ケーキのように層をなした構造」であると言える。ギガバイト規模のHTMLページから、破損したファイルやウィルスにおかされたファイル、慎重に設計された収集システムの落とし穴に至るまで、物理的に広大なだけでなく、些細な差異と奇妙なことにかけてはどこまでも複雑な現実世界という環境において、どう対処すべきかを理解している。

ウェブがどのように設計されているのか、その原理を理解すれば、どんなウェブサイト上でも運用できる収集システムを構築できる。サイトごとに数万もの個別の収集システムを自作し、コードベースの維持の負担に耐えきれず断念する時代はもう終わりだ。

あがきながらも紀元前3世紀から現代社会に引きずり出されるか、このまま見当ちがいの方向に進みつづけるか。図書館は今、ウェブアーカイブに関して転換点を迎えている。これまでの狭い世界から抜け出し、外部の技術者と持続的なパートナーシップを結んで新しい知見と手法を取り入れなければ、図書館の近代化はありえない。そうしているあいだにも、われわれのウェブの歴史は急速に失われ、永遠に取り戻せなくなっている。

（forbes.com 原文）