テクノロジー

2023.01.15 12:31

ウェブ膨張速度にはグーグル・クローラーも追いつけない。「URL保存」の愚


アーカイブの実態は、「集中回収機構にデータ提供する保管所」


また、ウェブサイトのコンテンツを適切に監視し、収集しているアーカイブであっても、最新の拡張コンテンツタイプにはほとんど対応しておらず、そのためコンテンツを保存できない点も指摘しておきたい。例えば、モバイル端末でホームページを高速で表示させるためのAMPのページは読み込むことができないし、オープングラフやツイッターカード、アイキャッチ画像などの埋め込み型ソーシャルコンテンツを収集し、保存することはできない。

問題は、ウェブサイトを適切に収集し、保存するには相当な実務経験が必要であることだ。何年も取り組み続け、常日頃から手動で見直しや検証を行い、収集の仕組みをいつも正しく調整する。その積み重ねによって初めてそうした経験が得られる。

ウェブアーカイブの世界では、「ひとたび作りあげたら、あとは忘れる」方式は通用しない。しかし、この監視と継続的な改善の重要性を理解しているスタッフや専門技術者がいるウェブアーカイブはほとんどなく、スタッフを雇用して実践することも、ボランティアのコミュニティと連携して有用なフィードバックや体系的な検証プロセスを提供することもできないのが現状だ。

筆者はかつてインターネットアーカイブの〈ウェイバックマシン〉の概要を公開し、その後2カ月にわたってアーカイブの運用についてじっくり考察した。

その結果、アーカイブの実態は、多くの異なるデータ提供者が、大規模かつ定期的なスナップショットの収集と、標的を定めた小規模なストリーミングの入手を組み合わせた集中回収機構にデータを提供する保管所そのものだということがわかった。その実態は、学術文献で描写されたり、アーカイブに関するデータともっとも密接に関わっている学識者から聞いたりするアーカイブ運用のイメージとは大きく異なっていた。

つまり、学術界の専門家は論文を執筆し、講義をすることで全米科学財団(NFS)や全米人文科学基金(NEH)や博物館・図書館サービス機構(IMLS)などの機関から多額の補助金を受け取ってアーカイブのデータを利用しているにもかかわらず、自分たちが使っているアーカイブがそもそもどんなものなのかも、微妙な差異がデータに関する質問に与える影響の大きさも理解しようとしてこなかったのだ。

閉じたコミュニティは外と繋がれるか


新たな知見が必要だと認識している図書館があったとしても、残念ながら彼らが意見を求めるのは学術界や図書館に関する専門家コミュニティであり、斬新なアイディアや見解を求めて外の世界にアプローチすることがないため、結局は同じ問題がいっそう深刻になるだけである。

オンラインニュースサイトからの情報収集と保存方法を改善したいなら、図書館が相談すべき相手は誰か。15年にわたって実績を積み、世界のウェブサイトの収集に関して多大な経験と専門知識を持つ有能な人材が集まるGoogleのニュースチームか? あるいは、GitHub(ソフトウェア開発のプラットフォーム)からパイソンのスクリプトをダウンロードし、数ページの情報を収集した経験しかない大学教授か?

外部の変化を取り入れることは、1日だけの単発の会議やハッカソンを開催するのとはちがう。図書館はその点も認識する必要がある。私はこれまで何度となくそうした会合に参加してきた。
次ページ > 世界規模のオープンウェブからの情報収集を

翻訳・編集=北綾子/S.K.Y.パブリッシング/石井節子

ForbesBrandVoice

人気記事