2023.01.15 12:31

ウェブ膨張速度にはグーグル・クローラーも追いつけない。「URL保存」の愚

Kalev Leetaru | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Getty Images

「URLを保存する」という間違い

図書館のアーカイブの根底には、ウェブアーカイブとは概して記事そのものを保存するのはなく「URLを保存すること」だという考えがある。ジャーナリズムの一片を保存することと、ユーザーのブラウザにニュースとして表示される多様な静的あるいは動的ファイルを保存することとのあいだには大きな隔たりがある。

つまるところ、オンラインニュースをアーカイブとして保存する目的は、その記事を将来に渡って閲覧可能にすることであり、アーカイブ用にWARCフォーマットで保存したファイルをデジタルアーカイブに格納して二度と見られなくすることではない。

null

Getty Images

毎週、何億ものニュースのURLを保存しているという報告があったが、あとになって、その数には記事のHTMLだけでなく画像、フォントファイル、CSSファイル、JavaScriptライブラリなど現代のダイナミックなウェブサイトを構成する大量のファイルが含まれていることがわかった。

また、CNNのウェブサイトから毎週、数千万件の記事を保存していると言った参加者もいたが、現実にはCNNが1週間に提供する記事はそんなに多くないと指摘すると、やはり記事の数ではなく（CSSやフォントやJavaScriptなどを含む）URLの数だと説明した。

少なくなる一方の資金を獲得するため、ウェブアーカイブ間の競争は激化しており、実用レベルではなく数字上だけの統計を発表する例はあとをたたない。1週間に数百万件の記事を保存できたと言うより、5000万件のURLを保存したと言うほうが聞こえがいいからだ。

監視しているソースの数についても同じことが言える。私がこれまでに取材したウェブアーカイブや営利企業の多くが、何十万、さらには何百万もの「ニュースソース」を監視しているというが、よくよく聞いてみると、実はそれはニュースサイトそのものではなく、RSSフィードの数だということがよくある。

ニュースサイトによってはトピックごとに細分化された数十から数百のRSSフィードを提供しているので、その数え方に従えば、ひとつのニュースサイトが「500件のソース」に相当する場合すらある。

監視しているのは「ニュースソース」ではなく「RSSフィード」

ある大手のオンラインニュース監視システムは10万以上のニュースソースを監視していると大々的に宣伝していた。しかし、そのサービスが監視しているソースのマスターリストを入手して確認したところ、実際には10万件の「ニュースソース」ではなく、10万件の「RSSフィード」だった。

一般的なニュースサイトには10から20のRSSフィードがある。100から200以上のフィードを持つサイトもある。このシステムでは、そうしたフィードをそれぞれ「ニュースサイト」としてカウントしていた。そのリストを簡易的なスクリプトで検証したところ、フィードの80％は「404 Not Found（該当するページがありません）」と表示され、残りの15％は1年以上新しい情報が追加されていなかった。

次ページ＞常時監視や抜き取り検査の不在？