ウェブ膨張速度にはグーグル・クローラーも追いつけない。「URL保存」の愚

Getty Images


URLではなく、記事そのものを1日に1億件以上も収集していると主張するサービスもあった。ところが提供されたサンプルデータを詳しく調べてみると、それぞれのRSSフィードから取得したURLからRSSとセッションのトラッキングコードが適切に削除されておらず、場合によってはフィード内のすべてのURLを読み取るたびに新しくタイムスタンプが付与されていることがわかった(そして、偶然にもそのフィードは前年のコンテンツをすべて含む年間RSSだった)。

つまり、このシステムでは数百万件の記事を含むまったく同一のセットを数分ごとに新たに読み込み、その都度新しい記事としてカウントしていたのだ。

こんなケースもあった。ある大手ウェブアーカイブは1年以上、提携機関から毎日URLのフィードを受け取り、受け取ったURLはすべて問題なく保存できていると請け合っていた。ところが、提携機関が実施した1年におよぶ監査の過程で、このアーカイブは技術上の問題を見落としており、実際にはURLのごく一部しか保存できていないことが判明した。この事例からもわかるとおり、アーカイブと提携する場合、データ提供者は定期的に「独自の監査」を実施するべきなのだ

常時監視や抜き取り検査の不在?


事実、現在のウェブアーカイブが直面している最大の危険は、「アーカイブ」という概念そのものが、流動的なデジタルレポジトリーに必須の常時監視や抜き取り検査と対極にあることだ。

ウェブアーカイブとは、ただ文書を入手してデジタル上の棚に保管することではない。保管することになっているコンテンツをきちんと入手できているか、将来そのコンテンツを正しく再構築できるようにコピーが完全な形で正しく保存されているかを常に評価しなければならないのだ。

その一例として、私はあるウェブアーカイブに次のように指摘したことがある。そのアーカイブはCNNのホームページの素材のコピーを一部しか保存できていなかった。CNNはHTMLを動的に生成するJavaScriptを利用しているのだが、西欧のジャーナリズムおいてCNNが大きな存在であるにもかかわらず、アーカイブのスタッフは手動による抜き取り検査を一度も実施したことがなく、問題に気づいていなかった。

専門家による大規模なチームを組織して、問題がないかどうかを常に検証できるだけの資金力のあるウェブアーカイブはほとんど存在しない。その代わり、ボランティアのネットワークに大いに助けられているのが事実だ。

ボランティアは、問題のあるアーカイブを見つけたときに、より大きなボランティアのコミュニティに依頼して問題を提起したり、アーカイブの検証に特化した月例のハッカソン(IT技術者などがワークショップ形式で実施するイベント)を開催したりする。

さらに驚くのは、自作のスクリプトを大量に使用しているウェブアーカイブが一定数存在することだ。サイトごとに個別に設計された数万ものスクリプトを使用しているケースもある。

こうしたスクリプトの多くは、対象のサイトにほんのわずかでも変更が加えられた場合、たとえばホームページの背景を白一色に変えただけでも警告なく作動しなくなり、数日、あるいは数週間後にエラーメッセージを発見した専門家が手作業でスクリプトを修正するまで情報の収集ができなくなってしまう。

2017年になっても、特定のサイト用にカスタマイズされた正規表現を多く含む自作のスクリプトを使用して情報を収集し、保存しているアーカイブがあるとしたら驚くよりほかない。


Getty Images
次ページ > アーカイブの実態は、「集中回収機構にデータ提供する保管所」

翻訳・編集=北綾子/S.K.Y.パブリッシング/石井節子

ForbesBrandVoice

人気記事