2023.01.15 12:31

ウェブ膨張速度にはグーグル・クローラーも追いつけない。「URL保存」の愚

Kalev Leetaru | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Getty Images

IIPCの構想には正直、首をかしげたくなる。西洋以外の国を対象とした多様なニュースアーカイブの取り組みはおろか、筆者が2014年秋に協力した、世界のオンラインニュースのアーカイブとしては最大規模のプログラムであるインターネットアーカイブが存在することさえ知らないかのようだった。

ニュースアーカイブに携わる他の活動ともっと連携を図ろうとしないのはなぜか、現存する取り組みに比べてIIPCの活動独自の利点はどこにあるのかをメールで問い合わせたが、返答はなかった。

「ホスト型ブログプラットフォーム」と直接連携すべき

秋の会議で幅広い層の参加者と話をしているうちに、2010年に議会図書館で開催されたウェブアーカイブの会議に初めて参加した頃に時代が逆行しているかのように思えてきた。その会議では、ホスト型ブログプラットフォームに投稿されるのが一般的だった市民ジャーナリズムを、いかにしてアーカイブとして保存するか、という当時問題になりつつあった課題に取り組んでいた。

会議の終盤、私は、クラウドベースのホスト型ブログプラットフォームと直接連携し、当時はまだ初期段階にあった大量の情報フィードへのアクセスを可能にするウェブアーカイブの手法を推奨した。そうすれば、特定のサービス上で運営されるブログであれば、ページが追加または更新されるたび自動で通知を受け取ることができる。

大まかに言えば、どんなに努力してもいつも時期遅れになる市民ジャーナリズム記事の部分的リストしか作成できない取り組みに力をつぎ込む代わりに、ブログプラットフォームと直接連携して、リアルタイムで更新される完全で信頼のおける記事の一覧を入手すればよいのだ。実際、この提案はインターネットアーカイブのワードプレス監視サービスとしてのちに実現した。

null

Getty Images

最先端の議論をする場であるにも関わらず、参加者の多くが図書館や学術機関以外で実施されている大規模なウェブ情報収集活動についてほとんど知らないのには驚きを禁じ得ない。現在稼働しているすべてのニュースサイトのURLをただまとめてリスト化するだけでも、図書館や学術機関がこれまでに経験したことのない大仕事だ。

参加者のなかには、Googleニュースサイトマップの「最新の」技術を駆使してニュースサイトの監視を開始した図書館はニュースサイトの情報収集における先駆的な取り組みを行っていると語る者もいた。

そういう話を聞くたび、私は彼らに訴えた。Googleニュースサイトマップは実際には同社がGoogleニュースのために普及させたものであり、Googleはこれまで15年かけて業界の優秀な人材とともにニュースサイトの情報収集に最適な方法を考案し、発行者と直接提携してきたこと、ウェブサイトからニュースを収集するにはRSSフィードをひとつかふたつ監視するだけでは不十分だということを伝えた。

次ページ＞「URLを保存する」という間違い