テクノロジー

2023.01.15 12:31

ウェブ膨張速度にはグーグル・クローラーも追いつけない。「URL保存」の愚

Getty Images

ウェブアーカイブの現状を検討する会合に招待されて講演した。会合ではとくに、図書館が、更新頻度が速くコンテンツが流動的なオンラインニュースのアーカイブをどう運用しているかについて議論された。

1日半におよぶ会合で図書館員、文書保管係、ジャーナリスト、情報科学者、政府関係者、技術者らと話をしたが、その結果わかったことは驚くべきものだった。7、8年ほど前に米国議会図書館で開催された初のウェブアーカイブに関する会議にも講師として呼ばれて参加したのだが、それから何も変わっていない。講演内容も議題もまったく同じで、何ひとつ進展していなかったのだ。

図書館業界では時代遅れの「RSSフィード」が旬?


この会合の内容をもっとも顕著に表しているのは、おそらく議会図書館のデジタル化担当者の報告だろう。議会図書館では新たにRSSフィードを活用して、ニュースサイトからの情報収集の状況を改善すると語っていた。

長年にわたってニュースサイトをアーカイブしてきた結果、図書館が(商業の世界から15年以上も遅れて)学んだのは、各ニュースサイトのホームページからスタートしてサイト全体を「幅優先検索」する従来の方法では、コンテンツの変更速度が速いニュースサイトを保存するのは困難だ、ということだった。そこで、クローラーにRSSフィードも監視させることで、より迅速に記事を探し出すことができると判断したという。

この報告には驚くよりほかない。RSSフィードはいまや時代遅れの技術で、ニュースサイトの多くが利用をやめつつある(CNNがRSSフィードの利用を停止したのはもう一年以上前のことだ)。まだ使われている場合でも、サイト全体のコンテンツのうち、ごく一部の見出しを反映しているにすぎない。

あとから登壇者にその点について尋ねると、RSSフィードはいまなお最先端の技術だといって譲らなかったが、一方で議会図書館ではGoogleニュースサイトマップなど、ほかの情報源についても導入を検討していると認めた。

RSSフィードは最適の方法とはいえないと認めつつ、ニュースのアーカイブに関して議会図書館が時代から相当に遅れをとっていることを頑なに受け入れようとしない担当者の認識には驚くばかりだ。それどころか、ウェブサイトからの情報収集にかけては議会図書館に匹敵する機関はなく、オンライン上のコンテンツのアーカイブの主導的役割を担っているとまで断言していた。

そこで筆者はこう指摘した。強力なクローラー技術を有するGoogleでさえ、ニュースサイトの頻繁な情報公開と更新速度に追いつくにはほかの方法が必要だと気づき、15年も前にGoogleニュースを始動させている。

なぜ、世界各地のGoogleや(営利、非営利を問わず)さまざまな機関と密に連携し、ウェブサイトからの大規模な情報収集に関する豊富な経験から学ぼうとしないのかと問いかけてみたが、議会図書館には現在必要と思われる専門家は十分に足りているという答えが返ってきた。

null
Getty Images

議会図書館におけるウェブアーカイブの方向性が正しいと信じているのなら、2016年の秋になって、ニュースサイトのアーカイブの未来はRSSフィードが握っていると喧伝する会議に参加したのはどういう了見かとコメントを求めたが、回答は得られなかった。

その後ほどなくして、議会図書館が加盟する国際インターネット保存コンソーシアム(IIPC)は、2017年にひとつの国につき少なくとも10個のニュースサイトを1週間アーカイブするという “高邁な目標”を打ち出した。これまで成し遂げられたことはないが、途方もなく無謀な試みとは言えないとのことだった。
次ページ > 「ホスト型ブログプラットフォーム」と直接連携すべき

翻訳・編集=北綾子/S.K.Y.パブリッシング/石井節子

ForbesBrandVoice

人気記事