2025.11.14 09:38

データリネージの実態：セキュリティ対策としての限界と可能性

Claude Mandy | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

AdobeStock

クロード・マンディ氏はSymmetry Systemsのチーフ・エバンジェリストであり、元ガートナーアナリスト、元CISOである。

サイバーセキュリティ業界はデータリネージを単なるバズワードに変えてしまい、ベンダーはあらゆるデータ保護の課題を解決する完全なデータ可視化を約束している。このマーケティングは、有用なデータガバナンスツールをセキュリティの万能薬に変えてしまう危険な誤った方向付けであり、セキュリティチームをデータ侵害を実際に防ぐ基本的な対策から遠ざけている。

このブログでは、データリネージが実際に提供するものと約束するものの違いを探り、アイデンティティと権限に関する盲点を特定し、セキュリティチームが優先すべき基本的なデータセキュリティ対策の概要を説明する。

データリネージが実際に行うこと

データリネージには2つの形態がある：

• 構造化データリネージは、構造化クエリ言語（SQL）ステートメントを解析し依存関係を追跡することで、データがデータベース、ウェアハウス、分析プラットフォームを通じてどのように変換されるかをマッピングする。

• 非構造化データリネージは、ファイルや文書がSharePointからローカルドライブ、クラウドアカウントなどのストレージシステム間でどのように移動するかを追跡する。

どちらのアプローチも、データ分類とラベリングのフォースマルチプライヤーとして優れている。各資産を手動で分類する代わりに、ソースで一度分類し、リネージがその決定をエコシステム全体に伝播させる。これにより、分類は資産ごとの作業から伝播作業へと変わり、手動調査に何カ月もかかるような発見作業を加速させる。

データリネージの重大な盲点

最高のリネージツールでさえ、特にセキュリティのユースケースにおいて、基本的な制限に直面する：それらはデータの移動を追跡するが、その移動を可能にするアイデンティティと権限を無視している。これにより重大なセキュリティの盲点が生じる。

構造化リネージは、顧客データが本番テーブルAから変換プロセスBを通じて分析ウェアハウスCに流れることを示すかもしれないが、どのサービスアカウントがその変換を実行したか、どの他のアカウントがそのデータにアクセスできるか、あるいは同じアカウントが許可されていない宛先にデータをルーティングできるかどうかは明らかにしない。

同様に、非構造化リネージは、文書XがSharePointからローカルドライブにコピーされ、その後Salesforceにアップロードされることを示すかもしれない。しかし、各データストアでのアイデンティティのコンテキストがなければ、これらの移動を通じて許可されていないユーザーがアクセスを得たかどうかを判断できない。

「誰が何をできるか」のギャップ

アイデンティティのコンテキストなしのリネージが危険なほど不完全な情報を提供するシナリオを考えてみよう：

1. リネージ図は、顧客データが承認されたETL（抽出、変換、ロード）プロセスを通じて流れることを示している。しかし示されていないのは：このプロセスを実行しているアイデンティティが外部API（アプリケーション・プログラミング・インターフェース）への書き込みアクセス権も持っており、同じデータを許可されていないサードパーティシステムにルーティングできる可能性があること。

2. リネージは、機密文書がメールで共有され、3つのOneDriveフォルダにアップロードされたことを示している。しかし明らかにしていないのは：どのフォルダが公開共有されているか。

重大なデータ漏洩には2つの権限の失敗が必要である：ソースアクセス（機密データの読み取り）と宛先アクセス（不適切な宛先への書き込み）。リネージツールは許可されたフローの美しい可視化を提供する一方で、それらのチャネルを完全に迂回するアイデンティティベースの攻撃経路を見逃している。

ほとんどのリネージ実装は、追跡している変換を実行した特定のアイデンティティさえ識別できない。データがプロセスXを通じて時間Yに移動したことは示すが、危険な外部書き込み権限を持つサービスアカウントZがそのプロセスを実行したことは示さない。

「データ分類の変化」のギャップ

リネージツールは、データがシステムを通じて移動する際に機密性が静的なままであると仮定している。この仮定は、データ変換や時間的要因が新しい機密レベルを作成する場合に破綻する。例えば：

1. 個々の顧客セグメントは日常的なビジネス指標である。しかし、複数の次元にわたって数千のセグメントを集約すると、地域間で人気を集めているセグメントや、主要な市場変動の前に顧客行動がどのように変化するかなど、より大きなパターンが見え始める。これらのパターンは、競合他社が何百万ドルも支払って入手したいと思う貴重な情報となる。

2. 製薬会社が研究タイムライン（内部使用）、競合他社の特許出願（公開）、リソース配分（内部使用）を組み合わせる。各データセット単独では通常の分類が適切だが、それらを組み合わせると戦略的研究の優先順位や薬剤開発のタイムラインが明らかになり、企業秘密レベルの情報となる。

3. 同じ顧客メールでも、マーケティングデータベースと不正調査データベースでは、技術的なリネージは同一でも、セキュリティ上の意味合いが異なる。

リネージツールがデータの組み合わせ、コンテキストの変化、時間的要因が機密レベルをどのように変えるかを認識するまで、それらは危険な偽りの自信を与え、データフローが実際に生み出すものの安全上の意味を見逃すだろう。

真のセキュリティ課題

最もリスクの高いシナリオは、データが追跡されたプロセスを通じて移動する場合やエンドポイントからデータが漏洩する場合ではなく、アイデンティティが機密データにアクセスし、それを全く異なる権限プロファイルを持つ別の場所に置くことができる場合に生じる。リネージは根本的に次の質問に答えられない：「この財務データにアクセスしている12のアイデンティティのうち、どれが外部の個人クラウドストレージ、サードパーティの分析プラットフォーム、またはデータ損失防止でカバーされていない他の場所への書き込み権限も持っているか？」

リネージがすべてのデータセキュリティ問題を解決すると期待している組織は、データがどこから来たかについての優れた可視性を持つが、追跡できないアイデンティティや評価できない権限の組み合わせからのリスクに対して脆弱なままだろう。

セキュリティチームの進むべき道

データリネージは基本的なデータガバナンスのアクセラレーターとして機能し、発見を迅速に、分類をより包括的に、コンプライアンス文書をより完全にする。これらは価値ある機能だが、データガバナンスを加速することはセキュリティリスクを減らすことと同じではない。

効果的なデータセキュリティには、4つの基本的な質問に答える必要がある：

• どのような機密データを持っているか？

• どのアイデンティティがそれを読み取れるか？

• それらのアイデンティティはどこにデータを書き込めるか？

• 権限の組み合わせが許容できないリスクを生み出していないか？

情報フロー制御に焦点を当てる

データはアイデンティティが持っていける場所に流れる—そしてそれらがどのアイデンティティであるかを教えられないリネージツールでは、実際のセキュリティリスクを評価または軽減することが根本的に不可能である。このギャップに対処するために、組織はデータ、アイデンティティ、操作タイプのポリシーの組み合わせによる情報フロー制御を提供する機能に焦点を当てるべきである。この3次元的なアプローチは、どのデータが移動するかだけでなく、誰がどのデータをどの目的で移動できるかも管理し、リネージツールをセキュリティにとって根本的に不十分にするアイデンティティの盲点に対処する。

データセキュリティの未来は、データが許可されたプロセスを通じてどのように移動するかを追跡することではなく、どのアイデンティティがそれらのプロセスを実行でき、それらのアイデンティティがどのような他のアクセス権を持っているかを理解することにある。これには、ソースアクセスと宛先の権限の両方に対処する包括的なデータセキュリティとアイデンティティガバナンスが必要である。

（forbes.com 原文）