リアルタイムデータストリーミングアプリ
単純な開始例としては、最小値と最大値を設定しておき、選択した指標が事前に指定した値を下回ったり上回ったりしたときに、警戒を促したり警報を発する、シンプルなリアルタイムストリーミング・アラートアプリケーションの開発が考えられる。やがてさらに同じ組織が、機械学習 (ML) アルゴリズムをデータストリーミングパイプラインに適用して、長期的に(最終的には短期的にも)表面化する可能性のあるより深いトレンドを探すことを検討するかもしれない。
もし読者がデータストリームにはまだ不案内なテクノロジーに敏感なビジネステック関係者だとしても、この基本的な解説と説明をなんとか受け入れてほしい。すなわち、これは現在、考えられるあらゆる業界のアプリケーションに適用されているテクノロジーなのだ。
データストリーミング提供企業とオープンソース
データストリーミング市場は、主に企業向けクラウド市場が大規模に展開する場所に関係する。大手のクラウドサービスプロバイダーすべて(AWS、Google Cloud Platform、Microsoft Azure)が大規模な製品を提供しており、IBMもこの市場に関与している。また、これまでエンタープライズデータの管理および統合プラットフォームで知られてきたITベンダー各社も参入してきている(Tibcoがその好例だ)。
そして、オープンソースがある。ここではJava(ジャバ)とScala(スカラ)言語で書かれたオープンソースのデータストリーム処理プラットフォームのApache Kafka(アパッチ・カフカ)が中心となっている。企業レベルでのKafkaの利用をサポートしているのがConfluent(コンフルーエント)だ。
Apache Kafkaの開発者たちによって開発されたConfluentは、Kafkaの利点をエンタープライズ級の機能まで拡張し、Kafka の管理や監視の負担を軽減する本格的なデータストリーミング・プラットフォームだ。元々は2011年にLinkedIn(リンクトイン)のソフトウェア開発者によって開発されたKafkaは「シンプルな」メッセージキューから進化し、現在では完全なデータストリーミングプラットフォームとして機能する技術となっている。1秒間に100万件以上、もしくは1日あたり数兆件のメッセージを処理することができる。
Confluentは、クラウドネイティブでシンプルかつスケーラブルなデータストリーミングパイプラインを提供する。そしてソースシステムとターゲットシステム間のリアルタイム統合、データストリームの運用中処理、および分散したミッションクリティカルなワークロード全体のユースケースを管理する企業規則に準拠するように設計された、一連のセキュリティ、ガバナンス、および復元機能を提供できる120以上の事前構築済みコネクタをConfluentは提供する。