□データ損失を最小限に抑え、スケーラブルにほぼリアルタイムのデータクエリを提供するソリューションは?

Amazon Kinesis Data Streams

  • Amazon Kinesis Data Streams:リアルタイムの大量のデータを連続的に収集し、ストリーミングするサービスです。データは事実上リアルタイムで処理され、インフライトデータの損失リスクを最小限に抑えます。
  • Kinesis Data Analytics:Kinesis Data Streamsから送信されるリアルタイムデータをほぼリアルタイムで分析するサービスです。SQLクエリを使用してデータを簡単に分析できます。
  • Amazon Kinesis Data Firehose:リアルタイムデータをS3、Redshift、Elasticsearch Service、SplunkなどのAWSサービスに簡単にロードするサービスです。リアルタイムでのデータクエリ提供には不向きです。
  • EC2インスタンスストア:EC2インスタンスに一時的なブロックレベルのストレージを提供し、インスタンスのリブートや故障時にはデータが失われるリスクがあります。

・Amazon Kinesis Data Streamsにデータをパブリッシュし、Kinesis Data Analyticsを使ってデータをクエリします

この選択肢が正解の理由は以下の通りです。

まず、Amazon Kinesis Data Streamsは大量のデータをほぼリアルタイムに収集し、ストリーミング処理することができるサービスです。高速で流れてくるデータを逐次キャプチャすることが可能ですので、EC2インスタンスが再起動した場合でも、データ損失を最小限に抑えることができます。

また、Kinesis Data Analyticsを使用すると、ストリーミングデータをリアルタイムに分析した結果をデータサイエンスチームがすぐに確認することができ、これによりほぼリアルタイムのデータクエリが可能となります。

この組み合わせによって、データの取り込みとクエリの両面においてスケーラブルで、かつリアルタイム性とデータ保全性を実現することができます。

コメント

タイトルとURLをコピーしました