これまでの記事では、KafkaやConfluent Cloudの基本操作、Schema Registry、Kafka Connectを通じた外部システム連携を学んできました。いよいよ本記事では、KafkaのストリームデータをDatabricksに取り込み、Structured Streamingでリアルタイム分析を行う 実践的なシナリオを ...
DatabricksのStructured Streamingは、Apache Sparkのストリーミング処理をベースに、バッチ処理と同じコードでリアルタイムデータを扱えるのが特徴です。継続的に到着するイベントデータをDataFrameやDatasetとして統一的に処理でき、SQLやSpark APIを活用して集計・変換 ...