🛠️ はじめに:なぜPySparkを使うのか? 前回の記事で「家計はKPIで管理せよ」と提唱しました。今回はその基礎となるデータ分析を、Databricksが最も得意とする PySpark で行います。 処理能力: データ量が増加しても、PySparkの分散処理能力により高速に処理が ...
PySparkやDatabricksでDataFrameを保存すると、データは複数のファイルに分割されます。これは並列処理のために自然に発生する動作ですが、ファイルサイズが適切でないと大きな問題を引き起こします。たとえば、小さなファイルが大量に生成される「スモール ...