輪読会ページ
Streaming Systems 輪読会 - 第14回 (2023/01/30 19:00〜)
発表者
- 中谷 翔 ( @laysakura で Twitter やら GitHub やら )
- 🚗の会社でデータベース・ストリーム処理・ETLあたりの研究開発
- 車載機とかIoT機器で動くストリーム処理系 SpringQL 作ってる
冒頭部分 (p.283-284)
<aside>
💡 全体的に味のある歴史記述なので、興味持った人は原文読むと良い。原文から各種システムの歴史へのポインタも生えてる
</aside>
MapReduce (p.284-288)
歴史の話
- WWW (World Wide Web) の大規模データ処理のためにGoogleでスタート
- MapReduce以前にもGoogleで大規模データ処理は取り組まれていたが、以下3つの気づきがあった:
- Data processing is hard
- Scalability is hard
- Fault-tolerance is hard
- ↑のScalability, Fault-toleranceを解決するフレームワークを作れば、データ処理だけに集中できるようになる。そうして作られたのがMapReduce
計算モデル