Apache Iceberg筆記1_DataLake三劍客之一

一般在業界實務如果有談論到關於DataLake數據湖，通常主流想到的

三劍客為:Hudi、Delta Lake和Iceberg

數據湖一詞觀念在之前準備Data Literacy Fundamentals學習筆記有稍微提及到。

目的在處理現代組織產生的大量數據，它們提供了一種經濟且高效的方式來儲存和管理大數據。數據湖建立在分散式檔案系統(distributed file systems)之上，例如Hadoop 分散式檔案系統(HDFS)或Amazon S3，可以處理大量數據並提供高可用性和高擴展性。

數據湖通常使用於：

• 儲存原始數據供以後分析

• 執行大數據處理和分析

• 支持機器學習和人工智慧

• 儲存和處理即時串流數據

Apache Iceberg是由netflex於2018年研發並開源貢獻給Apache基金會，為數據湖三劍客之一。

2018年11月16日進入Apache孵化器，於2020年5月19日從孵化器畢業，成為Apache的top專案。

主要用於大數據分析高性能開放性表格形式(Table Format)。
表格形式(Table Format)可以這樣解釋，metadata跟數據文件一種組織方式，處於計算引擎框架(Spark、Flink....)之下，數據文件之上。
在數據儲存和計算引擎之間的調配問題。原理類似Hive，但Hive依賴於HDFS檔案系統。換言之他可以跟很多常見到的資料庫或大數據生態系的工具兼容，比方Hive、Spark、Flink、Presto 、Impala等等，都可以去操作IceBerg的Table。

Netflex最初也是用Hive去處理海量資料，後來發覺不好用就自行研發IceBerg了。

Hive跟IceBerg其實都是在數據儲存之上和計算引擎之下，也都提供表格式存取。

Hive在之前此篇部落格文章也有紀載到。

而當時Netflex之所以覺得Hive不好用原因在於，如下幾個原因:

1. Schema 演進支援不佳（Schema Evolution Poor Support）

2. 查詢一致性差（Lack of Snapshot Isolation）

3. Metadata 管理效率低（Inefficient Metadata Handling）

4. 寫入性能差（Write Performance Poor）

Hive可以分區，若用時間一天24小時，以一個小時來分區。

一天就有24個分區，一個月就是24*30個分區。在往後繼續擴展1年.....2年。就出現一個問題，分區數量會過多。雖然查metadata是快，但去回推真實數據時候就相對耗時。

Hive會有一個metadata儲存的DB通常選用MySql，但通常只記錄到分區級別。

此外Hive是一個分區一個目錄在儲存，而真實要存取的資料都是在HDFS，因此他需要到HDFS上面去掃描所有目錄，並且再去篩選想要的目錄。

別於Hive只能定位到分區(目錄)級別，Iceberg則可定位到文件級別。解決傳統Hive分區、文件掃描過慢的痛點。Hive 表是「目錄驅動」的（Directory-Driven Table），而 Iceberg 是「元資料驅動」（Metadata-Driven Table）

第25個冬天