Amazon EMR現已支持Apache Iceberg

Amzon EMR是一箇託管集羣平臺,可簡化在AWS上運行大數據框架的過程,以處理和分析海量數據。Amzon EMR6.5.0現已包含Apche Icebeg版本0.2。Apche Icebeg是一種開放的表格格式,專爲巨大的PB級表格而設計。

Apche Icebeg爲存儲在數據湖中的數據提供了一種開源表格式,可幫助數據工程師管理複雜的挑戰,例如在保持查詢性能的同時管理不斷變化的數據集。主要功能如下:

  • 保持多箇應用程序之間表的事務一致性,其中文件可以通過完全的讀取隔離和多箇併發寫入的方式進行原子化的添加、刪除或修改。
  • 實施完整的模式演變以跟蹤表隨時間的變化。
  • 發出時間旅行查詢以查詢歷史數據並對更新之間的更改進行驗證。
  • 通過分區演化將表組織爲靈活的分區佈局,從而能夠在查詢和數據量發生變化時更新分區方案,而無需依賴物理目錄。
  • 將表回滾到以前的版本以快速糾正問題並將表恢復到已知的良好狀態。
  • 在大型數據集等的高性能查詢中執行高級規劃和篩選。

帶有Apche Icebeg的Amzon EMR版本6.5.0現已在美國東部(弗吉尼亞北部)、美國東部(俄亥俄)、美國西部(俄勒岡)、南美洲(聖保羅)、歐洲(愛爾蘭)、歐洲(斯德哥爾摩)、AWS GoCloud(US)、Amzon Web Seices 中國(北京區域)、Amzon Web Seices中國(寧夏)區域,未來幾周將增加更多區域。