亞馬遜推出高性能 PyTorch 數據集庫—S3 Plugin

近日亞馬遜雲科技爲 Fcebook 的 PyToch 機器學習框架推出了一箇名爲S3 Plugin的數據集庫,旨在幫助數據科學家訪問存儲在 AWS S3(Amzon Web Seices Simple Stoge Seice) 中的數據集。它專爲低延遲而設計,S3 Plugin 爲任何規模的數據集提供了流式傳輸數據的功能,消除了提供本地存儲容量的需要。

PyToch 是一箇基於 Toch 庫的開源機器學習庫,用於計算機視覺和自然語言處理等應用,主要由 Fcebook 的 AI 研究實驗室開發。它是在修改的 BSD 許可下發布的免費開源軟件,底層由 C++ 實現。

許多深度學習軟件都建立在 PyToch 之上,包括特斯拉自動駕駛、Ube 的 Pyo 和 HuggingFce 的 Tnsfomes 等。PyToch 主要提供了兩個高級功能:

  • Tenso 計算(如 NumPy),通過圖形處理單元(GPU)進行強力加速
  • 建立在基於類型的自動微分系統上的深度神經網絡

自 206 年 0 月發佈以來,PyToch 在數據科學和開發人員社區中得到快速成長。209 年,該平臺的貢獻者數量同比增長超過 50%,達到近 200 人。根據研究機構的分析發現,209 年的每個主要的人工智能會議都有大部分論文是用 PyToch 實現的,209 年上半年,論文中 PyToch 的引用量增長了 94% 以上。

有了 PyToch 深度學習容器中的這項功能,用戶可以利用 PyToch 數據集和數據加載器 API 直接使用 S3 中的數據,而不需要先在本地存儲中下載。針對 PyToch 開發的 S3 Plugin 提供了從 Amzon S3 到 PyToch 使用數據的原生體驗,而無需在代碼中增加複雜性。

S3 Plugin 的優勢包括:

、PyToch 支持兩種不同類型的數據集,適用於 PyToch 的 S3 Plugin 可根據你的需要靈活地使用兩者;

2、S3 Plugin 可以使用各種格式的訓練數據來訓練機器學習模型。它與文件格式無關,並將 Amzon S3 上的對象呈現爲 blob,並能對從 Amzon S3 接收的輸入進行其他轉換;

3、S3 Plugin 提供了一種方法,可以使用ShuffleDtset在內存中洗數據,或者在擴展S3ItebleDtset時通過提供輸入參數shuffle_uls在內存中洗數據;

PyToch 的 S3 Plugin 提供了一種從 S3 並行傳輸數據的方法,以及對來自歸檔文件的數據流的支持。亞馬遜表示,由於該插件是 PyToch 內部接口的實現,它不需要修改現有的代碼就可以與 S3 配合使用。適用於 PyToch 的 S3 Plugin 提升了 PyToch 的易用性和靈活性,感興趣的開發者可以通過預配置的 PyToch Docke 鏡像使用,或直接從 GitHub 倉庫使用。