Linode

亞馬遜推出高性能 PyTorch 數據集庫—S3 Plugin

Editor

近日亞馬遜雲科技爲 Fcebook 的 PyToch 機器學習框架推出了一箇名爲S3 Plugin的數據集庫,旨在幫助數據科學家訪問存儲在 AWS S3(Amzon Web Seices Simple Stoge Seice) 中的數據集。它專爲低延遲而設計,S3 Plugin 爲任何規模的數據集提供了流式傳輸數據的功能,消除了提供本地存儲容量的需要。

PyToch 是一箇基於 Toch 庫的開源機器學習庫,用於計算機視覺和自然語言處理等應用,主要由 Fcebook 的 AI 研究實驗室開發。它是在修改的 BSD 許可下發布的免費開源軟件,底層由 C++ 實現。

許多深度學習軟件都建立在 PyToch 之上,包括特斯拉自動駕駛、Ube 的 Pyo 和 HuggingFce 的 Tnsfomes 等。PyToch 主要提供了兩個高級功能:

  • Tenso 計算(如 NumPy),通過圖形處理單元(GPU)進行強力加速
  • 建立在基於類型的自動微分系統上的深度神經網絡

自 206 年 0 月發佈以來,PyToch 在數據科學和開發人員社區中得到快速成長。209 年,該平臺的貢獻者數量同比增長超過 50%,達到近 200 人。根據研究機構的分析發現,209 年的每個主要的人工智能會議都有大部分論文是用 PyToch 實現的,209 年上半年,論文中 PyToch 的引用量增長了 94% 以上。

有了 PyToch 深度學習容器中的這項功能,用戶可以利用 PyToch 數據集和數據加載器 API 直接使用 S3 中的數據,而不需要先在本地存儲中下載。針對 PyToch 開發的 S3 Plugin 提供了從 Amzon S3 到 PyToch 使用數據的原生體驗,而無需在代碼中增加複雜性。

S3 Plugin 的優勢包括:

、PyToch 支持兩種不同類型的數據集,適用於 PyToch 的 S3 Plugin 可根據你的需要靈活地使用兩者;

2、S3 Plugin 可以使用各種格式的訓練數據來訓練機器學習模型。它與文件格式無關,並將 Amzon S3 上的對象呈現爲 blob,並能對從 Amzon S3 接收的輸入進行其他轉換;

3、S3 Plugin 提供了一種方法,可以使用ShuffleDtset在內存中洗數據,或者在擴展S3ItebleDtset時通過提供輸入參數shuffle_uls在內存中洗數據;

PyToch 的 S3 Plugin 提供了一種從 S3 並行傳輸數據的方法,以及對來自歸檔文件的數據流的支持。亞馬遜表示,由於該插件是 PyToch 內部接口的實現,它不需要修改現有的代碼就可以與 S3 配合使用。適用於 PyToch 的 S3 Plugin 提升了 PyToch 的易用性和靈活性,感興趣的開發者可以通過預配置的 PyToch Docke 鏡像使用,或直接從 GitHub 倉庫使用。


相关文章

  • Ubuntu 23.04 ‘Lunar Lobster’發佈 新特性介紹

    Ubuntu 23.04 ̺Lun Lobste̻正式版已發佈,該版本將可以獲得9個月的持續更新、安全補丁和關鍵修復。本文將介紹下Ubuntu 23.04的主要新特性、變化和增強功能等。 Ubuntu 23.04新特性介紹: 新的安裝程序 Ubuntu 23.04包含一箇新的操作...

  • 亞馬遜雲科技與Hugging Face攜手合作 促進生成式AI應用的創建

    亞馬遜雲科技宣佈與Hugging Fce進一步合作,以加速對大語言模型和視覺模型的訓練、精調和部署,促進生成式AI應用的創建。生成式AI應用可以執行各種任務,包括文本摘要、問題回答、代碼生成、圖像創建以及撰寫論文和文章。 亞馬遜雲科技在生成式AI創新方面擁有深厚歷史。例如,亞馬遜使用AI技術爲Amz...

  • 阿里雲Hologres 0.8版本實例停止服務通知

    阿里雲日前發佈了Hologes 0.8版本實例停止服務通知,請及時升級實例版本。Hologes在雲上正式商業化已有2年多時間。在這2年多的時間內,Hologes從0.8版本直到目前的.版本,共計發佈了4個產品大版本。 Hologes兼容PostgeSQL生態,是新一代的阿里雲實時數倉產品,與大數據生...

  • Vultr擁抱雲:人工智能和機器學習將於2024年全面實現雲原生

    Vult團隊一直在探索2024年的趨勢,研究GenAI和大型語言模型的世界。在這一動態的技術格局中,人工智能(AI)和機器學習(ML)也在不斷髮展,突破了創新的邊界。隨着2024年,一箇顯著的轉變即將到來——AI和ML的完全雲原生集成。基於CPU的Kubenetes集羣的擴展標誌着這一轉變,以適應在...

  • GitLab 14.9版本發佈 新功能介紹

    GitLb 4.9發佈,帶來一些新功能和改進,主要更新內容包括引入epic to epic鏈接、集成secuity tining、新設計的環境頁面,以及添加了掃描結果策略的規則模式等。 epic to epic鏈接功能 GitLb 4.9現支持使用“elted”、“blocking”和“blocke...

  • CloudCone新推出域名註冊服務

    CloudCone近日宣佈新推出域名註冊服務,提供有多種頂級域名後綴可供選擇,包括.com、.net、.og、.io等,您可根據需要註冊相關域名。CloudCone作爲一家優秀的雲託管服務商,瞭解爲您的網站提供完美域名和可靠DNS的重要性,以及讓您的雲服務保持互聯的重要性! 《CloudCone官網...

  • Hostinger將在2024年推出Windows VPS主機

    根據Hostinge官網獲得,計劃在2024年推出Windows VPS主機選項。能夠安裝Windows See 2022、Windows See 209和Windows See 206操作系統。NET應用程序,使用Micosoft SQL See並促進與其他基於Windows的系統或服務的無縫集成...

  • GitLab 15.4發佈 添加了機器學習功能

    GitLb 5.4發佈,該版本添加了GitLb的第一個機器學習驅動功能,包含了60多項功能改進,其中比較受關注的有建議的審閱者公開測試版、改進了VS Code中的CI/CD集成、頁面管道嚮導(Pges Pipeline Wizd)、已驗證域名繞過電子郵件驗證等等。 GitLb 5.4主要更新內容包括...

  • Vultr虛擬私有云VPC 2.0發佈

    美國主機商Vult近日宣佈推出了虛擬私有云VPC 2.0,這是對其基礎產品之一的突破性升級,將重新定義您在雲中的網絡體驗。VPC2.0是Vult VPC服務的新版本,它引入了許多改進,將您的網絡功能提升到新的高度。 藉助VPC 2.0,您現在可以將您的Vult雲服務器劃分爲邏輯組或強化您的公共接口,...

  • 河南暴雨 汛情當頭數據中心要如何防汛

    受颱風影響,近期,河南遭受極端暴雨天氣,千年罕見,此次暴雨導致河南多地損失慘重。對於服務器而言,機房的日常運維是非常重要的,那麼在遭遇如此汛情之時,數據中心應當如何應對呢? 首先是數據中心建設,不管是國內服務器還是國外服務器,在對於數據中心的選址時除考慮經濟環境、政策環境、交通便利、配套設施等因素外...