Linode

亞馬遜雲科技宣佈Amazon EC2 P5實例正式可用 加速生成式AI和高性能計算應用

Editor

亞馬遜雲科技近日在紐約峯會上宣佈 Amzon Elstic Compute Cloud(EC2)P5 實例正式可用。這是一款下一代 GPU 實例,由最新的英偉達 H00 Tenso Coe GPU 提供支持,可以滿足客戶在運行人工智能、機器學習和高性能計算工作負載時對高性能和高擴展性的需求。與上一代基於 GPU 的實例相比,Amzon EC2 P5 實例可以將訓練時間縮減6倍(從幾天縮短到幾小時),從而幫助客戶節省高達40%的訓練成本。

Amzon EC2 P5 實例提供8個英偉達 H00 Tenso Coe GPU,具有640 GB 高帶寬 GPU 內存,同時提供第三代 AMD EPYC 處理器、2TB 系統內存和30 TB 本地 NVMe 存儲。Amzon EC2 P5 實例還提供3200 Gbps 的聚合網絡帶寬並支持 GPUDiect RDMA,從而能夠繞過 CPU 進行節點間通信,實現更低的延遲和高效的橫向擴展性能。

亞馬遜雲科技與英偉達攜手開發下一代基礎設施

亞馬遜雲科技和英偉達(NVIDIA)在今年3月宣佈了一項多方合作,構建全球最具可擴展性且按需付費的人工智能基礎設施,以便訓練日益複雜的大語言模型和開發生成式 AI 應用程序。

當時,亞馬遜雲科技預發佈了由英偉達 H00 Tenso Coe GPU 支持的 Amzon EC2 P5 實例,可爲構建和訓練更大規模的機器學習模型提供高達20 exFLOPS 的算力。亞馬遜雲科技和英偉達合作十多年來成果頗豐,推出了包括支持視覺計算、人工智能和高性能計算集羣的各種 GPU 實例,如 CG 實例(200年)、G2(203年)、P2(206年)、P3(207年)、G3(207年)、P3dn(208年)、G4(209年)、P4(2020年)、G5(202年)和 P4de(2022年)實例。

現在,機器學習模型的規模已經達到數萬億參數,這種複雜性大大增加了客戶訓練模型所需的時間,例如,最新的大語言模型訓練時間長達數月之久。類似的趨勢也出現在高性能計算領域。隨着高性能計算客戶數據收集準確度的提高以及數據集達到 EB 級規模,客戶已經在尋找解決日益複雜應用程序的更快方法。

關於 Amzon EC2 P5 實例

Amzon EC2 P5 實例非常適合訓練和運行越來越複雜的大語言模型和計算機視覺模型,以滿足最苛刻的計算密集型生成式 AI 應用的需求,包括問答、代碼生成、視頻和圖像生成、語音識別等。與上一代基於 GPU 的實例相比,Amzon EC2 P5 實例在這些應用中的訓練時間縮短了6倍。那些可以在工作負載中使用較低精度 FP8 數據類型的客戶,例如使用 Tnsfome 框架的語言模型,將通過英偉達 Tnsfome Engine 的支持獲得高達6倍的性能提升。

高性能計算客戶通過使用 Amzon EC2 P5 實例可以在藥物發現、地震分析、天氣預報和金融建模等領域更大規模地部署高要求的應用程序。此外,對於使用基於動態規劃(Dynmic Pogmming)算法進行基因組測序或加速數據分析等應用的客戶,Amzon EC2 P5 將通過新的 DPX 指令集提供支持。

Amzon EC2 P5 實例使客戶能夠探索以前看似無法解決的問題,更快地迭代解決方案,並加速市場。

第二代 Amzon EC2 UltClustes和 Elstic Fbic Adpte

Amzon EC2 P5 實例爲多節點分佈式訓練和緊密耦合的高性能計算工作負載提供先進的橫向擴展功能,其使用的第二代 Elstic Fbic Adpte(EFA)網絡設備提供高達3200 Gbps 的網絡速度,是 Amzon EC2 P4d 實例的8倍。

爲了滿足客戶對大規模和低延遲的需求,Amzon EC2 P5 實例部署在第二代 Amzon EC2 UltClustes 中,該集羣目前可在超過2萬個英偉達 H00 Tenso Coe GPU 上爲客戶提供更低的延遲。作爲雲中最大規模的機器學習基礎設施之一,Amzon EC2 UltClustes 中的 Amzon EC2 P5 實例可提供高達20 exFLOPS 的聚合計算能力。

Amzon EC2 UltClustes 使用了 Amzon FSx fo Luste,這是一種完全託管的共享存儲,構建在常用的高性能並行文件系統上。客戶通過 Amzon FSx fo Luste,可以按需大規模快速處理海量數據集,並實現亞毫秒級延遲。Amzon FSx fo Luste 的低延遲和高吞吐量特性經過優化,可在 Amzon EC2 UltCluste 上爲深度學習、生成式 AI 和高性能計算工作負載提供支持。

Amzon FSx fo Luste 可以爲 Amzon EC2 UltCluste 中的 GPU 機器學習加速器持續提供數據,從而加速最苛刻的工作負載,包括大語言模型訓練、生成式 AI 推理,以及基因組學和金融風險建模等高性能計算負載。


相关文章

  • Linux內核LTS期限將從6年縮短至2年

    在日前舉行的歐洲開源峯會上,Linux內核開發人員兼《Linux Weekly News》執行主編 Jonthn Cobet 介紹了 Linux內核的最新動態以及未來的發展方向。其中一項即將發生的重大變化是:Linux內核的長期支持 (LTS) 時間將從六年縮短至兩年。 目前 Linux社區仍然遵守...

  • Hostinger CDN測試版功能搶先看

    Hostinge CDN測試版將很快提供給使用英國、美國、新加坡、巴西和法國數據中心的商業虛擬主機及以上的客戶。Hostinge CDN是Hostinge推出的內部CDN解決方案,這一全新的測試版功能適用於商務虛擬主機及以上級別的客戶,顯著提高了網站的性能和安全性。 Hostinge CDN定製功能...

  • FastComet發佈新安全功能 用以加強賬戶安全保護

    FstComet日前發佈了與賬戶登錄相關的新安全功能,當您登錄時,系統將檢查是否識別您的IP地址。如果沒有,它會向您的電子郵件地址發送一箇驗證碼,您必須輸入該驗證碼才能FstComet的賬戶。 FstComet新的登錄安全是以驗證碼的形式出現,您在嘗試登錄您的fstcomet.com賬戶時,將收到驗...

  • 阿里雲DDoS防護(增強)EIP購買和出賬模式升級通知

    阿里雲日前宣佈將對DDoS防護(增強)EIP進行購買和出賬模式升級,發佈2.0版本。阿里雲將在2022年2月2日凌晨,計費從.0模式全部切換到2.0模式,此時DDoS防護費用的計費將通過新的商品出賬。如果您在2022年2月2日之前,未完成開通,阿里雲將轉換DDoS防護(增強)EIP到2.0商品進行計...

  • GitLab 15.4發佈 添加了機器學習功能

    GitLb 5.4發佈,該版本添加了GitLb的第一個機器學習驅動功能,包含了60多項功能改進,其中比較受關注的有建議的審閱者公開測試版、改進了VS Code中的CI/CD集成、頁面管道嚮導(Pges Pipeline Wizd)、已驗證域名繞過電子郵件驗證等等。 GitLb 5.4主要更新內容包括...

  • Vultr網站現已提供多種語言版本

    4月日起知名美國主機商Vult網站提供6種語言的版本:英語,中文,德語,日語,葡萄牙語和西班牙語,讓全球客戶羣體可以更輕鬆地訪問Vult網站上可用的工具和資源。 Vult是一家海外雲服務器商,成立於204年,雖然Vult主機商成立時間較短,但由於產品性能比較優越,因而在業內口碑還算是比較好的。美國主...

  • Amazon Transfer Family推出SFTP連接器

    Amzon Tnsfe Fmily推出安全文件傳輸協議(SFTP)連接器,這是一項完全託管的低代碼功能,可在遠程SFTP服務器和Amzon S3之間安全可靠地大規模複製文件。 使用SFTP連接器傳輸的文件存儲在Amzon S3中,這樣您就能夠使用亞馬遜雲科技雲中的分析、數據湖或AI/ML服務從數據中...

  • Hostinger法國巴黎數據中心上線 提供虛擬主機和雲主機產品

    Hostinge宣佈新的數據中心現已在法國巴黎落成,這是該商家在歐洲的第四個數據中心,提供有虛擬主機和雲主機產品可選。對於在該地區的Hostinge客戶,您現在可以切換到這個新的位置,並獲得更快的頁面加載速度。除了法國,您還可以選擇Hostinge位於英國、荷蘭和立陶宛的歐洲數據中心。 如果您網站面...

  • OpenLogic和HawkHost宣佈加入AlmaLinux OS基金會

    OpenLogic和HwkHost近日宣佈加入AlmLinux OS基金會,成爲其新的贊助商。AlmLinux OS基金會是一箇非營利組織,管理着社區擁有和開源CentOS Linux替代品AlmLinux操作系統。 AlmLinux OS是一箇開源的、由社區管理、免費的企業Linux發行版,專注於...

  • PostgreSQL 15正式版本發佈 新特性介紹

    PostgeSQL 5正式版本發佈,現已支持下載安裝使用。該版本建立在最近版本的性能改進基礎上,在管理本地和分佈式部署中的工作負載方面有顯著的改進,包括改進的排序。另外還增加了流行的MERGE命令,並添加了更多用於觀察數據庫狀態的功能。 PostgeSQL是一箇創新的數據管理系統,以其可靠性和健壯性...