職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
崗位職責
1.負責公司高性能計算( HPC )環(huán)境中 IB 、 RoCE 網(wǎng)絡的規(guī)劃、部署、優(yōu)化和管理,以及 GPU / DPU 集群的搭建、調度、優(yōu)化和整體交付。確保計算資源的高效利用,支持業(yè)務快速發(fā)展和技術創(chuàng)新。
2.負責 GPU / DPU 集群的網(wǎng)絡規(guī)劃,包括 IB 、 RoCE 等高速網(wǎng)絡的選型、設計和實施。
3.負責 GPU / DPU 集群的部署、調度、管理和優(yōu)化,確保集群的高性能穩(wěn)定運行。
4.分析和解決集群中的性能瓶頸問題,對硬件、軟件和算法進行優(yōu)化。
5.參與或負責新技術、新方案的調研、測試和實施,提升集群的整體性能。
6.編寫相關技術文檔,包括網(wǎng)絡規(guī)劃、部署方案、性能調優(yōu)報告等。
7.與其他部門緊密合作,確保業(yè)務需求得到滿足,提供技術支持和解決方案。
職位要求
1.計算機科學、數(shù)學、物理等相關專業(yè)本科及以上學歷,3年以上相關領域工作經(jīng)驗。
2.熟悉 IB 、 RoCE 網(wǎng)絡,具有 NVIDIA 等 GPU 集群部署、調度、管理、優(yōu)化經(jīng)驗,對高性能計算和數(shù)據(jù)中心網(wǎng)絡有深入理解。
3.滿足以下至少1條開發(fā)經(jīng)驗要求:
--- RDMA 協(xié)議的應用優(yōu)化及擁塞控制算法優(yōu)化工作經(jīng)驗,熟悉 IB 網(wǎng)絡/ RoCE 。
--- GPU 卡集群部署的性能優(yōu)化工作經(jīng)驗,了解 GPU 互聯(lián),熟悉 NVLINK 、 NVSWITCH 。
--- GPU 虛擬化,至少熟悉 vCUDA 、 cGPU 、 qCUDA 、rCUDA 等一種虛擬化方案。
--- CUDA 和 NCCL 的優(yōu)化工作,熟悉 CUDA 算子庫、runtime 、 driver 庫相關 API 。
4.具有扎實的計算機網(wǎng)絡基礎,熟悉 TCP / IP 協(xié)議棧、路由交換技術、負載均衡等。
5.具備良好的分析問題和解決問題的能力,對解決具有挑戰(zhàn)性問題充滿激情。
6.優(yōu)秀的團隊合作精神和溝通能力,能夠跨部門協(xié)作,推動項目進展。
7.具有思科 CCIE 和華為 HCIE 等網(wǎng)絡認證證書者優(yōu)先錄用。
工作地點
地址:武漢江漢區(qū)武漢-江漢區(qū)武漢市江漢區(qū)新華路186號福星國際商貿(mào)大廈4樓


職位發(fā)布者
HR
福星惠譽控股有限公司

-
房地產(chǎn)開發(fā)·建筑與工程
-
500-999人
-
私營·民營企業(yè)
-
福星國際商會大廈