職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
一、崗位職責
1.算力集群建設與運維
o監控算力集群的性能指標,如 CPU 利用率、內存使用率、網絡帶寬等。
o根據業務需求和性能數據,對集群進行優化和調整。
o通過調整系統參數、優化算法等方式,提高集群的計算效率和響應速度。
o參與 GPU 集群的日常管理、運維,協助制定相關產品方案和技術路線,確保產品能夠支持高并發和高性能計算需求。
2.資源管理與分配
o合理規劃和分配算力資源,確保各業務部門的需求得到滿足。
o對資源使用情況進行監控和統計,提出資源優化建議。
o根據不同項目的優先級和資源需求,動態分配計算資源,提高資源利用率。
3.安全管理
o確保算力集群的系統安全,包括設置訪問權限、安裝防火墻、防范病毒和惡意攻擊等。
o定期進行安全漏洞掃描和修復,保障數據的安全和隱私。
4.技術研究與創新
o關注行業***動態,研究和引入新的算力集群技術和平臺。
o參與公司內部的技術交流和分享,提升團隊整體技術水平。
o協助進行 GPU 集群的總體規劃與建設,提供 AI 服務器、網絡技術支持。
二、任職要求
1.教育背景
o計算機科學、電子工程、信息技術等相關專業本科及以上學歷。
2.工作經驗
o具有1年以上算力集群管理和維護經驗。
o有大型數據中心或云計算環境工作經驗者優先。
3.技術技能
o熟悉 Linux 平臺,掌握Shell/Python、Docker,了解 IB、RoCE 網絡,有 NVIDIA 等 GPU 集群部署、調度、管理、優化經驗者優先。
o實施過 GPU/DPU 集群的網絡規劃、大規模部署、性能調優和整體交付,熟悉 IB 組網,有組織裸機和虛機等方式的 GPU 資源和服務經驗者優先。
o熟悉英偉達 AI 套件(含 CUDA、NCCL、Tools 及各種調優、部署工具)。
o熟悉主流監控軟件zabbix/Prometheus。
4.能力素質
o具備較強的問題解決能力和故障排查能力,能夠快速定位和解決復雜問題。
o具有良好的團隊合作精神和溝通能力,能夠與不同部門協作。
o有較強的學習能力和創新精神,能夠適應快速變化的技術環境。
1.算力集群建設與運維
o監控算力集群的性能指標,如 CPU 利用率、內存使用率、網絡帶寬等。
o根據業務需求和性能數據,對集群進行優化和調整。
o通過調整系統參數、優化算法等方式,提高集群的計算效率和響應速度。
o參與 GPU 集群的日常管理、運維,協助制定相關產品方案和技術路線,確保產品能夠支持高并發和高性能計算需求。
2.資源管理與分配
o合理規劃和分配算力資源,確保各業務部門的需求得到滿足。
o對資源使用情況進行監控和統計,提出資源優化建議。
o根據不同項目的優先級和資源需求,動態分配計算資源,提高資源利用率。
3.安全管理
o確保算力集群的系統安全,包括設置訪問權限、安裝防火墻、防范病毒和惡意攻擊等。
o定期進行安全漏洞掃描和修復,保障數據的安全和隱私。
4.技術研究與創新
o關注行業***動態,研究和引入新的算力集群技術和平臺。
o參與公司內部的技術交流和分享,提升團隊整體技術水平。
o協助進行 GPU 集群的總體規劃與建設,提供 AI 服務器、網絡技術支持。
二、任職要求
1.教育背景
o計算機科學、電子工程、信息技術等相關專業本科及以上學歷。
2.工作經驗
o具有1年以上算力集群管理和維護經驗。
o有大型數據中心或云計算環境工作經驗者優先。
3.技術技能
o熟悉 Linux 平臺,掌握Shell/Python、Docker,了解 IB、RoCE 網絡,有 NVIDIA 等 GPU 集群部署、調度、管理、優化經驗者優先。
o實施過 GPU/DPU 集群的網絡規劃、大規模部署、性能調優和整體交付,熟悉 IB 組網,有組織裸機和虛機等方式的 GPU 資源和服務經驗者優先。
o熟悉英偉達 AI 套件(含 CUDA、NCCL、Tools 及各種調優、部署工具)。
o熟悉主流監控軟件zabbix/Prometheus。
4.能力素質
o具備較強的問題解決能力和故障排查能力,能夠快速定位和解決復雜問題。
o具有良好的團隊合作精神和溝通能力,能夠與不同部門協作。
o有較強的學習能力和創新精神,能夠適應快速變化的技術環境。
工作地點
地址:南充蓬安縣太和橋
查看地圖


職位發布者
孟大衛HR
北京光環新網科技股份有限公司

-
互聯網·電子商務
-
500-999人
-
國內上市公司
-
東城區東中街9號東環廣場A座二層