面向大模型時(shí)代的網(wǎng)絡(luò)基礎(chǔ)設(shè)施研究:挑戰(zhàn)、階段成果與展望
摘要: 擁有千億級(jí)別參數(shù)的大語(yǔ)言模型(large language model,LLM)已為今天的人工智能和云服務(wù)帶來了巨大的技術(shù)和商業(yè)變革.然而,大模型訓(xùn)練與傳統(tǒng)的通用云計(jì)算(例如,亞馬遜EC2彈性計(jì)算服務(wù))之間存在較多根本性的網(wǎng)絡(luò)行為差異,從而帶來了很多新的挑戰(zhàn),主要包括流量模式差異造成負(fù)載難均衡(挑戰(zhàn)1)、多訓(xùn)練任務(wù)通信競(jìng)爭(zhēng)影響GPU利用率(挑戰(zhàn)2),以及對(duì)網(wǎng)絡(luò)故障的高敏感性(挑... (共14頁(yè))
開通會(huì)員,享受整站包年服務(wù)