[๋ ผ๋ฌธ AI ๋ฆฌ๋ทฐ] MUON IS SCALABLE FOR LLM TRAINING TECHNICAL REPORT
Muon ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋๊ท๋ชจ LLM ํ์ต์์ AdamW ๋๋น ์ฝ 2๋ฐฐ์ ๊ณ์ฐ ํจ์จ์ฑ์ ๋ฌ์ฑํ๋ฉฐ, ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ๋ ๋ถ์ฐ ๊ตฌํ์ฒด์ ํจ๊ป 5.7T ํ ํฐ ํ์ตํ MoE ๋ชจ๋ธ 'Moonlight'์ ์ฐ์ํ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค. ์ฃผ์ ๊ธฐ์ฌ๋ก๋ ์์ ์ ํ์ต์ ์ํ ๋ ๊ฐ์ง ํต์ฌ ๊ธฐ์ ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ ๊ฐํ ๋ถ์ฐ ์๊ณ ๋ฆฌ์ฆ์ด ํฌํจ๋๋ฉฐ, ์คํ์์ค ์์๋ ๊ณต๊ฐ๋์ด ํฅํ ์ฐ๊ตฌ๋ฅผ ์ง์ํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋นํ๋ ฌ ํ๋ผ๋ฏธํฐ ์ฒ๋ฆฌ์ ์ฌ์ ํ์ต-๋ฏธ์ธ์กฐ์ ๋ถ์ผ์น ๋ฌธ์ ๋ ์ฌ์ ํ ํด๊ฒฐ์ด ํ์ํฉ๋๋ค.