
MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
MEMTRACK์ ๋์ ๋ฉํฐํ๋ซํผ ํ๊ฒฝ์์ LLM์ ์ฅ๊ธฐ ๊ธฐ์ต ๋ฐ ์ํ ์ถ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ๋ก, Slack, Linear, Git ๋ฑ์ ์ค์ ์กฐ์ง ์ํฌํ๋ก์ฐ๋ฅผ ๋ชจ๋ธ๋งํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ ์ ํ์ฑ, ํจ์จ์ฑ, ์ค๋ณต์ฑ๊ณผ ๊ฐ์ ์๋ก์ด ํ๊ฐ ์งํ๋ฅผ ๋์ ํ๊ณ , ์ ๋ฌธ๊ฐ ๋ฐ ์์ด์ ํธ ๊ธฐ๋ฐ์ ํ์ด๋ธ๋ฆฌ๋ ๋ฐ์ดํฐ ํ๋ ์ด์ ๋ฐฉ๋ฒ๋ก ์ ํ์ฉํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, GPT-5๋ ์ฝ 60%์ ๋ฎ์ ์ ํ์ฑ์ ๋ณด์๊ณ , ์ถ๊ฐ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์ฑ ์์๋ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ์ง ๋ชปํ์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ LLM์ ๋ฉ๋ชจ๋ฆฌ ํ์ฉ ๋ฐ ๊ต์ฐจ ํ๋ซํผ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ๋๋ฌ๋ด๋ฉฐ, ํฅํ ์ฐ๊ตฌ๋ฅผ ์ํ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.