---
view: category
filter: 논문리뷰
count: 18
---
#논문리뷰
// 18 entries in this category.
[논문 AI 리뷰] Few-shot Compositional Font Generation with Dual Memory
summary:
2026-01-20
→[논문 AI 리뷰] 멀티모달 지식 구축을 위한 심층 개념 계층 모델과 그래프 몬테카를로 알고리즘의 혁신
이 논문은 만화 영상 스트림에서 시각‑언어 개념을 점진적으로 학습하는 심층 개념 계층(DCH) 모델과, 하이퍼그래프 공간에서 최적 구조를 탐색하는 그래프 몬테카를로 알고리즘을 제안한다. 개념 변화에 대응하는 베이지안 증분 학습 메커니즘과 UGMC/PRGMC/FGMC 세 가지 탐색 전략을 도입해, 183편의 교육용 만화 ‘뽀로로’ 실험에서 개념 진화와 맥락 기반 시각‑언어 변환 성능을 입증한다. 다만 데이터가 단일 도메인에 국한되고, 평가 지표와 계산 복잡도 분석이 부족해 실세계 확장성과 실용성 검증이 필요하다.
2025-12-31
→[논문 AI 리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
Nemotron 3 Nano는 MoE 기반 하이브리드 Mamba‑Transformer 아키텍처와 다환경 RLVR 학습을 결합해 3.2 B 활성 파라미터로 31.6 B 규모 모델 성능을 달성하고 추론 처리량을 3.3배 향상시킨 효율적인 에이전트 추론 모델이며, 선택적 FP8 양자화와 1 M 토큰 컨텍스트 지원을 제공하고 전체 코드·모델·데이터를 오픈소스로 공개한다.
2025-12-18
→[논문 AI 리뷰] NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA Nemotron 3는 LatentMoE와 NVFP4 양자화 훈련, Mamba‑Transformer‑MoE 하이브리드 구조, 다환경 강화학습 등으로 토큰 라우팅 비용을 크게 낮추고 1 M 토큰까지의 긴 컨텍스트에서 3.3배 빠른 처리량과 높은 정확도를 달성하며, Nano 모델을 오픈소스로 공개해 연구·실무에 즉시 활용 가능하도록 한 효율적이고 개방형 대형 언어 모델이다.
2025-12-18
→[논문 AI 리뷰] MUON IS SCALABLE FOR LLM TRAINING TECHNICAL REPORT
Muon 최적화 알고리즘을 대규모 LLM 학습에 확장하여 AdamW 대비 약 2배의 계산 효율성을 달성하고, 메모리 사용량을 50% 절감한 분산 구현체와 5.7T 토큰으로 학습한 3B/16B MoE 모델 'Moonlight'를 공개함으로써 LLM 학습 비용 절감과 성능 향상을 실증하고, 관련 코드와 체크포인트를 오픈소스로 제공한다.
2025-12-04
→[논문 AI 리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery
새로운 파라메트릭 메쉬 표현인 MHR과 VLM 기반 대규모 데이터 엔진을 결합해 단일 이미지에서 전신 3D 메쉬를 복원하는 SAM 3D Body를 제안하고, 프롬프트 가능한 인코더‑디코더 아키텍처와 손·몸체 분리 디코더를 통해 사용자 가이드를 지원한다. 3DPW, EMDB 등 기존 벤치마크와 5개 신규 도메인에서 기존 최첨단 모델을 모두 능가하며, 7,800명 대상 사용자 선호도 조사에서 최강 기준 대비 83.8% 승리율을 기록했다. 다만 추론 비용이 높고 외부 카메라 파라미터 의존성, 얼굴·세밀한 손가락 표현 제한, 극단적 가림 상황에서 성능 저하 등 제한점이 존재한다.
2025-11-30
→[논문 AI 리뷰] SAM 3: SEGMENT ANYTHING WITH CONCEPTS
SAM 3은 짧은 명사구나 이미지 예시만으로 이미지와 비디오 전반에 걸쳐 특정 개념에 해당하는 모든 객체를 검출·분할·추적하는 새로운 Promptable Concept Segmentation 작업을 정의하고, 4 백만 개념·5 천2백만 마스크를 포함한 대규모 SA‑Co 데이터셋과 presence 토큰을 도입한 혁신적 아키텍처를 제안해 기존 대비 2배 이상 성능 향상을 달성했으며, LVIS와 SA‑Co 등 주요 벤치마크에서 새로운 SOTA를 기록했다. 다만 복잡한 언어 표현 처리와 비디오 객체 수 증가에 따른 실시간 처리 한계가 남아 있어 추가 연구가 필요하다.
2025-11-15
→[논문 AI 리뷰] Hierarchical Reasoning Model
HRM은 인간 뇌의 계층적·다시간척 처리를 모방한 재귀 아키텍처로, 고수준 계획 모듈과 저수준 실행 모듈을 결합해 조기 수렴을 방지하고 유효 계산 깊이를 극대화하며, BPTT 없이 1단계 기울기 근사와 Q‑러닝 기반 ACT로 메모리와 연산을 효율화한다. 27 M 파라미터와 1 000개 샘플만으로 ARC‑AGI(40.3 %), Sudoku(74.5 %), Maze(74.5 %)에서 기존 대형 모델을 크게 능가해 소규모 데이터와 연산 자원으로도 강력한 심층 추론이 가능함을 보여준다. 그러나 자연어와 같은 개방형 작업에 대한 일반화와 모델 규모 확장성, 내부 메커니즘에 대한 인과 검증은 아직 미비하다.
2025-11-14
→[논문 AI 리뷰] Efficient Deep Learning with Decorrelated Backpropagation
이 논문은 레이어별 입력 비상관화를 학습 과정에 통합한 Decorrelated Backpropagation(DBP) 알고리즘을 제안하여 ImageNet 기반 ResNet 및 AlexNet에서 wall‑clock time을 최대 50% 단축하고 정확도를 동시에 향상시켰으며, 패치별 비상관화, 샘플링, 행렬 사전 곱셈 등 실용적 최적화를 통해 메모리와 계산 오버헤드를 최소화하고 탄소 배출을 크게 감소시킨다.
2025-11-12
→[논문 AI 리뷰] Scaling Embedding Layers in Language Models
SCONE은 훈련 시 별도 f‑gram 모델로 n‑gram 임베딩을 학습하고, 추론 시 이를 CPU RAM이나 NVMe에 캐시해 조회함으로써 GPU/TPU 사용량을 고정하면서도 모델 성능을 확장하는 새로운 임베딩 기법이다. 1B 파라미터 모델이 1.9B 베이스라인을 능가하면서도 추론 FLOPS와 GPU 메모리를 약 48% 절감하는 등 효율성을 크게 향상시켰으며, 다양한 코퍼스와 다운스트림 태스크에서 실험적으로 검증되었다. 다만 대규모(10B 이상) 모델에 대한 검증 부족, 훈련 단계의 추가 계산 비용 및 정적 임베딩으로 인한 동적 적응 제한 등 몇 가지 한계가 존재한다.
2025-11-12
→[논문 AI 리뷰] mmHSense: Multi-Modal and Distributed mmWave ISAC Datasets for Human Sensing
mmHSense는 6개의 멀티모달 mmWave ISAC 데이터셋을 제공하며, COTS Wi‑Fi와 SDR을 이용한 1대‑4대 분산 수신 구조와 5G NR OFDM 신호를 포함한다. 데이터는 beam SNR, PPBP, CSI 등 다양한 특징을 제공하고, ResNet18 등으로 제스처 인식에서 97.75% 정확도, 자세 추정에서 6.2 cm MPJPE를 달성한다. LoRA 기반 파라미터 효율적 미세 조정으로 재난적 망각을 방지하면서 파라미터를 640배 감소시켜 엣지 학습이 가능하다. 제한된 사용자 수와 도메인 적응 성능 저하가 남아 있어 향후 연구가 필요하지만, 6G ISAC 및 멀티모달 센싱 분야에 중요한 기반 자료로 적극 추천된다.
2025-11-12
→[논문 AI 리뷰] RETHINKING INFERENCE PLACEMENT FOR DEEP LEARNING ACROSS EDGE AND CLOUD PLATFORMS: A MULTI-OBJECTIVE OPTIMIZATION PERSPECTIVE AND FUTURE DIRECTIONS
엣지와 클라우드 환경에서 딥러닝 추론 배치를 지연, 비용, 프라이버시를 동시에 고려한 다목적 최적화 프레임워크로 재정의하고, 내부 분류기, 압축, 양자화 등 기존 기법을 통합해 LLM 시대의 새로운 보안 위협과 비용 구조를 분석한다. 하이브리드 IaaS/FaaS 전략과 조기 종료 모델을 통해 지연을 55% 개선하고 비용 절감 효과를 보이며, 프라이버시-정확도 트레이드오프를 최소화한다. 그러나 대규모 실증 검증이 부족하고 LLM 프라이버시 보호가 비실용적이며, 실제 구현 가이드가 미흡해 추가 연구와 강화학습 기반 오케스트레이션이 필요하다.
2025-11-11
→[논문 AI 리뷰] Mercury: Ultra-Fast Language Models Based on Diffusion
확산 기반 대형 언어 모델인 Mercury Coder는 Transformer 구조에 확산 과정을 결합해 토큰을 병렬 생성함으로써 코딩 작업에서 기존 자기회귀 모델 대비 8‑10배 빠른 처리량(최대 1109 tokens/sec)과 동일한 품질을 달성했으며, OpenAI API와 호환되는 실용적인 대체 솔루션으로 실제 개발 환경에서도 높은 Elo 점수와 최소 25 ms 지연시간을 기록한다.
2025-11-11
→[논문 AI 리뷰] KIMI K2: OPEN AGENTIC INTELLIGENCE
KIMI K2는 1조 파라미터 MoE 모델에 MuonClip 옵티마이저와 대규모 합성 도구 데이터를 결합해 토큰 스파이크 없이 15.5조 토큰을 학습하고, SWE‑bench, ACEBench, LiveCodeBench 등 다양한 에이전트·코딩·추론 벤치마크에서 오픈소스 최고 성능을 달성했으며, 과도한 토큰 생성과 비도구 작업에서의 성능 저하 같은 실용적 한계가 남아 있어 향후 토큰 효율성 및 도구 사용 판단 메커니즘 연구가 필요하다.
2025-11-11
→[논문 AI 리뷰] Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
Mem0는 LLM의 고정 컨텍스트 제한을 극복하기 위해 증분식 기억 추출‑업데이트 파이프라인과 선택적 그래프 확장(Mem0_g)을 도입한 장기 기억 아키텍처로, LOCOMO 벤치마크에서 단일·다중 홉 및 시간적 추론에서 최고 성능을 달성하고 전체 컨텍스트 대비 91% 지연시간 및 90% 이상 토큰 사용을 크게 감소시켜 프로덕션 AI 에이전트에 실용적 효율성을 제공한다.
2025-11-11
→The Forward-Forward Algorithm 정리
Forward-Forward 알고리즘은 레이블이 있는 positive와 negative 샘플을 두 번의 순전파만으로 가중치를 업데이트하며, 각 층이 자체적인 goodness를 최적화하도록 설계된다. 이를 통해 레이어별 독립적인 학습, 정규화 기법, RNN 형태의 상하층 상호작용 등 다양한 변형과 실험을 수행했으며, MNIST와 CIFAR‑10에서 역전파 대비 약간 낮은 정확도이지만 비슷한 성능을 보이고, 학습 속도와 수렴 면에서 차이가 있음을 확인했다.
2025-09-26
→음성 합성의 혁신: WaveNet을 통한 원시 오디오 생성의 새로운 패러다임
WaveNet은 DeepMind가 개발한 딥러닝 기반 음성 합성 모델로, 원시 오디오 파형을 샘플 단위로 생성하여 기존 TTS 시스템보다 자연스러운 음성을 제공합니다. 자기회귀 모델과 Dilated Causal Convolution을 사용하여 장기 의존성을 효과적으로 처리하며, 조건부 생성을 통해 다양한 화자의 음성을 생성할 수 있습니다. 실험 결과, WaveNet은 MOS 테스트에서 기존 시스템을 크게 초월하는 성능을 보여주었으며, 음악 생성에도 적용 가능합니다. 그러나 느린 생성 속도와 높은 계산 비용이 한계로 지적됩니다.
2024-10-18
→PixelRNN & PixelCNN
PixelRNN과 PixelCNN은 autoregressive 방식으로 픽셀을 순차 예측해 이미지를 생성하는 모델이며, PixelRNN은 LSTM 기반으로 높은 성능을 제공하지만 학습이 느리고, PixelCNN은 마스크된 컨볼루션으로 병렬 학습이 가능하지만 오른쪽 위 블라인드 스팟 문제가 있다. 이를 해결하기 위해 Vertical/Horizontal 스택과 게이트 활성화를 도입한 Gated PixelCNN이 제안되어 블라인드 스팟을 제거하고 학습 속도는 유지하면서 성능을 향상시킨다.
2024-10-17
→