MoE (Mixture of Experts)

LLM

by 공길이의 숨겨진 세상 2025. 3. 26. 15:37

최근 DeepSeek이 세상에 등장하면서 큰 화두를 불러일으켰다.

ChatGPT4와 거의 비슷한 성능한 성능을 내면서도 구현 비용은 1/10로 줄여 더욱 light 하면서도 정밀한 LLM 모델의 등장이었다.

이런것이 가능하게 되는데에 가장 근본적인 개념이 바로 MoE이다.

먼저 MoE(Mixture of Experts)는 딥러닝에서 사용되는 아키텍처 기법이다.

🔎 MoE의 핵심 개념

1. 전문가 분산처리

- 기존 모델은 모든 입력에 대해 전체 네트워크를 계산하지만, MoE는 여러 개의 작은 하위 네트워크(전문가)를 두고 입력별로, 관련성 높은 전문가만 활성화합니다.

( 예 : "고양이"에 대한 질문 -> 동물 전문가가 처리 / "수학 공식"에 대한 질문 -> 수학 전문가가 처리)

2. 라우팅 매커니즘

* 게이트 네트워크(gate network)가 입력을 분석해 어떤 전문가를 선택할지 결정합니다.

* 일부 전문가만 활성화되므로 연산 효율성이 크게 향상됩니다.

3. 효율적인 자원활용

* 모델 규모는 크지만, 실제 계산은 선택된 전문가만 참여합니다. -> 동일한 연신 비용으로 더 큰 모델을 운영할수 있습니다. ☀️

🔎 DeepSeek과 MoE

* DeepSeek은 MoE를 적용해 고품질의 출력을 유지하면서도 연산 비용을 최적화합니다.

* 예: DeepSeek-MoE 모델은 잔체 파라미터 수는 많지만, 실제로는 일부만 사용해 효율적으로 추론(inference)합니다.

장점	단점
1. 큰 모델을 적은 비용으로 운영가능 2. 다양한 작업에 특화된 전문가 활용 3. 확장성(scalability)가 아주 뛰어남	1. 라우팅 오류 발생시 엉뚱한 전문가 등장으로 인한 성능 저하 2. 전문가 간 불균형된 학습 가능성 3. 일반 모델보다 구현 복잡도가 높음