상세 컨텐츠

본문 제목

MoE (Mixture of Experts)

LLM

by 공길이의 숨겨진 세상 2025. 3. 26. 15:37

본문

최근 DeepSeek이 세상에 등장하면서 큰 화두를 불러일으켰다.

 

ChatGPT4와 거의 비슷한 성능한 성능을 내면서도 구현 비용은 1/10로 줄여 더욱 light 하면서도 정밀한 LLM 모델의 등장이었다.

 

이런것이 가능하게 되는데에 가장 근본적인 개념이 바로 MoE이다.

 

먼저 MoE(Mixture of Experts)는 딥러닝에서 사용되는 아키텍처 기법이다.

 

🔎 MoE의 핵심 개념

1. 전문가 분산처리

- 기존 모델은 모든 입력에 대해 전체 네트워크를 계산하지만, MoE는 여러 개의 작은 하위 네트워크(전문가)를 두고 입력별로, 관련성 높은 전문가만 활성화합니다.

( 예 : "고양이"에 대한 질문 -> 동물 전문가가 처리 / "수학 공식"에 대한 질문 -> 수학 전문가가 처리)

 

2. 라우팅 매커니즘

* 게이트 네트워크(gate network)가 입력을 분석해 어떤 전문가를 선택할지 결정합니다.

* 일부 전문가만 활성화되므로 연산 효율성이 크게 향상됩니다.

 

3. 효율적인 자원활용

* 모델 규모는 크지만, 실제 계산은 선택된 전문가만 참여합니다. -> 동일한 연신 비용으로 더 큰 모델을 운영할수 있습니다. ☀️

 

 

🔎 DeepSeek과 MoE

* DeepSeek은 MoE를 적용해 고품질의 출력을 유지하면서도 연산 비용을 최적화합니다.

* 예: DeepSeek-MoE 모델은 잔체 파라미터 수는 많지만, 실제로는 일부만 사용해 효율적으로 추론(inference)합니다.

 

장점 단점
1. 큰 모델을 적은 비용으로 운영가능
2. 다양한 작업에 특화된 전문가 활용
3. 확장성(scalability)가 아주 뛰어남
1. 라우팅 오류 발생시 엉뚱한 전문가 등장으로 인한 성능 저하
2. 전문가 간 불균형된 학습 가능성
3. 일반 모델보다 구현 복잡도가 높음

 

 

'LLM' 카테고리의 다른 글

LangGraph  (0) 2025.03.26
MCP (Model Context Protocol)  (0) 2025.03.26

관련글 더보기