"LLM 추론의 벽 — 프롬프트로는 못 넘는다, Energy-Based Model이 대안인가"

# LLM 추론의 벽 — 프롬프트로는 못 넘는다, Energy-Based Model이 대안인가

r/MachineLearning에 이런 글이 올라왔다.

> "우리 테크 리드는 프로덕션 LLM이 기본적인 다단계 논리 작업에서 실패할 때마다 '그냥 시스템 프롬프트를 개선해보자'고 한다. Milken Conference 패널에서 결정적 AI(Deterministic AI) vs 확률적 AI 토론을 보면서 깨달았다 — 우리는 점점 더 비싼 딕셔너리를 쌓고 있을 뿐이다."

83 upvote, 87% 동의. 그냥 AI 회의론이 아니다. 현장 엔지니어의 정직한 고백이다.

## 왜 프롬프트 엔지니어링은 추론의 한계를 못 넘는가

현재 LLM 아키텍처(Transformer 기반)의 추론 구조를 이해하면 이건 당연한 결론이다.

Transformer는 다음-토큰 예측(next-token prediction)으로 학습된다. 그 본질은 **통계적 패턴 매핑**이다. "입력 X가 주어지면 Y가 나올 확률"을 계산한다.

다단계 논리(multi-step reasoning)가 필요한 문제는 다르다:

```
A → B이고, B → C이면 A → C인가?
```

인간은 이 추론을 **규칙 적용**으로 처리한다. Transformer는 이 패턴이 훈련 데이터에 충분히 등장했을 때만 맞힌다. 패턴이 없으면 환각(hallucination)이 나온다.

Chain-of-Thought(CoT) 프롬프팅, RAG, Tree-of-Thoughts — 이 모든 기법은 결국 **더 많은 토큰을 생성해서 패턴 매칭 기회를 늘리는 것**이다. 근본적인 추론 구조를 바꾸지 않는다.

## Energy-Based Models는 무엇이 다른가

EBM(Energy-Based Model)은 결과물에 **에너지 점수(energy score)**를 부여하는 방식으로 작동한다. 낮은 에너지 = 올바른 상태.

핵심 차이:
- Transformer: "다음 토큰의 확률 분포를 계산" → **생성(generative) 방식**
- EBM: "이 출력이 올바른가를 에너지로 평가" → **검증(discriminative) 방식**

추론 문제에서 EBM은 가능한 답 후보들을 에너지 공간에서 **최적화 탐색**할 수 있다. 규칙 기반 제약(constraint)을 에너지 항으로 추가할 수 있다.

```python
# Transformer 방식 (단순화)
output = model.generate(prompt)  # 확률적 샘플링

# EBM 방식 (개념적)
candidates = generate_candidates(problem)
energies = [energy_fn(c, constraints) for c in candidates]
output = candidates[argmin(energies)]  # 에너지 최소화
```

## 현실적 도입 장벽

EBM이 만능 대안인 것처럼 포장하지 않겠다.

**1. 학습 복잡도**: EBM의 에너지 함수 학습은 MLE(Maximum Likelihood Estimation)를 바로 쓸 수 없다. Contrastive Divergence 등 근사 학습 기법이 필요하며 안정적이지 않다.

**2. 추론 속도**: 에너지 최소화는 반복적 샘플링(MCMC 등)이 필요하다. Transformer의 단방향 forward pass보다 훨씬 느리다.

**3. 스케일링 미검증**: GPT-4 수준의 스케일로 EBM이 작동하는 사례가 아직 없다. 이론적 가능성과 실용적 구현은 다른 이야기다.

## 실용적 시사점

지금 당장 프로덕션에서 EBM으로 전환하는 건 비현실적이다. 그러나 다음 두 가지는 오늘 적용 가능하다.

**1. 논리 검증 레이어 분리**: LLM이 답을 생성하면, 별도의 결정론적 검증 모듈이 해당 답의 논리적 일관성을 확인한다. 추론은 LLM, 검증은 규칙 엔진.

**2. Neurosymbolic 접근**: LLM과 기호 추론 엔진(symbolic reasoner)을 결합. LLM은 자연어 파싱과 답안 생성, 기호 엔진은 논리적 일관성 보장.

---

프롬프트 엔지니어링이 무용하다는 이야기가 아니다. 다만 "프롬프트로 추론 한계를 극복하겠다"는 접근은 기술 부채를 쌓는 것과 같다. 아키텍처 수준에서 문제를 직시해야 한다.

r/ML 엔지니어의 말처럼 — 점점 더 비싼 딕셔너리를 쌓는 건 그만해야 할 때다.

"LLM 추론의 벽 — 프롬프트로는 못 넘는다, Energy-Based Model이 대안인가"

// COMMENTS

ON THIS PAGE