Attention Mechanism

# Attention Mechanism

Attention Mechanism은 딥러닝 모델이 입력 전체를 똑같이 보지 않고, 현재 계산에 중요한 정보에 더 큰 가중치를 두도록 만드는 방식이다. 쉽게 말해 문장 속 모든 단어를 한 번에 읽더라도, 지금 예측해야 하는 단어와 가장 관련 있는 단어에 더 집중하게 해주는 장치다. Transformer가 강력해진 이유도 바로 이 구조 덕분이다.

## 개념 정의

기존 순환 신경망은 입력을 앞에서 뒤로 순서대로 처리하는 경향이 강했다. 이 방식은 길이가 긴 문장에서 앞부분 정보가 희미해지기 쉽고, 멀리 떨어진 단어 관계를 잡는 데 한계가 있었다. Attention은 이런 문제를 완화한다. 현재 토큰이 다른 토큰들을 얼마나 참고해야 하는지를 점수로 계산하고, 그 점수를 바탕으로 필요한 정보만 더 강하게 반영한다.

| 구성 요소 | 역할 |
|-----------|------|
| Query | 지금 무엇을 찾고 있는지 나타내는 벡터 |
| Key | 각 단어가 어떤 특징을 갖는지 나타내는 기준값 |
| Value | 실제로 가져올 정보 |
| Attention Score | Query와 Key의 관련도를 수치화한 값 |

## 작동 원리

작동 과정은 생각보다 직관적이다. 먼저 현재 토큰에서 Query를 만들고, 문장 전체의 각 토큰에서 Key와 Value를 만든다. 그다음 Query와 각 Key의 유사도를 계산해 점수를 얻는다. 점수가 높을수록 현재 토큰이 그 정보를 더 많이 참고해야 한다는 뜻이다. 이 점수에 softmax를 적용하면 전체 합이 1이 되는 가중치가 되고, 마지막으로 그 가중치로 Value들을 섞으면 현재 위치에 필요한 문맥 표현이 만들어진다.

Transformer의 Self-Attention은 이 계산을 문장 내 모든 토큰에 동시에 적용한다. 그래서 병렬 처리에 유리하고, 멀리 떨어진 단어 관계도 직접 연결할 수 있다. 여기에 Multi-Head Attention이 더해지면 모델은 한 헤드에서는 문법 관계를, 다른 헤드에서는 의미 관계를 보는 식으로 여러 관점을 동시에 학습할 수 있다.

## 실용적 함의

Attention Mechanism의 실용적 의미는 분명하다. 첫째, 긴 문장이나 긴 문서에서도 어떤 단어가 핵심인지 더 잘 포착할 수 있다. 둘째, 번역·요약·질의응답처럼 문맥 이해가 중요한 작업에서 성능이 크게 좋아진다. 셋째, 텍스트뿐 아니라 이미지와 음성에서도 중요한 부분만 선택적으로 보는 구조로 확장할 수 있어 범용성이 높다.

다만 모든 문제가 해결되는 것은 아니다. 입력 길이가 길어질수록 계산량이 빠르게 늘어나기 때문에 메모리 사용량과 속도 문제가 생긴다. 그래서 실제 서비스에서는 Sparse Attention, Sliding Window, Flash Attention 같은 최적화 기법이 함께 쓰인다. 요약하면 이겁니다. Attention은 모델이 더 많이 기억하게 만드는 기술이 아니라, 무엇을 더 중요하게 볼지를 계산하게 만드는 기술이다.

> 핵심: Attention Mechanism은 입력 전체 중 현재 예측에 필요한 정보의 비중을 동적으로 조절함으로써, Transformer가 긴 문맥과 복잡한 관계를 효과적으로 처리하게 만든다.

Attention mechanism

// COMMENTS

ON THIS PAGE

Attention mechanism

// COMMENTS ↓ Newest First

ON THIS PAGE

// COMMENTS