'FlashAttention' 태그의 글 목록

FlashAttention 완전 정리 — LLM이 긴 문서를 처리할 수 있는 진짜 이유

LLM이 긴 문서를 처리할 때 왜 느려질까요?GPT-3 컨텍스트: 2,048 토큰GPT-4 컨텍스트: 128,000 토큰Llama 3: 1,000,000 토큰2년 만에 500배 늘어났어요.이게 가능해진 핵심 기술이 FlashAttention이에요.Attention이 뭔가LLM은 텍스트를 읽을 때 모든 토큰이 다른 모든 토큰과 얼마나 관련있는지 계산해요.입력: "나는 사과를 먹었다"각 토큰이 다른 토큰과의 관계 점수 계산:"나는" ↔ "사과를": 0.3"나는" ↔ "먹었다": 0.8"사과를" ↔ "먹었다": 0.7...수식으로는 이래요.Attention(Q, K, V) = softmax(QK^T / √d_k) × VQ(Query): "지금 처리 중인 토큰"K(Key): "비교할 모든 토큰"V(Val..

LLM 2026.04.15

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

FlashAttention 1

티스토리툴바