본문 바로가기

LLM

(51)

Qwen3.6-27B로 로컬 코딩 에이전트 만들기 — Aider, Continue.dev, Cursor, Qwen Code 완전 연동 가이드 API 비용 0원, 코드 외부 전송 없음. RTX 4090 한 장으로 프론티어급 코딩 에이전트를 로컬에서 돌립니다.[핵심 요약]→ 이번 글에서 다루는 것:→ 1단계: vLLM로 로컬 서버 띄우기→ 2단계: Aider 연동 — CLI 코딩 에이전트→ 3단계: Continue.dev 연동 — VS Code 인라인 어시스턴트→ 4단계: Cursor 연동 — 에이전트 모드→ 5단계: Qwen Code 연동 — Claude Code 대안→ CUDA 13.2 버그, Thinking 모드, Ollama 미지원 주의사항 포함 왜 로컬인가클라우드 API 방식:→ Claude Opus 4.7: 입력 $5, 출력 $25 / 1M tokens→ GPT-5.5: 입력 $5, 출력 $30 / 1M tokens→ 코드가 외부 서버..

Qwen3.6-27B vs 35B-A3B — Dense vs MoE 같은 Qwen3.6 패밀리인데 아키텍처가 완전히 다릅니다. 뭘 골라야 할지 헷갈리는 분들을 위해 정리했습니다.[핵심 요약]→ 27B: Dense 모델 — 모든 파라미터 항상 활성, 성능 우선→ 35B-A3B: MoE 모델 — 3B만 활성, 속도 우선→ 벤치마크: 27B가 전 항목에서 앞섬→ 속도: 35B-A3B가 3~5배 빠름 (같은 하드웨어 기준)→ VRAM: 27B ~16.8GB vs 35B-A3B ~21GB (Q4 기준)→ 결론: 코딩 에이전트 → 27B / 빠른 인터랙티브 → 35B-A3BDense vs MoE — 뭐가 다른가같은 Qwen3.6 패밀리지만 내부 구조가 근본적으로 다릅니다.Dense (27B):→ 27B 파라미터 전부 항상 활성→ 모든 토큰에 27B 파라미터가 계산에 참여→ 토큰당 ..

Qwen3.6-27B 완전 분석 — 27B 모델이 397B MoE 능가 RTX 4090 하나로 프론티어급 코딩 에이전트를 돌릴 수 있는 시대가 왔습니다.[핵심 요약]→ 출시: 2026년 4월 22일, Alibaba Qwen Team→ 라이센스: Apache 2.0 (상업 사용 가능)→ 파라미터: 27B dense (이전 플래그십 Qwen3.5-397B 대비 1/14 크기)→ VRAM: Q4_K_M 기준 ~16.8GB — RTX 4090 한 장으로 구동→ SWE-bench Verified 77.2% — Claude Opus 4.6 (80.8%)과 3.6점 차→ Terminal-Bench 2.0 59.3% — Claude 4.5 Opus와 동점→ SkillsBench 48.2% — 397B MoE (30.0%) 대비 60% 향상→ 주의: CUDA 13.2 버그 있음, CUDA ..

GPT-5.5 비싸다 — GPT-5.4 대비 2배 출력 토큰 가격이 2배 올랐습니다. 에이전트 돌리는 개발자라면 이번 달 청구서가 달라집니다.[핵심 요약]→ GPT-5.5 가격: 입력 $5/1M, 출력 $30/1M→ GPT-5.4 대비: 입력 2배, 출력 2배 인상→ Claude Opus 4.7 대비: 입력 동일, 출력 20% 비쌈→ 함정: Claude Opus 4.7 새 토크나이저로 실질 비용 20~35% 추가→ 결론: 워크로드별로 모델 라우팅 전략이 필수얼마나 올랐나GPT-5.4가 나온 지 6주 만에 GPT-5.5가 나왔습니다. 성능은 올랐는데 가격도 같이 올랐습니다.GPT-5.4 (6주 전):→ 입력: $2.50 / 1M tokens→ 출력: $15.00 / 1M tokens→ 272K 이상 컨텍스트: 입력 $5.00으로 2배 (함정)GPT-5.5..

GPT-5.5 출시 완전 분석 — Claude Opus 4.7에 일주일 만에 날린 OpenAI의 반격 6주 만에 새 모델이 나왔습니다. AI 코딩 툴 전쟁, 이제 속도전입니다.[핵심 요약]→ GPT-5.5: 2026년 4월 23일 출시, GPT-5.4 이후 6주 만→ 핵심: 에이전트 코딩 특화, 다단계 작업 자율 처리→ 포지셔닝: Claude Opus 4.7 출시 일주일 만에 나온 직접 맞불→ 배포: Plus, Pro, Business, Enterprise 우선 / Free 미정→ 동반 출시: Privacy Filter (개인정보 자동 마스킹)→ OpenAI 현황: 주간 활성 사용자 9억 명, 유료 구독자 5,000만 명GPT-5.5가 나온 배경OpenAI가 4월 23일(현지시간) GPT-5.5를 공식 출시했습니다. GPT-5.4 출시 이후 불과 6주 만입니다. 업계에서는 이 속도 자체가 메시지라는 평가..

OpenRouter 완전 가이드 — API 키 하나로 GPT, Claude, Gemini, Llama 200개+ 모델 전부 쓰기 모델마다 API 키 따로 관리하는 거 지쳐있죠.Anthropic API 키 따로OpenAI API 키 따로Google API 키 따로각각 다른 SDK각각 다른 요금 청구서OpenRouter가 이걸 하나로 합쳐줘요.OpenRouter API 키 하나→ 200개+ 모델 전부→ OpenAI SDK 그대로 사용→ 모델명만 바꾸면 끝1단계 — 가입 및 API 키 발급1. openrouter.ai 접속2. 우상단 "Sign In" → Google 또는 GitHub 로그인3. 좌측 메뉴 "Keys" 클릭4. "Create Key" 버튼5. 이름 입력 (예: my-project) → Create6. API 키 복사 (sk-or-v1-xxxxx 형태) → 한 번만 보여줌. 반드시 저장크레딧 충전:좌측 메뉴 "Cred..

Gemma 4 파인튜닝 Unsloth로 30분에 끝내기 — API 비용 0원, 도메인 특화 모델 GPT-4급 성능을 API 비용 없이. 내 도메인 데이터로 특화된 모델을.Gemma 4는 2026년 4월 2일 Google DeepMind가 출시한 오픈소스 모델이에요. Apache 2.0 라이선스 — 상업적 사용, 재배포, 수정 모두 자유예요.파인튜닝이 필요한 이유:프롬프트 엔지니어링: "항상 JSON으로 응답해줘" → 30% 실패율RAG: 지식 주입엔 좋지만 스타일/형식 제어 어려움파인튜닝: 99% 이상 일관된 출력, 도메인 특화 지식언제 파인튜닝이 답인가:→ 출력 형식이 항상 일정해야 할 때→ 특정 도메인 용어/스타일이 필요할 때→ 프롬프트가 너무 길어서 비용 문제가 될 때→ API 없이 로컬/온프레미스 배포가 필요할 때Unsloth가 뭔가HuggingFace 기본 방식 대비:속도: 2배 빠른 ..

LLM 사설 평가셋 50개 만들고 모델 비교하기 — 벤치마크를 믿지 마세요 48시간마다 새 모델이 나와요. 모두 "SWE-bench 1위", "GPQA 최고점"을 주장해요.근데 그게 내 서비스에서도 최고일까요.공개 벤치마크의 현실:MMLU: 상위 모델 88% 이상 → 이미 포화SWE-bench: 에이전트 코딩 특화 → 일반 서비스와 무관GPQA: 박사급 과학 문제 → 실제 업무와 거리 멀어데이터 오염 문제:- 훈련 데이터에 이미 벤치마크 문제가 포함됨- GSM8K 점수 vs GSM1K(새 문제) 점수 차이: 최대 16%p- 모델이 실제로 못 풀어도 고점 가능진짜 답은 내 서비스에 맞는 사설 평가셋을 직접 만드는 것이에요.50개면 충분히 시작할 수 있어요. 오늘 만들어봅시다.왜 50개인가너무 적으면 (10개 미만):→ 통계적으로 의미 없음→ 우연에 의한 결과 가능너무 많으면 (5..

이전 1 2 3 4 5 ··· 7 다음

티스토리툴바