반응형

2026/06/05 12

ChatGPT 메모리 시스템 업데이트 — 개발자가 알아야 할 변화와 API 대응법

ChatGPT가 기억하는 방식이 바뀌었습니다. 사용자 경험은 달라지지만, API는 여전히 무상태입니다. 개발자 관점에서 정리합니다.✅ 핵심 요약→ 2026년 5월~6월, OpenAI가 ChatGPT Plus·Pro 사용자에게 강화된 메모리 시스템을 순차 출시했습니다 → 핵심 엔진은 Dreaming — 백그라운드에서 과거 대화를 합성해 컨텍스트를 자동 갱신합니다 → Memory Sources 기능 추가 — 응답 아래 아이콘을 탭하면 어떤 기억이 응답에 반영됐는지 확인·수정 가능 → 과거 대화, 저장된 메모리, 업로드 파일, Gmail 컨텍스트까지 통합 참조 → API에는 메모리 없음 — 여전히 API 호출은 완전 무상태, 개발자가 직접 관리해야 함 → 메모리 기반 개인화 앱을 만들려면 Responses A..

GPT 2026.06.05

Codex 주간 사용자 500만 돌파 — OpenAI AWS Bedrock 연동 실전 가이드

Microsoft 독점이 끝난 다음 날, AWS가 움직였습니다. Codex가 Bedrock 위로 올라왔습니다.✅ 핵심 요약→ GPT-5.5, GPT-5.4, Codex가 2026년 6월 1일 Amazon Bedrock에 정식 출시됐습니다 → Microsoft의 OpenAI 독점 계약이 2026년 4월 27일 종료됐고, AWS는 바로 다음 날 4월 28일 연동을 발표했습니다 → $500억 Amazon 투자, 8년간 $1,000억 인프라 확장, 2GW Trainium 용량 — AWS가 OpenAI Frontier의 독점 3자 클라우드 배포 파트너입니다 → Bedrock 위에서 Codex CLI, 데스크탑 앱, VS Code 확장 그대로 사용 가능합니다 → 인증이 AWS 네이티브 — ChatGPT 로그인·OP..

GPT 2026.06.05

Windows Foundry 실전 — 온디바이스 AI 추론을 NPU에서 돌리는 방법

클라우드 API 없이, 내 노트북 NPU에서 직접 LLM을 실행합니다. 비용도 없고, 데이터도 안 나갑니다.✅ 핵심 요약→ Foundry Local은 NPU/GPU/CPU에서 온디바이스 AI 추론을 실행하는 Microsoft의 로컬 런타임입니다 → ONNX Runtime 기반 — 하드웨어를 자동 감지해 NPU 우선, GPU 차선, CPU 폴백으로 실행합니다 → OpenAI 호환 API를 로컬에서 노출 — 클라우드 API와 코드 한 줄 차이로 전환 가능합니다 → 모델 카탈로그 11,000개 이상 — Phi-4, Qwen, DeepSeek, Mistral, Whisper 등 포함 → 모델 alias만 넘기면 하드웨어에 맞는 최적화 변형(NPU variant, CUDA variant)을 자동 선택합니다 → 데..

AI 개발 2026.06.05

AI 에이전트 Autopilot Scout 분석 — Microsoft의 장기 실행 에이전트 아키텍처

Copilot 다음 단계가 나왔습니다. Chatbot도 아니고, Task Agent도 아닌 새로운 카테고리입니다.✅ 핵심 요약→ Microsoft가 Build 2026에서 Autopilot이라는 새 에이전트 카테고리를 정의했습니다 → Scout는 그 첫 번째 구현체 — 항상 켜져 있고, 프롬프트 없이 스스로 판단하고 행동합니다 → OpenClaw 오픈소스 프레임워크 기반 — GitHub 180,000 스타, 데스크탑 UI 자동화 포함 → Work IQ 컨텍스트 레이어로 사용자 업무 패턴을 누적 학습합니다 → 에이전트가 자체 Entra ID를 가집니다 — 사람처럼 디렉토리에 등록된 식별 가능한 행위자 → Observing → Suggesting → Acting 3단계 모드로 자율성 수준을 제어합니다 → M..

AI Agent 2026.06.05

ChatGPT Dreaming 메모리 업데이트 — 이제 AI가 나를 기억한다

매번 같은 설명을 반복해야 했던 불편함이 사라집니다. ChatGPT가 드디어 진짜로 나를 기억하기 시작했습니다.✅ 핵심 요약→ OpenAI가 2026년 6월 4일 Dreaming V3 — 업그레이드된 ChatGPT 메모리 시스템을 출시했습니다 → 기존처럼 "이것 기억해줘"라고 직접 말하지 않아도 대화에서 자동으로 맥락을 학습합니다 → 시간이 지나면 기억도 자동 업데이트됩니다 — "싱가포르 여행 간다"가 여행 후엔 "다녀왔다"로 바뀝니다 → 메모리 요약 페이지에서 ChatGPT가 나에 대해 뭘 알고 있는지 한눈에 확인·수정 가능합니다 → 컴퓨팅 비용을 약 5배 절감해 이제 무료 사용자에게도 순차 제공 예정입니다 → Plus·Pro 사용자는 메모리 저장 용량도 늘어납니다 → 현재 미국 Plus·Pro 사용자..

GPT 2026.06.05

AI가 내 일정·메일·파일 다 챙겨준다 — Microsoft Scout 에이전트 사용법

말 걸기 전에 먼저 챙겨주는 AI가 드디어 나왔습니다. Microsoft가 Copilot을 넘어서는 무언가를 꺼냈습니다.✅ 핵심 요약→ Microsoft Scout는 2026년 6월 2일 Build 2026에서 공개한 24시간 상시 실행 AI 에이전트입니다 → Teams, Outlook, OneDrive, SharePoint, 브라우저, 로컬 파일까지 Microsoft 365 전체를 연결합니다 → Copilot이 "물어보면 답하는 AI"였다면, Scout는 **"알아서 먼저 챙기는 AI"**입니다 → 3가지 모드로 작동합니다 — Observing(관찰) → Suggesting(제안) → Acting(실행) → OpenClaw 오픈소스 프레임워크 + Work IQ 컨텍스트 레이어 기반입니다 → Micros..

AI 소식 2026.06.05

Claude Code vs Codex 2026 — 실무에서 뭘 써야 하나

벤치마크만 보면 답이 안 납니다. 어떻게 쓰느냐가 갈립니다.✅ 핵심 요약→ 두 도구 모두 2026년 현재 최고 수준의 코딩 에이전트입니다 — 승자 없음 → Claude Code: 코드 품질, 멀티파일 리팩토링, MCP 생태계, 긴 컨텍스트 이해 우위 → Codex: 속도, 토큰 효율(3~4배), 비동기 PR 자동화, OS 커널 레벨 샌드박스 우위 → SWE-bench Pro(실제 코드베이스 기준): Claude Opus 4.7 64.3% vs GPT-5.5 58.6% → Terminal-Bench 2.0(터미널 태스크): GPT-5.5 82.7% vs Claude 69.4% → 동일 태스크 토큰 소비: Claude Code가 Codex 대비 3~4배 더 소비 → 맹목 코드 품질 평가: Claude Cod..

AI 개발 2026.06.05

Gemma 4 12B 완전분석 3편 : Unsloth로 내 데이터에 파인튜닝하기

소비자 GPU 한 장으로, 내 도메인에 맞는 12B 모델을 직접 학습시킵니다.✅ 핵심 요약→ Unsloth는 FA2 대비 ~1.5배 빠르고 ~60% 적은 VRAM으로 Gemma 4를 학습시킵니다 → 12B QLoRA는 RTX 4090(24GB) 권장 — RTX 3060(12GB)에서도 가능하나 배치 크기 줄여야 함 → Encoder-Free 아키텍처 덕분에 멀티모달(이미지·오디오·텍스트) 어댑터가 단일 pass로 학습됩니다 → 기존 인코더 기반 모델처럼 인코더를 freeze할 필요가 없습니다 → use_gradient_checkpointing="unsloth" 필수 — 없으면 VRAM 30% 더 잡아먹습니다 → 26B-A4B MoE는 QLoRA 대신 16-bit LoRA 사용 권장 (MoE routing..

Gemini 2026.06.05

Gemma 4 12B 완전분석 2편: vLLM / SGLang / Ollama 서빙 실전 세팅

✅ 핵심 요약→ vLLM: PagedAttention 기반 멀티유저 고처리량 서빙 — 프로덕션 표준 → SGLang: RadixAttention으로 prefix 재사용 극대화 — 에이전트·긴 시스템 프롬프트 워크플로우 최적 → Ollama: 단일 개발자 로컬 실행, OpenAI 호환 API 즉시 제공 — 프로토타이핑 최선 → 세 엔진 모두 OpenAI 호환 API로 노출 — 클라이언트 코드 동일하게 재사용 가능 → 12B는 BF16 기준 24GB VRAM 권장, Q4 양자화 시 16GB에서 동작 → vLLM --limit-mm-per-prompt 플래그로 멀티모달 메모리 사용량 제어 가능 → SGLang MTP(NEXTN) + draft 모델로 speculative decoding 활성화 가능 → Oll..

Gemini 2026.06.05

Gemma 4 12B 완전분석 1편 — 16GB 노트북에서 돌아가는 멀티모달 오픈소스 AI의 새 기준

2026년 6월 3일, Google DeepMind가 조용히 올린 릴리스 하나가 오픈소스 AI 판도를 다시 흔들었습니다.✅ 핵심 요약→ Gemma 4 12B는 2026년 6월 3일 Google DeepMind가 공개한 오픈소스 멀티모달 모델입니다 → 텍스트, 이미지, 영상, 오디오를 별도 인코더 없이 단일 아키텍처로 처리합니다 → 16GB VRAM 또는 통합 메모리 노트북에서 실행 가능합니다 (RTX 4060 기준 21 tokens/sec) → Apache 2.0 라이선스 — 상업적 배포, 수정, 재배포 모두 자유롭습니다 → GPQA Diamond 78.8%, DocVQA에서 26B MoE를 앞서는 벤치마크를 기록했습니다 → Gemma 4 가족의 5번째 모델 — E4B와 26B 사이를 채우는 미드레인지 ..

Gemini 2026.06.05
반응형