본문 바로가기

전체 글

(172)

Claude Opus 4.7 출시 — SWE-bench Pro 1위, GPT-5.4 완전히 제쳤다 2026년 4월 17일 오늘, Anthropic이 Claude Opus 4.7을 공식 출시했어요.예고된 대로 나왔고, 개발자들이 기다리던 업그레이드가 맞아요.한 줄 요약:코딩 에이전트 벤치마크에서 GPT-5.4와 Gemini 3.1 Pro를 제쳤어요.가격은 Opus 4.6과 동일. ($5/$25 per M tokens)벤치마크 비교SWE-bench Pro (실제 GitHub 이슈 해결):Opus 4.7: 64.3% ← 1위GPT-5.4: 57.7%Gemini 3.1: 54.2%Opus 4.6: 53.4%→ Opus 4.6 대비 +11%p, GPT-5.4보다 +6.6%pSWE-bench Verified:Opus 4.7: 87.6%Gemini 3.1: 80.6..

OpenAI Codex 대규모 업데이트 — 컴퓨터를 대신 써주는 AI 코딩 도구 2026년 4월 16일, OpenAI가 Codex 데스크탑 앱을 완전히 뒤집었어요.기존 Codex:코드 작성, 디버깅, 리팩토링→ 채팅 인터페이스 안에서만 동작새로운 Codex:내 맥북 앱 전체를 직접 조작→ 보고, 클릭하고, 타이핑→ 내가 다른 작업하는 동안 백그라운드에서 동시에TechCrunch가 직접 이렇게 썼어요."OpenAI와 Anthropic 사이에 저강도 전쟁이 있다.지금까지는 Anthropic이 이기고 있었다.이번 업데이트는 OpenAI의 반격이다."핵심 1 — 백그라운드 컴퓨터 사용Codex가 맥OS 앱을 직접 조작해요. 내가 일하는 동안 백그라운드에서.작동 방식:1. Codex에게 지시: "Figma에서 이 컴포넌트 수정하고 Slack에 결과 보고해줘"2. Codex가 별도 커서로 Fi..

OpenAI Agents SDK 대규모 업데이트 — Claude Code Routines 나온 지 3일 만에 맞불 2026년 4월 14일, Anthropic이 Claude Code Routines를 출시했어요. 3일 뒤인 4월 16일, OpenAI가 Agents SDK를 대규모 업데이트했어요.타이밍이 우연이 아닌 것 같은 이유:Claude Code Routines: 노트북 꺼도 클라우드에서 에이전트 실행OpenAI Agents SDK: 샌드박스에서 에이전트 안전하게 장기 실행→ 에이전트 인프라 전쟁 시작뭐가 바뀌었나기존 Agents SDK의 한계가 있었어요.기존 문제:범용 프레임워크 → 유연하지만 GPT 최적화 안 됨모델 프로바이더 SDK → 모델에 가깝지만 가시성 부족관리형 에이전트 API → 배포 쉽지만 실행 환경 제한→ 프로토타입은 쉬운데 프로덕션이 힘들었음이번 업데이트의 핵심 3가지예요.1. 네이티브 샌..

AI 코딩 툴 보안 실전 — Claude Code 소스 유출 이후 달라진 공격 지형 2026년 3월 31일, Claude Code 소스코드가 npm에 실수로 노출됐어요.유출 규모:→ 51만 2천 줄 TypeScript→ 1,906개 파일→ 24시간 만에 GitHub 포크 41,500개공격자들의 반응 속도:→ 유출 24시간 이내: 악성 "leaked Claude Code" GitHub 레포 등장→ 구글 검색 상위에 악성 레포 노출→ 25개 이상 소프트웨어 브랜드 사칭 캠페인 즉시 시작근데 이건 시작에 불과해요. 진짜 문제는 공격자들이 이제 Claude Code의 내부 동작 원리를 알게 됐다는 거예요.공격 유형 1 — Slopsquatting (슬롭스쿼팅)AI가 환각으로 만든 패키지명을 공격자가 선점하는 공격이에요.어떻게 작동하나:1. 연구자들이 LLM에게 576,000개 코드 샘플 생성 ..

AI 수익의 74%를 상위 20% 기업이 독식한다 — PwC 2026 AI 성과 연구 2026년 4월 13일, PwC가 충격적인 보고서를 냈어요.전 세계 25개 산업, 1,217명 임원 대상 조사 결과:AI가 만들어내는 경제적 가치의 74%→ 상위 20% 기업이 가져감나머지 80% 기업이 나눠갖는 건 26%AI에 다들 투자하는데, 돈 버는 곳은 극소수예요.왜 이렇게 차이가 나는가직관적으로는 이렇게 생각해요."상위 20%는 돈이 많아서""더 좋은 모델 접근권이 있어서""AI 전문가를 더 많이 고용해서"PwC 데이터는 다른 이유를 지목해요.상위 20%와 나머지 80%의 차이:나머지 80%:→ AI로 비용 절감→ AI로 업무 효율화→ 파일럿 프로젝트 계속 진행→ "AI로 기존 일을 더 빠르게"상위 20%:→ AI로 새로운 수익 창출→ AI로 비즈니스 모델 재발명→ 산업 경계를 넘어 새 시장 진..

GLM-5.1 vs Claude Opus 4.6 vs GPT-5.4 2026년 4월 7일, Z.ai(구 Zhipu AI)가 GLM-5.1을 공개했어요.공개 즉시 SWE-bench Pro 1위를 차지했어요.SWE-bench Pro (실제 GitHub 이슈 해결):GLM-5.1: 58.4% ← 1위GPT-5.4: 57.7%Claude Opus 4.6: 57.3%Gemini 3.1 Pro: 55.1%오픈소스 모델이 GPT-5.4와 Opus 4.6을 모두 제쳤어요.근데 벤치마크 숫자보다 더 주목할 게 있어요.Z.ai가 뭔가원래 이름: Zhipu AI (智谱 AI)배경: 칭화대학교 스핀오프국제 브랜드: Z.ai2026년 1월 8일: 홍콩 증시 IPO→ 약 HKD 43.5억 ($5.58억) 조달→ 시가총액: $528억→ 세계 최초 상장 파운데이션 모델 기업IP..

Stanford AI Index 2026 핵심 요약 매년 스탠퍼드 HAI(인간중심 AI 연구소)가 내놓는 AI 연간 보고서. 423페이지, 마케팅 없는 독립 데이터. 2026년판이 4월 13일 공개됐어요.AI 랩들이 만드는 보고서가 아니라는 게 포인트예요. 가장 믿을 수 있는 AI 현황 데이터예요.1. AI는 멈추지 않았다2025년 내내 "AI 성능 정체" 얘기가 많았어요. 데이터는 반대예요.SWE-bench Verified (실제 GitHub 이슈 해결):2024년: 60%2025년: ~100%→ 1년 만에 인간 수준 달성Humanity's Last Exam (박사급 전문가 문제):2025년: 8.8%2026년: 38.3%2026년 4월 기준 (Opus 4.6, Gemini 3.1 Pro): 50%+수학 올림피아드:Gemini Deep Think → 금..

Anthropic Claude Opus 4.7 + AI 디자인 툴 이번주 출시 예정 — Figma, Wix 주가 폭락한 이유 2026년 4월 14일, The Information이 단독 보도를 냈어요."Anthropic이 이번 주 두 가지를 출시할 예정:1. Claude Opus 4.72. 웹사이트/프레젠테이션 생성 AI 디자인 툴"보도 직후 시장이 즉각 반응했어요.Figma: -6.0%Wix: -4.8%Adobe: -2.7%GoDaddy: -4.4%단 한 건의 미확인 단독 보도에 이 정도 반응.→ 시장은 이미 이 움직임을 예상하고 있었다는 뜻Claude Opus 4.7 — 뭐가 달라지나Opus 4.6이 2026년 2월 출시됐어요. 2개월 만에 4.7이에요.Opus 4.6 주요 스펙:- 1M 토큰 컨텍스트 윈도우 (베타)- SWE-bench Verified: 80%+- Terminal-Bench 2.0: 65.4..

이전 1 ··· 7 8 9 10 11 12 13 ··· 22 다음

티스토리툴바