'2026/05/27 글 목록

바이브 코딩은 끝났다 — 아젠틱 엔지니어링 시대의 개발자 생존 전략

2025년 Andrej Karpathy가 "바이브 코딩"을 정의했을 때, 업계는 환호했다. 프롬프트 몇 줄로 코드가 나오는 시대. 그런데 1년이 지난 2026년, 같은 Karpathy가 새 용어를 제시했다. "아젠틱 엔지니어링." Django 공동 창시자이자 "프롬프트 인젝션"과 "AI Slop"이라는 용어를 만든 Simon Willison이 이 개념을 체계화했다. 바이브 코딩과 무엇이 다르고, 왜 지금 이 전환이 중요한가.핵심 요약→ 아젠틱 엔지니어링 = 코드를 작성하고 실행할 수 있는 코딩 에이전트(Claude Code·OpenAI Codex·Gemini CLI)의 도움을 받아 소프트웨어를 개발하는 실천→ 바이브 코딩과의 차이: "누군가는 그 정의를 LLM이 코드 생성에 사용될 때마다로 확장하는데, ..

AI Agent 2026.05.27

Mem0 가이드 3편: Zep·Letta·LangMem — 2026년 AI 에이전트 메모리 프레임워크 완전 비교

"어떤 메모리 프레임워크를 써야 하나?" 2026년 기준 선택지는 4개 이상으로 분화됐고, 각각 근본적으로 다른 아키텍처를 취한다. 잘못 고르면 3개월 후 마이그레이션이다. Mem0·Zep(Graphiti)·Letta(MemGPT)·LangMem — 어떤 게 내 에이전트에 맞는지 구조·벤치마크·비용·선택 기준을 전부 정리했다.핵심 요약→ Mem0 — 오픈소스, 48,000+ GitHub Star, 개인화 에이전트·챗봇 메모리 1순위, 가장 빠른 프로덕션 진입→ Zep/Graphiti — 시간적 추론 특화, 변경되는 사실을 추적해야 할 때 LongMemEval 기준 Mem0보다 15점 높음→ Letta(MemGPT) — 장기 자율 에이전트 전용, 수일~수주 실행 에이전트에 유일한 선택지, 자체 에이전트 런..

AI Agent 2026.05.27

Mem0 가이드 2편: 프로덕션 설계와 토큰 최적화

1편에서 Mem0 기본 add/search API를 익혔다면, 이번 편은 진짜 프로덕션 문제다. "2개월째 운영하는데 토큰 비용이 갑자기 10배가 됐다", "오래된 직장 정보를 최신 정보인 양 꺼낸다", "LangGraph 에이전트에 Mem0를 붙이려니 코드가 엉망이다." 프로덕션에서 처음으로 직면하는 문제들을 아키텍처 레벨에서 전부 해결한다.핵심 요약→ 프로덕션 시스템이 나이브한 풀 컨텍스트 또는 나이브 RAG를 쓰면 토큰 비용이 필요한 것보다 3~5배 높고, 수 주 운영 후 재현율이 측정 가능하게 저하됨 — 대부분 1개월 후 발견하는 문제→ 핵심 인사이트: 대부분의 시스템은 검색 시에 너무 많은 작업을 하고 저장 시에 충분한 작업을 안 함 — 메모리 조직·관련성·압축 작업은 생성 시점에 한 번 해야지..

AI Agent 2026.05.27

Mem0 개념과 기본 사용법 완전 가이드 1편 — AI 에이전트에게 기억을 심어라

"어제 채식주의자라고 했는데 오늘 스테이크 레시피를 추천한다." LLM의 고질적인 무상태성(Statelessness) 문제다. 세션이 끝나면 모든 컨텍스트가 사라진다. 사용자 입장에서는 매번 처음부터 설명해야 하는 AI는 쓸모가 없다. Mem0는 이 문제를 전용 메모리 레이어로 해결한다. 개념부터 실전 코드까지 1편에서 완전히 정리한다.핵심 요약→ Mem0("mem-zero")는 AI 에이전트와 LLM에 지능형 메모리 레이어를 추가하는 오픈소스 프로젝트 — 55,700+ GitHub Star, 1,400만+ 다운로드(2026년 5월 기준)→ AI 에이전트는 3가지 메모리 레벨이 필요 — 모든 대화에 걸쳐 지속되는 사용자 레벨 선호도, 현재 인터랙션의 세션 레벨 컨텍스트, 자율 워크플로우의 에이전트 레벨 ..

AI Agent 2026.05.27

"트랜스포머의 저주를 깼다" — SubQ 1200만 토큰 LLM 완전 분석

2017년 트랜스포머가 등장한 이후 모든 LLM의 발목을 잡아온 제약이 있다. 컨텍스트가 2배 길어지면 연산량이 4배 늘어나는 2차 복잡도(O(n²)) 문제다. 이게 1M 토큰이 실질적 상한선인 이유고, RAG·청킹·벡터DB가 존재하는 이유다. 마이애미 스타트업 Subquadratic은 이 제약을 SSA(Subquadratic Sparse Attention)로 선형 복잡도로 만들었다고 주장한다. 주장이 맞다면 AI 경제학이 바뀐다. 틀리면 Mamba의 전철을 밟는다. 현재까지 알려진 것을 전부 정리했다.핵심 요약→ Subquadratic은 2026년 5월 5일 스텔스 해제, $29M 시드 펀딩 — SSA(Subquadratic Sparse Attention) 기반 최초 상용 LLM SubQ 출시→ 주요 ..

LLM 2026.05.27

Cloudflare가 LLM 추론을 두 단계로 쪼갠 이유 — Workers AI 인프라 완전 해부

LLM 서빙의 핵심 병목은 오랫동안 알려져 있었다. GPU 한 대에서 입력 처리와 토큰 생성을 같이 돌리면 두 작업이 서로 발목을 잡는다. Cloudflare는 이 문제를 Prefill-Decode 분리 아키텍처와 Rust로 만든 자체 추론 엔진 Infire로 풀었다. 결과는 인터토큰 레이턴시 3배 개선, vLLM 대비 처리량 7% 이상 향상. 에이전트 워크플로우 전용으로 설계된 이 인프라의 내부를 완전히 뜯어봤다.핵심 요약→ Cloudflare Workers AI는 에이전트 워크플로우를 1순위 워크로드로 설계 — 대규모 시스템 프롬프트·툴 정의·MCP 컨텍스트가 누적되는 입력 토큰 처리 속도가 핵심→ PD Disaggregation: 입력 처리(Prefill)와 토큰 생성(Decode)을 별도 서버로 ..

AI 개발 2026.05.27

AI 에이전트는 아직 일상 업무를 못 한다 — ClawBench 완전 분석

"Claude가 비행기 예약하고 취업 지원서 제출까지 해줄 수 있다." 2026년 AI 에이전트 광고에 단골로 등장하는 문구다. ClawBench는 이 주장에 실제 데이터로 반박한다. 144개 실제 라이브 웹사이트에서 153개 일상 태스크를 테스트한 결과, 최강 모델인 Claude Sonnet 4.6도 33.3%밖에 못 했다. 기존 벤치마크 65~75%와의 괴리가 무엇을 의미하는지 완전히 해부한다.핵심 요약→ ClawBench는 UBC·Vector Institute 연구팀이 개발한 AI 에이전트 평가 프레임워크 — 144개 실제 라이브 플랫폼에서 15개 카테고리, 153개 일상 태스크를 수행시키는 벤치마크→ 기존 벤치마크(WebArena·OSWorld)에서 65~75%를 찍던 모델들이 ClawBench에..

AI Agent 2026.05.27

Anthropic이 공개를 거부한 AI — Claude Mythos 완전 분석

2026년 4월 7일, AI 역사에 전례 없는 일이 벌어졌다. Anthropic은 역대 가장 강력한 모델을 발표하면서 동시에 "일반에 공개하지 않겠다"고 선언했다. SWE-bench 93.9%, USAMO 수학 97.6%, Cybench 100% 만점. 그리고 모든 주요 OS와 브라우저에서 수천 개의 제로데이 취약점을 자율 발견. Claude Mythos Preview가 봉인된 진짜 이유와 현재 상황을 완전히 정리했다.핵심 요약→ 2026년 3월 26일 Anthropic CMS 설정 오류로 약 3,000개 내부 문서 유출 — 그 중 "지금까지 개발한 모델 중 단연 가장 강력하다"는 초안 블로그 포스트가 포함→ 공식 발표 4월 7일: SWE-bench Verified 93.9%, USAMO 2026 수학 ..

Claude 2026.05.27

Codex Mobile 3편: vs Claude Code Remote Control — 비동기 에이전트 제어 도구 완전 비교

시리즈 1·2편으로 Codex Mobile을 완전히 익혔다면 자연스럽게 이 질문이 온다. "Claude Code도 폰으로 제어할 수 있다던데, 뭐가 다른 거야?" 결론부터 말하면 둘은 같은 카테고리처럼 보이지만 설계 철학이 완전히 다르다. 선택이 틀리면 매주 생산성이 눈에 띄게 달라진다.핵심 요약→ Anthropic는 2026년 2월에 Claude Code Remote Control을 출시 — Codex Mobile보다 4개월 앞서 모바일 에이전트 제어 기능을 먼저 선보임→ 가장 핵심적인 차이 한 줄: Claude Code는 로컬 실행, Codex는 클라우드 샌드박스 실행 — 이 차이가 나머지 모든 차이를 만든다→ Codex Mobile은 주기적으로 체크인하는 위임형 태스크에 강하고, Claude Cod..

GPT 2026.05.27

Codex Mobile 가이드 2편 — Codex Hooks와 Goal Mode 실전 가이드

1편에서 Codex Mobile 설치와 연결을 마쳤다면, 이제 진짜 쓸모 있는 부분이다. Hooks는 에이전트 라이프사이클의 특정 시점에 자동 실행되는 규칙이고, Goal Mode는 목표 하나를 주면 달성될 때까지 멈추지 않는 자율 루프다. 이 두 기능을 Mobile과 결합하면 "내가 자는 동안 Codex가 일하고, 판단이 필요할 때만 폰으로 깨운다"는 워크플로우가 완성된다.핵심 요약→ Hooks는 도구 사용 전후, 프롬프트 제출 시, 세션 종료 시 등 Codex 워크플로우의 특정 이벤트에서 실행되는 라이프사이클 자동화 스크립트 — 검증·로깅·시크릿 스캔·커스텀 메모리 추가 가능→ Goal Mode는 2026년 5월 21일 Codex 앱·IDE 익스텐션·CLI 전체에서 GA(정식 출시) — Appshot..

GPT 2026.05.27

CELL AI DEVLOG

2026/05/27 18

티스토리툴바

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31