반응형

2026/06/12 5

로봇, Physical AI — Gemini Robotics-ER 1.6 공간추론·기기판독 개발 가이드

한줄요약: Gemini Robotics-ER 1.6은 공간추론·오브젝트 포인팅·멀티뷰 성공감지·기기판독(게이지·사이트글라스)을 지원하는 구글 DeepMind의 로봇 전용 임베디드 추론 모델로, Gemini API를 통해 개발자에게 공개됐습니다.ER 모델이 뭔가요? — 전략가 vs 실행가구글 DeepMind의 로봇 AI 스택은 두 모델로 나뉩니다. 이 구분을 먼저 이해해야 ER 1.6이 어디에 쓰이는지 명확해집니다.Gemini Robotics 1.5 (VLA 모델) → 비전-언어-액션 모델 → 카메라 입력을 받아 모터 명령을 직접 생성 → "실행가" — 팔을 어디로 움직일지 결정Gemini Robotics-ER 1.6 (ER 모델) → Embodied Reasoning 모델 → 공간 이해·계획·성..

Gemini 11:01:56

Gemini 3.1 Flash TTS (Text-to-Speech) 음성 감정 표현 API 실전 가이드

한줄요약: gemini-3.1-flash-tts-preview는 200개 이상의 인라인 오디오 태그로 문장 중간에 감정·속도·톤을 즉시 전환할 수 있는 구글 최초의 표현형 TTS 모델로, 30개 프리빌트 보이스와 70개 이상 언어를 지원합니다. 기존 TTS와 뭐가 다른가요?기존 TTS 모델은 SSML(XML 태그 기반)로 속도나 쉼표 정도만 조절할 수 있었고, 감정 표현은 사실상 불가능했습니다. ElevenLabs 같은 서비스가 비싼 값에 팔던 "연기하는 목소리"를 API 한 줄로 만들 수 있게 된 게 이 모델의 핵심입니다.기존 SSML 방식천천히 말합니다gemini-3.1-flash-tts 방식[sad] 오늘은 정말 힘든 하루였어요. [pause=1.0] [whispering] 그래도 괜찮아질 거야.X..

Gemini 10:27:17

Deep Research API 실전 가이드 — Collaborative Planning, MCP, File Search 완전 연동

"알아서 조사해줘"를 API로 구현하는 방법입니다. 단순 요약이 아니라 수십 개 소스를 직접 탐색하고 차트까지 그려주는 에이전트를 코드 몇 줄로 붙일 수 있게 됐습니다.한줄요약: Gemini Deep Research API는 멀티스텝 리서치를 비동기로 실행하는 관리형 에이전트로, 4월 업데이트에서 Collaborative Planning·MCP 서버 연동·File Search·차트 생성이 추가됐습니다.Deep Research API가 뭔가요?일반 generate_content와 근본적으로 다릅니다. 일반 API는 한 번의 추론으로 응답을 반환하지만, Deep Research는 수십 번의 검색·읽기·합성 루프를 자율로 돌리고 인용이 붙은 리포트를 만들어 냅니다. 작업 시간이 수 분 걸리기 때문에 반드시 백..

Gemini 10:21:02

RAG 파이프라인에 이미지·영상·오디오를 넣는 시대 — gemini-embedding-2 GA 완전 가이드

기존 RAG는 텍스트밖에 못 넣었습니다. 제품 메뉴얼 스크린샷, 회의 녹화, 다이어그램 — 전부 그냥 버렸죠. gemini-embedding-2가 GA되면서 이게 바뀌었습니다.한줄요약: gemini-embedding-2는 텍스트·이미지·영상·오디오·PDF를 단일 벡터 공간에 임베딩하는 구글 최초의 멀티모달 임베딩 모델로, 기존 embedding-001과 벡터 공간이 완전히 달라 전체 재임베딩이 필요합니다.gemini-embedding-001과 뭐가 달라졌나요?가장 먼저 알아야 할 건 이게 단순 업그레이드가 아니라는 점입니다. 아키텍처 자체가 다릅니다.기존 embedding-001은 텍스트 전용 모델이었습니다. 이미지나 오디오를 검색에 넣으려면 별도의 CLIP 모델로 이미지 임베딩, Whisper로 오디오..

Gemini 10:07:44

6월 18일이면 gemini 명령어가 멈춥니다 — Antigravity CLI 마이그레이션 실전 가이드

CI/CD 파이프라인에 gemini 명령어 박아두신 분들, 지금 당장 확인하셔야 합니다.한줄요약: 2026년 6월 18일부터 Gemini CLI는 개인/Pro/Ultra 사용자에게 응답을 완전히 중단하고, 후속 도구인 Antigravity CLI(agy)로 전환이 강제됩니다.왜 갑자기 종료되나요?구글은 Google I/O 2026(5월 19일)에서 Antigravity 2.0 플랫폼을 발표하면서, 기존 Gemini CLI를 함께 종료한다고 밝혔습니다. 단순 리브랜딩이 아니라 아키텍처 자체가 바뀌었습니다.기존 Gemini CLI는 Node.js 기반의 단일 에이전트 구조였고, Antigravity CLI는 Go로 재작성한 멀티 에이전트 플랫폼입니다. 더 중요한 것은 Antigravity 2.0 데스크탑 앱..

Gemini 09:12:31
반응형