-
[경제신문스크랩] "생각하고 행동하는 로봇"…구글 '제미나이 1.5' 출격아티클·책 리뷰 & 경제신문 스크랩 2025. 9. 26. 13:22
1. 기사 정리·요약
- 제미나이로보틱스 1.5는 복잡한 명령을 여러 단계로 쪼개 순차적으로 처리할 수 있는 최신 로봇 파운데이션 모델
- 명령과 결과 예시
- “내 위치 정보를 이용해서 분리수거해줘.”
→ 제미나이로보틱스가 오렌지 껍질 등을 초록색 통에, 플라스틱은 파란색 통에 넣음 - 미국 샌프란시스코라는 사용자의 위치 정보를 확인한 뒤 이곳의 분리수거 가이드라인을 파악하고 그에 맞는 색깔의 쓰레기통을 찾는 다단계 사고의 결과물
- “내 위치 정보를 이용해서 분리수거해줘.”
- 명령의 목적 별 로봇 분리
- 로봇이 복잡한 명령을 수행할 수 있도록 고차원적인 작업을 하는 ‘체화인지모델’ → 사람의 ‘뇌’ 역할
- 단순 작업을 맡는 ‘시각언어모델’ → 사람의 ‘손발’ 역할
- 예시
- 명령 : “빨래 바구니에 있는 옷을 세탁기에 넣어줘”
- 체화인지모델은 시각언어모델에 ‘옷을 집어라’ ‘세탁기 문을 열어라’ 등을 지시하고, 세탁기 문이 열리지 않는다면 그 원인을 파악해 ‘주변 물건을 치워라’ 등 새로운 명령을 내림
- 시각언어모델은 옷을 집기 위한 최적의 로봇 팔 움직임을 계산하는 등 비교적 단순한 업무
- 벤치마크 점수 : 제미나이로보틱스 1.5는 62.8점
- 이전 버전보다 6.1점 올랐다.
- 오픈AI의 챗GPT-5(60.6점) GPT-5미니(57.3점)보다 높은 성적
- 제미나이로보틱스 1.5의 활용
- 제미나이로보틱스 1.5를 통해 한 로봇이 보유한 모델을 다른 로봇에 그대로 적용하는 ‘제로샷 전이’에도 성공
- 제로샷 전이 성공의 의미 : 다른 로봇 파운데이션 모델에서는 구현이 어렵던 기능
2. 추가 조사
로봇 AI 파운데이션 모델
- 다양한 작업을 수행하고 학습할 수 있는 로봇을 위한 범용 AI 소프트웨어
- GPT와 같은 대규모 언어 모델(LLM)을 로봇에 접목하여 지능형 로봇 개발을 목표로 함
- 시각, 언어, 센서 데이터를 통합적으로 이해하고 스스로 판단하며 행동하는 능력을 제공하며, 이미지-언어-행동(VLA) 모델이나 듀얼 시스템 구조 등의 기술이 활용
- 멀티모달을 이해하여 다양한 작업을 학습하고 수행할 수 있는 범용성이 있음
- 주어진 환경과 목표에 대해 스스로 판단하고, 그에 맞는 행동을 생성 (맥락 이해와 판단력)
- 산업 현장에서 생산성과 효율성 증대에 기여할 것으로 예상
- 나의 인사이트
- 옳은 판단인가? 에 대한 기준 연구가 고도화 되어야 함 : 비즈니스적 관점, 보안 측면, 윤리적 기준 등
- 사람이 어떤 수준까지 개입하고 의사결정을 내리게 될까? 결국은 모니터링하며 이상치나 이슈가 있을 때 alert을 받게 될 것이고, 사람의 역할은 지금보다도 더 Managing이 중요해질 것 같다. AI를 활용한 효율성 증대 및 자동화를 세팅 해둔 PM이 각광받는 시대. + 빠른 기술 학습 및 활용 능력
제로샷 전이
- 제로샷 학습의 핵심은 지식 전이
- AI는 다양한 작업에서 얻은 지식을 새로운 작업에 적용하여 문제를 해결
- 예를 들어 AI가 여러 동물의 사진을 학습했다고 가정했을 때, 제로샷 학습을 통해 AI는 학습 과정에서 본 적 없는 새로운 동물의 사진을 보고도, 그 동물이 무엇인지 식별할 수 있게 되는 것
- 이 과정에서 AI는 고도로 추상화된 정보와 지식을 사용하여 보지 못한 상황에 대해 추론
- 이러한 방식으로 제로샷 학습은 AI의 범용성과 적응성을 크게 향상시킴
3. 나의 인사이트
- 가정 가전부터 산업 현장까지 다양한 활용이 빠르게 확산될 것이다. 기업들은 하루 빨리 소버린 AI를 구축하여 기술력, 데이터 및 보안에서의 주도권을 가지고 세계 무대에서 경쟁해야 한다.
- 제로샷 전이 성능이 좋아지고, 기업들이 자사 AI 모델을 오픈소스로 공개하면 기업별 고객의 개인정보는 더 이상 개인정보가 아니게 될 것 같다.
- 고도로 추상화된 정보를 전이할 뿐 개개인을 특정할 수 없다고 하더라도, 과적합이나 오류로 원본 데이터를 그대로 출력한다면 매우 큰 보안 문제가 되지 않을까?
- 제로샷 전이로 융복합이 활성화된다면 전세계의 통합 데이터(?)로 경쟁하게 될 것이다. 따라서 어떤 관점과 인사이트를 뽑아내는 사람인지가 더 중요해질 것 같다. 어려워보여도 언제나 ‘지·정·의’의 조화를 이루는 사람이 되고 싶다.
Reference
- 기사 원문 : https://n.news.naver.com/mnews/article/015/0005190355
"생각하고 행동하는 로봇"…구글 '제미나이 1.5' 출격
구글이 여러 단계에 걸쳐 생각하고 행동하는 로봇 인공지능(AI) 에이전트 ‘제미나이로보틱스 1.5’를 26일 출시한다. 제미나이로보틱스 1.5는 복잡한 명령을 여러 단계로 쪼개 순차적으로 처리할
n.news.naver.com
- 제로샷 전이 : https://datasciencebeehive.tistory.com/109#google_vignette
[LLM] 제로샷 학습 Zero-Shot Learning: AI의 새로운 가능성을 열다
우리는 지금까지 인공지능(AI)이 대량의 데이터를 학습함으로써 특정 작업을 수행하는 방식에 익숙해져 있습니다. 하지만, '제로샷 학습(Zero-Shot Learning)'이라는 혁신적인 기술이 등장하면서 AI의
datasciencebeehive.tistory.com
'아티클·책 리뷰 & 경제신문 스크랩' 카테고리의 다른 글
SK하이닉스는 왜 돈을 많이 벌까? (0) 2025.10.30 [책 리뷰] THE LET THEM (렛뎀 이론) 2 : '내가 하자' (0) 2025.09.20 [책 리뷰] THE LET THEM (렛뎀 이론) 1 : '내버려두자' (0) 2025.09.09 놀유니버스, 선불 충전 간편결제 서비스 ‘NOL 머니’ 출시하다! (4) 2025.08.14 모토로라 레이저는 참신함이고, 애플은 혁신이다. (0) 2025.03.19