[경제신문스크랩] "생각하고 행동하는 로봇"…구글 '제미나이 1.5' 출격

아티클·책 리뷰 & 경제신문 스크랩 2025. 9. 26. 13:22

1. 기사 정리·요약

제미나이로보틱스 1.5는 복잡한 명령을 여러 단계로 쪼개 순차적으로 처리할 수 있는 최신 로봇 파운데이션 모델
명령과 결과 예시
- “내 위치 정보를 이용해서 분리수거해줘.”
  → 제미나이로보틱스가 오렌지 껍질 등을 초록색 통에, 플라스틱은 파란색 통에 넣음
- 미국 샌프란시스코라는 사용자의 위치 정보를 확인한 뒤 이곳의 분리수거 가이드라인을 파악하고 그에 맞는 색깔의 쓰레기통을 찾는 다단계 사고의 결과물
명령의 목적 별 로봇 분리
- 로봇이 복잡한 명령을 수행할 수 있도록 고차원적인 작업을 하는 ‘체화인지모델’ → 사람의 ‘뇌’ 역할
- 단순 작업을 맡는 ‘시각언어모델’ → 사람의 ‘손발’ 역할
- 예시
  - 명령 : “빨래 바구니에 있는 옷을 세탁기에 넣어줘”
  - 체화인지모델은 시각언어모델에 ‘옷을 집어라’ ‘세탁기 문을 열어라’ 등을 지시하고, 세탁기 문이 열리지 않는다면 그 원인을 파악해 ‘주변 물건을 치워라’ 등 새로운 명령을 내림
  - 시각언어모델은 옷을 집기 위한 최적의 로봇 팔 움직임을 계산하는 등 비교적 단순한 업무
벤치마크 점수 : 제미나이로보틱스 1.5는 62.8점
- 이전 버전보다 6.1점 올랐다.
- 오픈AI의 챗GPT-5(60.6점) GPT-5미니(57.3점)보다 높은 성적
제미나이로보틱스 1.5의 활용
- 제미나이로보틱스 1.5를 통해 한 로봇이 보유한 모델을 다른 로봇에 그대로 적용하는 ‘제로샷 전이’에도 성공
- 제로샷 전이 성공의 의미 : 다른 로봇 파운데이션 모델에서는 구현이 어렵던 기능

2. 추가 조사

로봇 AI 파운데이션 모델

다양한 작업을 수행하고 학습할 수 있는 로봇을 위한 범용 AI 소프트웨어
GPT와 같은 대규모 언어 모델(LLM)을 로봇에 접목하여 지능형 로봇 개발을 목표로 함
시각, 언어, 센서 데이터를 통합적으로 이해하고 스스로 판단하며 행동하는 능력을 제공하며, 이미지-언어-행동(VLA) 모델이나 듀얼 시스템 구조 등의 기술이 활용
- 멀티모달을 이해하여 다양한 작업을 학습하고 수행할 수 있는 범용성이 있음
- 주어진 환경과 목표에 대해 스스로 판단하고, 그에 맞는 행동을 생성 (맥락 이해와 판단력)
산업 현장에서 생산성과 효율성 증대에 기여할 것으로 예상
나의 인사이트
- 옳은 판단인가? 에 대한 기준 연구가 고도화 되어야 함 : 비즈니스적 관점, 보안 측면, 윤리적 기준 등
- 사람이 어떤 수준까지 개입하고 의사결정을 내리게 될까? 결국은 모니터링하며 이상치나 이슈가 있을 때 alert을 받게 될 것이고, 사람의 역할은 지금보다도 더 Managing이 중요해질 것 같다. AI를 활용한 효율성 증대 및 자동화를 세팅 해둔 PM이 각광받는 시대. + 빠른 기술 학습 및 활용 능력

제로샷 전이

제로샷 학습의 핵심은 지식 전이
AI는 다양한 작업에서 얻은 지식을 새로운 작업에 적용하여 문제를 해결
예를 들어 AI가 여러 동물의 사진을 학습했다고 가정했을 때, 제로샷 학습을 통해 AI는 학습 과정에서 본 적 없는 새로운 동물의 사진을 보고도, 그 동물이 무엇인지 식별할 수 있게 되는 것
이 과정에서 AI는 고도로 추상화된 정보와 지식을 사용하여 보지 못한 상황에 대해 추론
이러한 방식으로 제로샷 학습은 AI의 범용성과 적응성을 크게 향상시킴

3. 나의 인사이트

가정 가전부터 산업 현장까지 다양한 활용이 빠르게 확산될 것이다. 기업들은 하루 빨리 소버린 AI를 구축하여 기술력, 데이터 및 보안에서의 주도권을 가지고 세계 무대에서 경쟁해야 한다.
제로샷 전이 성능이 좋아지고, 기업들이 자사 AI 모델을 오픈소스로 공개하면 기업별 고객의 개인정보는 더 이상 개인정보가 아니게 될 것 같다.
- 고도로 추상화된 정보를 전이할 뿐 개개인을 특정할 수 없다고 하더라도, 과적합이나 오류로 원본 데이터를 그대로 출력한다면 매우 큰 보안 문제가 되지 않을까?
- 제로샷 전이로 융복합이 활성화된다면 전세계의 통합 데이터(?)로 경쟁하게 될 것이다. 따라서 어떤 관점과 인사이트를 뽑아내는 사람인지가 더 중요해질 것 같다. 어려워보여도 언제나 ‘지·정·의’의 조화를 이루는 사람이 되고 싶다.

Reference

- 기사 원문 : https://n.news.naver.com/mnews/article/015/0005190355

"생각하고 행동하는 로봇"…구글 '제미나이 1.5' 출격

구글이 여러 단계에 걸쳐 생각하고 행동하는 로봇 인공지능(AI) 에이전트 ‘제미나이로보틱스 1.5’를 26일 출시한다. 제미나이로보틱스 1.5는 복잡한 명령을 여러 단계로 쪼개 순차적으로 처리할

n.news.naver.com

- 제로샷 전이 : https://datasciencebeehive.tistory.com/109#google_vignette

[LLM] 제로샷 학습 Zero-Shot Learning: AI의 새로운 가능성을 열다

우리는 지금까지 인공지능(AI)이 대량의 데이터를 학습함으로써 특정 작업을 수행하는 방식에 익숙해져 있습니다. 하지만, '제로샷 학습(Zero-Shot Learning)'이라는 혁신적인 기술이 등장하면서 AI의

datasciencebeehive.tistory.com

'아티클·책 리뷰 & 경제신문 스크랩' 카테고리의 다른 글

SK하이닉스는 왜 돈을 많이 벌까? (0)	2025.10.30
[책 리뷰] THE LET THEM (렛뎀 이론) 2 : '내가 하자' (0)	2025.09.20
[책 리뷰] THE LET THEM (렛뎀 이론) 1 : '내버려두자' (0)	2025.09.09
놀유니버스, 선불 충전 간편결제 서비스 ‘NOL 머니’ 출시하다! (4)	2025.08.14
모토로라 레이저는 참신함이고, 애플은 혁신이다. (0)	2025.03.19

ABOUT ME

데이터로 보는 세상 데이터로 보는 세상

1. 기사 정리·요약

2. 추가 조사

로봇 AI 파운데이션 모델

제로샷 전이

3. 나의 인사이트

Reference

'아티클·책 리뷰 & 경제신문 스크랩' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. 기사 정리·요약

2. 추가 조사

로봇 AI 파운데이션 모델

제로샷 전이

3. 나의 인사이트

Reference

'아티클·책 리뷰 & 경제신문 스크랩' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바