AI/AI 동향

Google, GPT를 넘어선 Gemini 시대가 열렸습니다.

RevFactory 2023. 12. 7. 05:55

Google 에서 Gemini 를 전격 공개했습니다.
Gemini는 처음부터 멀티모달로 구축되었기 때문에 텍스트, 코드, 오디오, 이미지, 동영상 등 다양한 유형의 정보를 일반화하고 원활하게 이해하며, 여러 정보에 걸쳐 작동하고 결합할 수 있다고 합니다.

 

 

Gemini 의 소개에 앞서 Gemini 의 멀티모달 기능을 이용하여 AI 와 상호작용 하는 영상을 먼저 시청할 것을 추천드려봅니다. 소리를 켜고 한글 자막 적용 후 아래 영상을 시청해보세요!

 

Hands-on with Gemini: Interacting with multimodal AI - YouTube

 

 

1. Gemini는 3가지 사이즈로 제공됩니다.

첫 번째 버전인 Gemini 1.0 은 3가지 크기에 맞춰 공개되었는데요.
데이터 센터부터 모바일 기기까지 모든 곳에서 효율적으로 실행할 수 있는 가장 유연한 모델로 구성되어 있습니다.

 

  • Gemini Ultra - 매우 복잡한 작업을 위한 가장 크고 성능이 뛰어난 모델
  • Gemini Pro - 다양한 업무에 걸쳐 확장할 수 있는 최고의 모델
  • Gemini Nano - 온디바이스 작업을 위한 가장 효율적인 모델

 

 

2. Gemini Ultra는 GPT-4 를 뛰어넘는 성능을 보여줍니다.

Gemini Ultra 는 수학, 물리학, 역사, 법학, 의학, 윤리 등 57개 과목을 조합해 세계 지식과 문제 해결 능력을 테스트하는 MMLU (대규모 다중 작업 언어 이해)에서 90.0%의 점수로 인간 전문가를 능가한 최초의 모델입니다.

 Gemini Pro 가 GPT-3.5보다 나은 성능을 보여주고 있으며, Gemini Ultra 도 대부분 GPT-4 를 넘는 점수를 기록했습니다.

 

또한 멀티모달 성능에서도 이미지를 이해하는데 있어 Gemini Ultra는 GPT-4V 를 넘어선 결과를 보여줍니다.

 

성능과 관련된 보다 자세한 내용은 Gemini 기술 보고서에서 확인이 가능하며, 한글 번역된 파일도 PDF로 첨부해 두었으니 참고 부탁드립니다.

gemini_1_report_ko.pdf
3.13MB

 

 

3. Gemini는 진짜 멀티모달 입니다

Gemini는 처음부터 다양한 모달리티에 대해 사전 학습된 기본 멀티모달 기능을 탑재하도록 설계되었습니다. 그런 다음 추가적인 멀티모달 데이터로 미세 조정하여 그 효과를 더욱 개선했다고 하네요!
Gemini 1.0은 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되었기 때문에 미묘한 정보를 더 잘 이해하고 복잡한 주제와 관련된 질문에 답할 수 있습니다. 

 

 

4. Gemini는 책임과 안전이 핵심입니다

Gemini는 편향성 및 독성을 포함하여 지금까지 출시된 Google AI 모델 중 가장 포괄적인 안전성 평가를 거쳤습니다. Google은 사이버 공격, 설득, 자율성과 같은 잠재적 위험 영역에 대한 새로운 연구를 수행했으며, Google Research의 업계 최고 수준의 적대적 테스트 기술을 적용하여 Gemini를 배포하기 전에 중요한 안전 문제를 식별하는 데 도움을 주었습니다.

Gemini의 학습 단계에서 콘텐츠 안전 문제를 진단하고 그 결과물이 정책을 준수하는지 확인하기 위해, 앨런 인공지능 연구소의 전문가들이 웹에서 가져온 다양한 독성 정도를 가진 100,000개의 프롬프트 세트인 실제 독성 프롬프트와 같은 벤치마크를 사용하고 있습니다. 이 작업에 대한 자세한 내용은 곧 공개될 예정입니다.

 

5. Gemini는 Google Product 에 포함되고 있습니다

이제 Bard는 더욱 향상된 추론, 계획, 이해력 등을 위해 미세 조정된 Gemini Pro 버전을 사용합니다. 170개 이상의 국가와 지역에서 영어로 제공되며, 가까운 시일 내에 다양한 방식으로 확장하고 새로운 언어와 지역을 지원할 계획입니다.

Pixel 8 Pro는 Gemini Nano 를 실행하도록 설계된 최초의 스마트폰이 됩니다. 레코더 앱의 요약하기와 같은 새로운 기능을 지원하고 WhatsApp을 시작으로 Gboard의 스마트 답장에 적용되며, 내년에 더 많은 메시징 앱이 출시될 예정입니다.

그리고 몇 달 안에 검색, 광고, Chrome, 듀엣 AI 등 더 많은 제품과 서비스에서 제미니를 사용할 수 있게 될 것입니다.


6. Gemini API가 제공됩니다

12월 13일부터 개발자와 기업 고객은 Google AI Studio 또는 Google Cloud Vertex AI의 Gemini API를 통해 Gemini Pro에 액세스할 수 있습니다.
안드로이드 개발자는 픽셀 8 프로 기기부터 안드로이드 14에서 제공되는 새로운 시스템 기능인 AICore를 통해 기기 내 작업에서 가장 효율적인 모델인 제미니 나노를 사용하여 빌드할 수 있습니다. 


7. Gemini Ultra는 내년 초 출시 예정입니다

Gemini Ultra의 경우, 신뢰할 수 있는 외부 기관의 레드팀 검증을 포함한 광범위한 신뢰 및 안전 점검을 완료하고 사용자 피드백을 통한 미세 조정 및 강화 학습(RLHF)을 통해 모델을 더욱 정교하게 다듬은 후 내년 초에 공개할 계획이라고 밝혔습니다.

또한 같은 시기에 Gemini Ultra 를 사용하는 Bard의 새로운 버전인 Bard Advanced 도 출시 예정이라고 합니다.

 

 

더 보기

Welcome to the Gemini era
Google Blog, 가장 크고 유능한 AI 모델, 제미니를 소개합니다.
Gemini 기술보고서: 뛰어난 성능의 제품군 멀티모달 모델

- Bard, Gemini를 통해 역대 최대 규모로 업그레이드됩니다.

Verge, 구글 GPT-4를 무너뜨릴 AI 모델 Gemini 출시
CNBC, 구글을 가장 크고 '가장 유능한' AI 모델인 Gemini를 출시합니다.

해봄님 블로그, GPT-4를 능가하는 성능의 Gemini 발표