본문 바로가기

멀티모달2

Google, GPT를 넘어선 Gemini 시대가 열렸습니다. Google 에서 Gemini 를 전격 공개했습니다. Gemini는 처음부터 멀티모달로 구축되었기 때문에 텍스트, 코드, 오디오, 이미지, 동영상 등 다양한 유형의 정보를 일반화하고 원활하게 이해하며, 여러 정보에 걸쳐 작동하고 결합할 수 있다고 합니다. Gemini 의 소개에 앞서 Gemini 의 멀티모달 기능을 이용하여 AI 와 상호작용 하는 영상을 먼저 시청할 것을 추천드려봅니다. 소리를 켜고 한글 자막 적용 후 아래 영상을 시청해보세요! Hands-on with Gemini: Interacting with multimodal AI - YouTube 1. Gemini는 3가지 사이즈로 제공됩니다. 첫 번째 버전인 Gemini 1.0 은 3가지 크기에 맞춰 공개되었는데요. 데이터 센터부터 모바일 기기.. 2023. 12. 7.
GPT-4V 로 살펴보는 LMM(Large Multimodal model)s 시대의 서막 - 1부 최근 마이크로소프트에서 "The Dawn of LMMs" 이란 제목의 논문을 발표했습니다. 여기서는 정량적 벤치마킹 대신 정성적 결과를 사용하여 GPT-4V의 새로운 기능과 잠재적인 새로운 사용 사례를 엿볼 수 있었습니다. 물론 아직까지는 완전히 신뢰할 수 없는 새로운 기능일지라도 GPT-4V가 이미 수행할 수 있는 기능을 발견하고 미리 살펴보데 의의를 두고 있다고 합니다. 이 논문에서는 세부 카테고리별로 프롬프트와 이미지를 통한 GPT-4V 의 결과를 소개하고 있으며, 무려 124개의 이미지 사례를 포함하고 있습니다. 여기서는 모든 사례를 소개할 수 없으므로 한번쯤은 해당 논문을 참고하여 살펴보시는 것을 권장드립니다. https://arxiv.org/pdf/2309.17421.pdf * PDF 논문을 .. 2023. 10. 7.