AI/AI 동향

MistralAI - 최고의 성능까지 갖춘 최초의 Apache 2.0 라이선스 LLM 모델 등장

RevFactory 2023. 10. 6. 03:36

현재 X (트위터) 에서 가장 많이 언급되고 있는 키워드가 아마도 Mistral이 아닐까 싶은데요.
아마도 Meta의 Llama2 가 이끌고 있던 오픈 LLM 진영에 새로운 돌풍이 일고 있는 것 같습니다.

현재 공개된 모델은 73억(7.3B) 매개변수를 가진 Mistral 7B 입니다. 
LLM으로는 처음으로 Apache 2.0 라이선스로 공개하였으며, 제한 없이 사용할 수 있습니다.

참고로 Meta의 Llama는 처음에 GPLv3 로 공개했다가, 사용 제약등으로 인해 현재는 LLAMA 2 COMMUNITY LICENSE 로 오픈소스로 분류되진 않고 있습니다. (LLaMa 2 라이선스는 오픈 소스가 아닙니다.)

Mistral 7B는 사용 제한도 없는데다가 성능까지도 획기적으로 올라간 벤치마크도 공개했습니다.
비슷한 매개변수를 가진 Llama2 7B를 뛰어넘어, 보다 더 큰 규모의 Llama 2 13B 도 아닌 Llama 34B와 동등하다고 주장합니다.

개발자 커뮤니티인 HackerNews에서는 벤치마크 결과가 부풀려졌을 가능성 및 모델 훈련에 사용된 데이터셋 출처에 대한 우려도 있습니다.

 

보다 자세한 벤치마크 보기 : https://mistral.ai/news/announcing-mistral-7b/

 

Mistral 7B

The best 7B model to date, Apache 2.0

mistral.ai

 

이와 같은 놀라운 성능 뒤에는 더 빠른 추론을 위해 GQA(Grouped-query attention)를 사용했으며, 슬라이딩 윈도우 어텐션(SWA)을 사용하여 더 적은 비용으로 더 긴 시퀀스를 처리하는데 비결이 있었다고 합니다. 

Mistral 7B 는 어떤 클라우드 (AWS, GPC, Azure) 에서도 vLLM 추론서버 및 skypilot 을 이용해 사용 할 수 있습니다. HuggingFace에서도 사용해볼 수 있습니다. 저는 아직 해보지 못했는데 M1 이상의 맥북에서도 잘 동작한다고 합니다. 로컬에서 GPT3.5와 비슷한 결과를 받을 수 있다는 평가. 관심있으신분들은 한번 해보세요. 모델은 llama.cpp에 의해 지원되기 때문에 macOS의 FreeChat에서 작동한다고 하네요. (GitHub) 

Mistral 7B를 만든 주역은 프랑스의 스타트업으로 창업한지 4주만인 지난 6월 1440억 시드 라운드로 투자를 받았으며, 창립 멤버들이 딥마인드 출신들인 것으로 알려져 있습니다.

AssemblyAI 유튜브 채널에 올라온 MistralAI 리뷰

 

(참고) Sliding Window Attention(SWA)
고정된 window size를 정한 후 window size만큼만 attention 연산을 수행하고, 뒤 레이어로 이동할떄마다 window size만큼 이동하여 attention 연산을 수행해나간다 (두 번째 이미지 참고). 이를 통해 인풋 시퀀스 n에 대한 계산 복잡도는 O(n*n), 즉 선형복잡도를 갖게 되어 긴 seqeunce도 빠르게 연산이 가능하다. 하지만 window size는 인풋 시퀀스가 작아야 한다는 제약이 있기 떄문에, 시퀀스가 길어질 수록 전체 컨텍스트를 참조하지 못한다는 한계가 있다. (출처)