생성형 ai 종류 Top 22 비교 특징

[lwptoc]

생성형 AI는 사용자의 요청에 따라 새로운 콘텐츠를 만들어내는 인공지능 기술입니다. 이는 텍스트, 이미지, 비디오, 오디오, 소프트웨어 코드 등 다양한 형태의 콘텐츠를 생성할 수 있으며, 딥 러닝 모델이라는 복잡한 머신 러닝 알고리즘을 기반으로 합니다.

생성형 AI의 발전은 빠르게 진행되고 있으며, 챗GPT와 같은 툴은 이미 많은 주목을 받고 있습니다. 이러한 AI 도구들은 새로운 콘텐츠 생성 방식을 계속해서 혁신의 방향으로 이끌어 가고 있습니다. 매킨지는 생성형 AI가 글로벌 경제에 연간 최대 4.4조 달러를 기여할 것으로 예상하고 있습니다.

2024년 기준 22개의 생성형 AI를 비교하며 어느 버전까지 왔는지 알아봅니다.

1. Claude

Claude는 Anthropic에서 개발한 대규모 언어 모델로, 언어 이해, 추론, 분석, 코딩 등 다양한 작업을 수행합니다. 사용이 간편하고, 필요에 따라 맞춤 설정이 가능한 것이 특징입니다. 현재 Claude는 세 가지 주요 버전으로 제공됩니다:

하이쿠(Haiku): 기본적인 작업을 처리할 수 있는 가장 작고 빠른 모델입니다. 유해한 컨텐츠를 감지하고 검열하는 기능이 있습니다.
소네트(Sonnet): 중간 수준의 기술과 속도를 가진 모델로, 방대한 양의 지식을 빠르게 검색할 수 있으며, 업무 효율성을 강조하는 코드 생성 및 품질 관리가 가능합니다.
오푸스(Opus): 고성능 모델로, 복잡한 작업을 빠르게 처리할 수 있으며, API나 DB를 통한 복잡한 작업의 계획 및 실행, 대화형 코딩 등이 가능합니다.

2. Gemma

Gemma는 구글에서 개발한 오픈소스 언어 모델로, 가벼운 크기와 뛰어난 성능, 안전성을 특징으로 합니다. Gemma는 2B와 7B 크기의 모델로 제공되며, 각각 사전 훈련된 버전과 지시 튜닝된 버전이 있습니다. 이 모델들은 8K 토큰의 컨텍스트 길이를 지원하며, 다양한 소비자 하드웨어에서 실행될 수 있습니다.

Gemma 2B: CPU 및 온-디바이스 애플리케이션에 최적화된 버전으로, 기본 및 지시 튜닝된 변형이 있습니다.
Gemma 7B: 소비자 규모의 GPU 및 TPU에서 효율적인 배포를 위해 설계된 고성능 모델로, 또한 기본 및 지시 튜닝된 변형이 있습니다.

Gemma는 Keras 3.0, JAX, TensorFlow, PyTorch와 호환되며, 개발자가 쉽게 통합하고 사용할 수 있는 유연성을 제공합니다.

3. Gemini

Gemini AI는 구글에서 개발한 멀티모달 AI로, 텍스트, 이미지, 오디오 등 다양한 데이터 유형을 처리할 수 있습니다. 복잡한 작업을 효율적으로 수행하며, 여러 벤치마크 테스트에서 높은 성능을 보여줍니다. 이미지 인식, 음성 및 영상 이해, 수학적 추론 등에서 탁월한 성능을 나타내며, 프로그래밍 언어의 이해와 생성 능력도 갖추고 있습니다.

Gemini Ultra : 매우 복잡한 작업에 적합한 가장 유용하고 규모가 큰 모델입니다.
Gemini Pro : 다양한 작업에서 확장하기에 가장 적합한 모델입니다.
Gemini Nano : 온 디바이스 작업에 가장 효율적인 모델입니다.

4. DeepSeek

DeepSeek는 전문가 혼합(Mixture-of-Experts, MoE)을 기반으로 한 언어 모델로, 경제적인 훈련 비용과 효율적인 추론 성능을 자랑합니다. 총 236B의 파라미터를 가지고 있으며, 8.1조 토큰의 다양하고 고품질의 코퍼스에서 사전 훈련을 거쳤습니다. DeepSeek는 특히 코드 생성과 자연어 처리에서 뛰어난 결과를 보여주며, 실시간 애플리케이션에서의 사용이 용이합니다.

DeepSeek-V2: 강력한 성능과 경제적인 훈련 비용을 제공하며, 128k 토큰의 컨텍스트 길이를 지원합니다.
DeepSeek-Coder-V2: 코드 지능에서 폐쇄 소스 모델의 장벽을 깨는 오픈소스 MoE 코드 언어 모델로, GPT4-Turbo와 비슷한 성능을 달성합니다.

5. Nemotron

Nemotron은 NVIDIA에서 개발한 대규모 언어 모델로, 340B의 파라미터를 가지고 있으며, 다양한 평가 벤치마크에서 경쟁력 있는 성능을 보여줍니다. 특히, 합성 데이터 생성에 최적화되어 있어, 이를 통해 더 작은 언어 모델을 훈련하는 데 사용될 수 있습니다. Nemotron-4 340B 모델은 NVIDIA Open Model License Agreement 하에 오픈 액세스로 제공되며, 이는 모델과 그 출력물의 배포, 수정, 사용을 허용하는 관대한 모델 라이선스입니다.

Nemotron-4-340B-Base: 기본 모델로, 다양한 언어와 프로그래밍 작업에서 뛰어난 성능을 보입니다.
Nemotron-4-340B-Instruct: 지시어 튜닝된 모델로, 사용자의 채팅 선호도와 수학적 추론, 코딩 및 지시 따르기 기능이 향상되었습니다.
Nemotron-4-340B-Reward: 생성 데이터의 품질을 필터링하고 향상하는 역할을 하는 모델입니다.

이 모델들은 연구 및 상업적 응용 프로그램에서 유용하게 사용될 수 있으며, NVIDIA의 NeMo 프레임워크와 호환됩니다.

6. Llama

Llama AI는 메타(Meta)에서 개발한 대규모 언어 모델로, 다양한 크기의 매개변수를 가진 여러 버전이 있습니다. 이 모델은 고품질 데이터로 훈련되어 효율적인 성능을 발휘하며, 오픈소스로 제공되어 널리 사용됩니다. Llama AI는 다음과 같은 주요 버전으로 제공됩니다

Llama-7B: 가장 작은 모델로, 기본적인 작업에 적합합니다.
Llama-13B: 중간 크기의 모델로, 더 복잡한 작업을 수행할 수 있습니다.
Llama-70B: 가장 큰 모델로, 가장 고급 작업에 사용됩니다.

7. chatGPT

ChatGPT는 OpenAI에서 개발한 대화형 인공지능 서비스로, 방대한 데이터를 학습하여 자연스러운 대화를 생성합니다. GPT-3.5와 GPT-4를 기반으로 하며, 사용자의 질문에 대해 텍스트로 응답을 제공합니다.

GPT-3.5: 무료 버전으로, 기본적인 대화 기능을 제공합니다.
GPT-4 (Plus): 유료 버전으로, 월 20달러에 제공되며, 이미지 인식과 생성, 더 정확한 답변, 다양한 언어 지원 등 향상된 기능을 갖추고 있습니다.

8. Yi-Chat

Yi-Chat은 01.ai에서 개발한 언어 모델로, 다양한 크기의 모델이 있으며, 각각의 버전은 특정 작업에 최적화되어 있습니다. Yi-Chat은 6B, 9B, 34B 규모의 모델로 제공되며, 각각 기본(Base) 및 챗(Chat) 버전으로 나뉩니다. 이 모델들은 4k 토큰의 컨텍스트 길이를 지원하며, 500B 토큰의 지속적인 사전 학습을 통해 코딩, 추론, 지시 사항 이행 능력이 크게 향상되었습니다.

Yi-1.5-6B: 가장 작은 모델로, 기본적인 작업에 적합합니다.
Yi-1.5-9B: 중간 크기의 모델로, 더 복잡한 작업을 수행할 수 있습니다.
Yi-1.5-34B: 가장 큰 모델로, 가장 고급 작업에 사용됩니다.

이 모델들은 다양한 규모와 성능으로 구성되어 있어 사용자의 필요에 따라 선택할 수 있으며, 오픈소스로 제공되어 널리 사용됩니다. Yi-Chat은 특히 코딩, 수학, 추론 등에서 뛰어난 성능을 보여주며, 메타의 Llama 3 70B와 거의 동등한 성능을 보여주는 34B 모델이 특히 주목받고 있습니다.

9. Phi-3

Phi-3는 Microsoft에서 개발한 소형 언어 모델로, 높은 성능과 비용 효율성을 자랑합니다. 이 모델은 언어 이해, 코딩, 수학 등 다양한 작업에서 우수한 결과를 보여주며, 온디바이스 및 오프라인 환경에서도 사용 가능합니다⁶. Phi-3는 3.8B, 7B, 14B 크기의 파라미터를 가진 세 가지 버전으로 제공됩니다.

Phi-3 Mini (3.8B): 가장 작은 모델로, GPT-3.5와 유사한 성능을 제공하며, 휴대폰에서도 실행 가능합니다.
Phi-3 Small (7B): 중간 크기의 모델로, 다양한 언어의 토큰화를 더 잘 처리하며, 긴 컨텍스트 검색 성능을 유지합니다.
Phi-3 Medium (14B): 가장 큰 모델로, 더 복잡한 작업에 적합하며, 더 큰 모델들과 동등한 성능을 보여줍니다.

Phi-3는 효율적인 ‘교과서 학습’ 방식을 통해 학습되었으며, 클라우드뿐만 아니라 개인 장치에서도 뛰어난 성능을 발휘합니다

10. Reka Core

Reka Core는 Reka.AI에서 개발한 멀티모달 대규모 언어 모델로, 텍스트뿐만 아니라 이미지, 비디오, 오디오 등 다양한 형식의 데이터를 이해하고 처리할 수 있는 능력을 가지고 있습니다. 이 모델은 128K 컨텍스트 윈도우를 지원하며, 언어와 수학을 포함한 복잡한 작업을 위한 우수한 추론 능력을 보유하고 있습니다. 또한, 32개 언어에 대한 데이터로 사전 훈련되어 다양한 언어를 유창하게 처리할 수 있으며, API, 온프레미스, 온디바이스 등 다양한 방식으로 배포할 수 있어 사용자와 파트너의 요구에 유연하게 대응할 수 있습니다.

Reka Core: 복잡한 작업을 위한 우수한 능력을 가진 모델입니다.
Reka Flash: 대부분의 작업을 위한 빠르고 비용 효율적인 모델입니다.
Reka Edge: 현지(즉, 온-하드웨어) 또는 지연 시간에 민감한 응용 프로그램을 위한 경량 모델입니다.

11. Command-R

Command-R은 Cohere에서 개발한 확장 가능한 대규모 언어 모델로, 기업용 작업 및 사용 사례에 최적화되어 있습니다. 이 모델은 128k 토큰 컨텍스트 창을 특징으로 하며, 검색 증강 생성(RAG), 다국어 지원, 복잡한 비즈니스 프로세스 자동화 등의 기능을 제공합니다. 또한, Microsoft Azure와의 협력을 통해 전 세계 기업 커뮤니티에 AI 도입을 가속화하는 데 전념하고 있습니다.

Command R+: 기업 준비, 높은 신뢰성, 검증 가능한 솔루션을 제공하며, Multi-Step Tool Use를 지원하여 여러 단계에 걸쳐 여러 도구를 결합하여 어려운 작업을 수행할 수 있습니다.
Command R: 기본 모델로, RAG 및 도구 사용과 같은 주요 AI 작업에서 향상된 성능을 제공합니다.

12. Mixtral of experts

Mixtral of Experts는 Mistral AI에서 개발한 언어 모델로, 희소 전문가 혼합(Sparse Mixture of Experts, SMoE) 방식을 채택하여 각 토큰마다 라우터 네트워크가 선택한 두 전문가(experts)에 의해 처리됩니다. 이 모델은 8개의 피드포워드 블록으로 구성되어 있으며, 각 토큰은 47B 파라미터에 접근할 수 있지만 실제 추론 동안에는 13B 파라미터만 사용합니다. 이로 인해 연산 비용을 절감하면서도 높은 성능을 유지할 수 있습니다.

Mixtral 8x7B: 기본 모델로, Llama 2 70B와 GPT-3.5를 포함한 여러 벤치마크에서 동등하거나 더 높은 성능을 보여줍니다.
Mixtral 8x7B – Instruct: 지시에 따른 튜닝이 적용된 모델로, 인간 벤치마크에서 GPT-3.5 Turbo, Claude-2.1, Gemini Pro, Llama 2 70B – chat 모델을 능가하는 성능을 보여줍니다.

이 모델들은 수학, 코드 생성, 다국어 벤치마크에서 특히 우수한 성능을 나타내며, Apache 2.0 라이선스 하에 오픈소스로 제공됩니다.

13. Qwen

Qwen은 알리바바에서 개발한 다국어 범용 언어모델로, Llama3를 능가하는 성능을 자랑합니다. 특히 한국어를 포함한 27가지 다국어 능력과 수학, 코딩 등 다양한 분야에서 높은 벤치마크 점수를 기록합니다. 컨텍스트 길이는 128K 토큰까지 지원하며, 72B 파라메터 사이즈의 가장 큰 모델은 고성능 GPU에서도 실행 가능합니다.

Qwen2-0.5B: 가장 작은 모델로, 기본적인 작업에 적합합니다.
Qwen2-72B: 가장 큰 모델로, 복잡한 작업과 다양한 언어 및 프로그래밍 작업에 사용됩니다.
Qwen2-72B-Instruct: 명령 조정 변형으로, 프로그래밍 언어에서 수학적 문제 해결과 코딩 작업에 탁월한 성능을 보여줍니다.

14. GLM-4

GLM-4는 Zhipu AI에서 개발한 언어 모델로, 26개 언어를 지원하며, 9B 규모의 멀티모달 대규모 언어 모델(MLLM)입니다. 이 모델은 긴 텍스트와 복잡한 문맥을 처리하는 데 강점을 보이며, 의미론, 수학, 추론, 코드, 지식 평가에서 뛰어난 성능을 나타냅니다.

GLM-4-9B: 기본 모델로, 8K 시퀀스 길이를 지원합니다.
GLM-4-9B-Chat: 채팅 모델로, 128K 컨텍스트를 지원하며 웹 브라우징, 코드 실행 등의 고급 기능을 제공합니다.
GLM-4-9B-Chat-1M: 채팅 모델로, 1M 컨텍스트 길이를 지원합니다.
GLM-4V-9B: 멀티모달 기능을 갖춘 모델로, 8K 시퀀스 길이를 지원하며 고해상도 이미지 처리가 가능합니다.

15. Snowflake AI

Snowflake AI는 데이터 분석 및 인공지능 애플리케이션을 위한 완전 관리형 서비스를 제공하는 플랫폼입니다. 이는 사용자가 기술적인 전문 지식과 관계없이 생성형 AI를 활용할 수 있도록 지원하며, Snowflake 내에서 신속하게 데이터를 분석하고 AI 애플리케이션을 구축할 수 있게 해줍니다.

Snowflake Cortex: LLM을 사용하여 비정형 데이터를 이해하고, 자유형 질문에 답변하며, 지능적인 지원을 제공합니다.
Universal Search: 데이터와 앱을 신속하게 검색하고 액세스할 수 있는 LLM 기반 검색 기능입니다.
Snowflake Copilot: 자연어로 SQL을 생성하고 구체화하는 LLM 기반 어시스턴트입니다.

16. DBRX Instruct

DBRX Instruct AI는 Databricks에서 개발한 대규모 언어 모델로, 1320억 개의 파라미터를 가진 혼합 전문가(Mixture-of-Experts, MoE) 모델입니다. 이 모델은 16개의 전문가 네트워크를 가지고 있으며, 각 추론 시 4개의 전문가가 활성화되어 360억 개의 파라미터를 사용합니다. DBRX Instruct AI는 다음과 같은 두 가지 주요 버전으로 제공됩니다:

DBRX Instruct: 특정 지시에 따른 최적화를 거친 모델로, 짧은 턴의 상호작용에 특화되어 있습니다.
DBRX Base: 사전 훈련된 기본 모델로, DBRX Instruct의 기반이 되는 모델입니다.

이 모델들은 언어 이해, 프로그래밍, 수학 등에서 뛰어난 성능을 보이며, 다양한 벤치마크에서 GPT-3.5를 능가하는 결과를 보여줍니다. 또한, DBRX는 오픈 소스로 제공되어 사용자가 자신의 데이터에 맞게 모델을 커스터마이즈 할 수 있습니다.

17. Zephyr 141B-A35B

Zephyr 141B-A35B는 Hugging Face와 KAIST, Argilla가 협력하여 개발한 언어 모델로, Odds Ratio Preference Optimization (ORPO)이라는 새로운 정렬 알고리즘을 사용하여 훈련되었습니다. 이 모델은 141B의 총 파라미터를 가지며, 실제 추론 시에는 39B의 활성 파라미터를 사용합니다. 주로 영어를 지원하며, 다양한 벤치마크에서 강력한 성능을 보여주는 것으로 알려져 있습니다.

Zephyr 141B-A35B-v0.1: 기본 모델로, 일반적인 채팅 기능과 코드, 수학, 추론 데이터에 대한 높은 성능을 제공합니다.
Zephyr 141B-A39B: 이 버전은 ORPO를 사용하여 더욱 향상된 성능을 제공하며, MT Bench 및 IFEval과 같은 벤치마크에서 높은 점수를 기록했습니다.

18. OLMo-7B

OLMo-7B는 Allen Institute for AI에서 개발한 언어 모델로, 대규모 텍스트 데이터셋을 기반으로 학습되었습니다. 이 모델은 2048 토큰의 컨텍스트 길이를 지원하며, 32개의 레이어와 4096개의 히든 사이즈, 32개의 어텐션 헤드를 가지고 있습니다. OLMo-7B는 특히 MMLU 평가에서 24점의 상승을 보였으며, Dolma 데이터셋의 개선된 버전과 단계적 학습을 통해 성능이 향상되었습니다.

OLMo 1B: 3조 토큰으로 학습된 모델로, 16개의 레이어와 2048개의 히든 사이즈를 가집니다.
OLMo 7B Twin 2T: 2조 토큰으로 학습된 모델로, 32개의 레이어와 4096개의 히든 사이즈를 가집니다.
OLMo 1.7-7B: 2.05조 토큰으로 학습된 최신 모델로, QKV 클리핑이 포함되어 있으며, 4096 토큰의 컨텍스트 길이를 지원합니다.

19. Vicuna

Vicuna는 오픈소스 챗봇으로, GPT-4와 유사한 90% 수준의 ChatGPT 품질을 제공합니다. Vicuna-13B 모델은 약 70,000개의 사용자 공유 대화를 통해 미세 조정되었으며, LLaMA를 기반으로 성능이 최적화되었습니다.

Vicuna-13B: 기본 모델로, 일반적인 채팅 기능과 코드, 수학, 추론 데이터에 대한 높은 성능을 제공합니다.
Vicuna-13B-Chat: 채팅 모델로, 128K 컨텍스트를 지원하며 웹 브라우징, 코드 실행 등의 고급 기능을 제공합니다.

20. OpenHermes

OpenHermes는 Hugging Face와 Teknium이 협력하여 개발한 언어 모델로, 주로 GPT-4에서 생성된 데이터를 기반으로 학습되었습니다. 이 모델은 다양한 AI 데이터셋에서 242,000개의 항목을 통해 훈련되었으며, 특히 코드 지시, 역할 놀이, 일반 지시 등의 데이터셋을 포함합니다. OpenHermes는 다음과 같은 주요 버전으로 제공됩니다:

OpenHermes-13B: 기본 모델로, 일반적인 채팅 기능과 코드, 수학, 추론 데이터에 대한 높은 성능을 제공합니다.
OpenHermes-13B-Chat: 채팅 모델로, 128K 컨텍스트를 지원하며 웹 브라우징, 코드 실행 등의 고급 기능을 제공합니다.

21. LLaVA

LLaVA는 텍스트와 이미지를 모두 이해할 수 있는 멀티모달 AI로, GPT-4와 유사한 대화 기능을 제공하며, Vicuna와 결합된 비전 인코더를 사용합니다. 이는 과학 QA 작업에서 높은 정확도를 달성하고, 다양한 언어와 시각적 이해력을 갖추고 있습니다. LLaVA는 오픈소스 프로젝트로, 연구 커뮤니티와 협력하여 AI 분야의 최첨단 기술을 발전시키고 있습니다.

기본 버전: 일반적인 채팅 기능과 코드, 수학, 추론 데이터에 대한 높은 성능을 제공합니다.
채팅 버전: 128K 컨텍스트를 지원하며 웹 브라우징, 코드 실행 등의 고급 기능을 제공합니다.

22. Copilot

Copilot은 Microsoft에서 개발한 AI 도우미로, 사용자가 효율적으로 작업을 수행하도록 지원합니다. 자연어 처리 기능을 통해 사용자의 질문에 대한 답변을 제공하고, 다양한 작업을 돕습니다. Copilot은 무료 버전과 Pro 버전으로 제공되며, Pro 버전은 월 29,000원에 이용할 수 있습니다. 무료 버전은 기본적인 AI 기능을 제공하고, Pro 버전은 추가 기능과 빠른 속도를 제공합니다.