■小規模言語モデル(SLM:Small Language Model)とは
「ChatGPT」が公開された2022年以降、大規模言語モデル(LLM:Large Language Model)に注目が集まっている。ChatGPTは生成AIの1つであり、自然言語生成に特化したAIサービスである。
2022年は、生成AI技術が飛躍的に進歩した年である。まず、MidjourneyやStability AI等の画像生成AIサービスが公開された。これらのサービスは、広告や商品デザイン等、限られた業界や職種に影響を与えるとの見方があった。しかし、2022年末に公開されたChatGPTは、文書作成、サプライチェーン管理、ソフトウェア開発、顧客対応等、活用可能性が幅広く、その影響は多方面にわたる。また、ChatGPTを活用する技術的ハードルは低く、誰もが簡単にアクセスして利用できる。自身の業務や産業全体にChatGPTが与えるインパクトの大きさを感じたビジネスパーソンも多かったのではなかろうか。
ChatGPTの登場以降、巨大IT企業やスタートアップはこぞって独自のLLMを開発し、サービスの提供を始めている。LLMの開発とサービス提供が進む一方で、効率性やセキュリティーなどの観点から、小規模言語モデル(SLM(Small Language Model)への注目も高まっている。
LLMとSLMの違いを表1に示す。LLMに比べて大幅に少ないパラメータ数で構成された非常に軽量なモデルであるSLMは、特定のタスクに特化することで開発コストを抑えられ、スマートフォンやIoTデバイスなどの小型端末にも利用できる。限定的なユースケース、すなわち特定の分野に特化したAIモデルを開発する場合、パラメータ数の少ないSLMは、LLMに比べて性能を落とすことなくレイテンシーを低減できる。また、AIモデルが想定外の挙動をするリスクも低減できることから、SLMはLLMよりも優れた選択肢になり得る。
SLMの主要プレイヤー(一部)が公開しているモデルを表2に示す。OpenAIのGPT-4o miniは、テキストと画像処理に対応したマルチモーダルモデル*1である。長文を一括で解析できかつ創作もできる点、多言語に対応している点などが特徴である。2024年8月からは、GPT-4o miniとGPT-4oのファインチューニング*2が可能になっており、GPT-4o miniやGPT-4oを活用して自社事業に特化したAIモデルが作成できる。GoogleのGemma 2B(2Bはパラメータ数:Two Billionを示す)はモバイルデバイスやノートPCで、Gemma 7BはデスクトップPCや小規模サーバでそれぞれ実行できる。
Microsoft phi-3.5は、「Phi-3.5-mini-instruct」、「Phi-3.5-MoE-instruct」、「Phi-3.5-vision-instruct」の3つのモデルで構成されている。「Phi-3.5-mini-instruct」は、基本的な推論や高速処理が必要なタスクに適している。「Phi-3.5-MoE-instruct」は、Mixture of Experts(MoE)*3アーキテクチャを採用しており、汎用的で高度な推論が可能になるだけでなく、計算リソースを効率的に利用できる。 つまり、計算効率を維持しながら大きなパラメータ空間を活用できる。このモデルは日本語を含む多言語に対応しており、グローバルアプリケーションに有用なモデルである。特に、Reasoning(一連の推論を組み合わせて体系的・論理的に推論する能力)やMath(数学的推論能力)、コード理解に優れた性能を発揮する。「Phi-3.5-vision-instruct」はマルチモーダルモデルであり、画像や動画処理(例:OCR、図表の解釈、複数画像やビデオクリップの要約)に適している。
MetaのMobileLLMは、深い階層構造を採用してパラメータ数(1.25億個と3億個)を少なく抑えており、スマートフォンやリソース制約のあるデバイス向けである。研究目的での利用を前提に提供されている。Hugging FaceのSmolLM2は、モバイルデバイスで実行できるよう設計されており、パラメータサイズごとに3つのモデルが準備されている。SmolLM2の登場によって、エッジコンピューティングの可能性が大幅に引き上げられ、プライバシーやレイテンシー等の課題解決が期待される。NVIDIAがMistral AIとともに開発したMistral-NeMoは、FP8*4をモデル推論に使用してメモリサイズを削減しており、精度を維持しつつ高速処理ができる。
本原稿を執筆している間にも、SLMは急速に進化している。既存のSLMがアップデートされ、新しいモデルが次々と公開される現状は、この技術への注目度の高さに対する表れであろう。
SLMは、LLMよりもコンパクトな構造でローカル環境において実行でき、データをオンプレミスで扱える。このため、高い専門性、機密性やプライバシーが求められる分野、例えば、秘匿性の高いデータを扱う金融や医療、法律などの分野で、活用が期待されている。もちろん、秘匿性の高いデータが集まる製造現場での活用も十分にあり得ると考える。
SLMはどの産業分野でどのように使われていくのか、今後が楽しみである。
*1 複数の異なる種類のデータ(音声、数値、テキスト、画像、動画など)を統合して処理するモデル
*2 事前学習したモデルを別のデータセットを使用して再学習することにより、新しいタスクやユースケースに合わせて調整する
*3 複数のExpert(専門家)モデルを組み合わせる手法
*4 8ビットの浮動小数点