Home事業内容産業・技術・市場調査およびコンサルティング事業瞰鑑楽学先進技術調査小規模言語モデル(SLM:Small Language Model)とは

Research & consulting産業・技術・市場調査およびコンサルティング事業

かん かん がく がく

小規模言語モデル(SLM:Small Language Model)とは

小規模言語モデル(SLM:Small Language Model)とは

 「ChatGPT」が公開された2022年以降、大規模言語モデル(LLM:Large Language Model)に注目が集まっている。ChatGPTは生成AIの1つであり、自然言語生成に特化したAIサービスである。

 2022年は、生成AI技術が飛躍的に進歩した年である。まず、MidjourneyやStability AI等の画像生成AIサービスが公開された。これらのサービスは、広告や商品デザイン等、限られた業界や職種に影響を与えるとの見方があった。しかし、2022年末に公開されたChatGPTは、文書作成、サプライチェーン管理、ソフトウェア開発、顧客対応等、活用可能性が幅広く、その影響は多方面にわたる。また、ChatGPTを活用する技術的ハードルは低く、誰もが簡単にアクセスして利用できる。自身の業務や産業全体にChatGPTが与えるインパクトの大きさを感じたビジネスパーソンも多かったのではなかろうか。

 ChatGPTの登場以降、巨大IT企業やスタートアップはこぞって独自のLLMを開発し、サービスの提供を始めている。LLMの開発とサービス提供が進む一方で、効率性やセキュリティーなどの観点から、小規模言語モデル(SLM(Small Language Model)への注目も高まっている。

 LLMとSLMの違いを表1に示す。LLMに比べて大幅に少ないパラメータ数で構成された非常に軽量なモデルであるSLMは、特定のタスクに特化することで開発コストを抑えられ、スマートフォンやIoTデバイスなどの小型端末にも利用できる。限定的なユースケース、すなわち特定の分野に特化したAIモデルを開発する場合、パラメータ数の少ないSLMは、LLMに比べて性能を落とすことなくレイテンシーを低減できる。また、AIモデルが想定外の挙動をするリスクも低減できることから、SLMはLLMよりも優れた選択肢になり得る。

 SLMの主要プレイヤー(一部)が公開しているモデルを表2に示す。OpenAIのGPT-4o miniは、テキストと画像処理に対応したマルチモーダルモデル*1である。長文を一括で解析できかつ創作もできる点、多言語に対応している点などが特徴である。2024年8月からは、GPT-4o miniとGPT-4oのファインチューニング*2が可能になっており、GPT-4o miniやGPT-4oを活用して自社事業に特化したAIモデルが作成できる。GoogleのGemma 2B(2Bはパラメータ数:Two Billionを示す)はモバイルデバイスやノートPCで、Gemma 7BはデスクトップPCや小規模サーバでそれぞれ実行できる。

 Microsoft phi-3.5は、「Phi-3.5-mini-instruct」、「Phi-3.5-MoE-instruct」、「Phi-3.5-vision-instruct」の3つのモデルで構成されている。「Phi-3.5-mini-instruct」は、基本的な推論や高速処理が必要なタスクに適している。「Phi-3.5-MoE-instruct」は、Mixture of Experts(MoE)*3アーキテクチャを採用しており、汎用的で高度な推論が可能になるだけでなく、計算リソースを効率的に利用できる。 つまり、計算効率を維持しながら大きなパラメータ空間を活用できる。このモデルは日本語を含む多言語に対応しており、グローバルアプリケーションに有用なモデルである。特に、Reasoning(一連の推論を組み合わせて体系的・論理的に推論する能力)やMath(数学的推論能力)、コード理解に優れた性能を発揮する。「Phi-3.5-vision-instruct」はマルチモーダルモデルであり、画像や動画処理(例:OCR、図表の解釈、複数画像やビデオクリップの要約)に適している。

 MetaのMobileLLMは、深い階層構造を採用してパラメータ数(1.25億個と3億個)を少なく抑えており、スマートフォンやリソース制約のあるデバイス向けである。研究目的での利用を前提に提供されている。Hugging FaceのSmolLM2は、モバイルデバイスで実行できるよう設計されており、パラメータサイズごとに3つのモデルが準備されている。SmolLM2の登場によって、エッジコンピューティングの可能性が大幅に引き上げられ、プライバシーやレイテンシー等の課題解決が期待される。NVIDIAがMistral AIとともに開発したMistral-NeMoは、FP8*4をモデル推論に使用してメモリサイズを削減しており、精度を維持しつつ高速処理ができる。

 本原稿を執筆している間にも、SLMは急速に進化している。既存のSLMがアップデートされ、新しいモデルが次々と公開される現状は、この技術への注目度の高さに対する表れであろう。

 SLMは、LLMよりもコンパクトな構造でローカル環境において実行でき、データをオンプレミスで扱える。このため、高い専門性、機密性やプライバシーが求められる分野、例えば、秘匿性の高いデータを扱う金融や医療、法律などの分野で、活用が期待されている。もちろん、秘匿性の高いデータが集まる製造現場での活用も十分にあり得ると考える。

 SLMはどの産業分野でどのように使われていくのか、今後が楽しみである。


*1 複数の異なる種類のデータ(音声、数値、テキスト、画像、動画など)を統合して処理するモデル
*2 事前学習したモデルを別のデータセットを使用して再学習することにより、新しいタスクやユースケースに合わせて調整する
*3 複数のExpert(専門家)モデルを組み合わせる手法
*4 8ビットの浮動小数点

一覧に戻る
産業・技術・市場調査および
コンサルティング事業
トップに戻る

調査に関するお問い合わせはこちら

お問い合わせフォーム