特定用途向け「高速化SLM」を構築する一連のプロセスとアーキテクチャ全体像

1. はじめに：なぜ今「高速化SLM」なのか？

ChatGPTやClaudeなどの膨大なパラメータを持つ超高機能なLLM、本当に便利ですよね。しかし、いざ独自の業務システムやプロダクトに組み込もうとした瞬間、以下のような「3重苦」に直面したことはありませんか？

💸 コスト問題：「APIの従量課金が高すぎて、プロダクトに組み込むとROIが合わない...」
⏱️ 速度問題：「レスポンス（TTFT: Time To First Token）が遅すぎて、ユーザー体験（UX）が悪化する...」
🔒 セキュリティ問題：「機密扱いの独自データを外部のAPIに投げるのは、セキュリティ部門の審査を通らない...」

私も、まさにこの課題に直面しました。そこで「どうすればこの3重苦を解決できるか？」について複数の技術書や論文を調査し、検証を重ねてきました。その結果、実用レベルで機能することを確認できたのが、『用途に特化した、爆速・低コストな小規模言語モデル（SLM：Small Language Model）を自前でチューニングして運用する』というアプローチです。

巨大なLLMは「何でもできる万能な天才」ですが、実際のシステム開発の現場が求めているのは、多くの場合「特定のタスクを、正確に、爆速でこなす職人」です。例えば「独自SDKのコード生成」など、ドメインが限定されたタスクであれば、7Bクラスの軽量なオープンモデル（本プロジェクトでは Qwen-7B を採用）に独自のドメイン知識をLoRAで注入することで、汎用LLMに匹敵（あるいは凌駕）する精度を叩き出せます。

実例として、みずほフィナンシャルグループなどの大企業でも、Qwenベース（32B）の独自LLMをオンプレ運用し、トップクラスの精度（GPT-5.2相当）を達成したという事例紹介のニュース（2026/03/06）が出ており、このアプローチの信憑性と実用性は日々高まっています。

この記事では、私が実際に手を動かして検証した「特定ドメイン向け・高速SLM」のアーキテクチャ全体像から、独特なデータブレンド戦略、GCP/Terraformによるインフラ自動化、学習パイプラインの実装、そして厳格な品質評価の裏側まで、その全プロセスを一挙に公開します。「APIを叩くだけのLLM開発」から一歩先へ進みたいエンジニアの皆さんの参考になれば幸いです。

2. アーキテクチャの全体像

世間一般で言われるLLM/SLMの用途といえば「チャットボット」や「社内文章の要約」などを想像しがちです。しかし、本プロジェクトの目的は「独自ドメインの開発支援（コーディング）に特化した高速なSLM」を作ることです。

汎用的なチャット用途ではなく、独自SDKやコーディングルールに精通した「コード生成に特化したAI」を構築するためには、単にモデルをダウンロードして動かすだけでは不十分です。質の高い大量のソースコード（OSSの堅牢なコードと独自の実務コード）を収集・検証し、効率よく学習させる仕組み全体を一から整備する必要があります。

まずは、今回構築したSLMパイプラインの全体像をご紹介します。全体の流れは、大きく以下の4つのフェーズに分かれています。

1 データ抽出パイプライン: OSSリポジトリと独自の非公開データを収集・検証・フォーマット
2 インフラプロビジョニング: Terraformを用いたGCP L4インスタンス（g2-standard-8）の即時構築
3 継続的学習（LoRA）: Qwen-7Bをベースモデルとし、独自のドメイン知識を安全に注入
4 評価・検証フェーズ: 自動評価テストと専門家による「容赦ない（Ruthless）マニュアルレビュー」

技術スタックは、実用性とコストパフォーマンスを最重視し、以下のようなモダンな構成を採用しました。
- Base Model: Qwen-7B （軽量かつ高精度、日本語性能も優秀）
- Tuning Method: LoRA （Low-Rank Adaptationによる省メモリ・高速学習）
- Infrastructure: Google Cloud Platform (GCP) L4 GPU (g2-standard-8)
- IaC: Terraform （学習環境の自動構築・破棄によるクラウド費用のハック）

ステップ1：データ戦略（OSSとドメイン知識のハイブリッド）

「Garbage in, garbage out（ゴミを入れればゴミが出てくる）」という言葉が示す通り、SLMの良し悪しは100%「データの質」で決まります。汎用LLMに対抗するためには、独自のドメイン知識（SDKの仕様や独自のコーディングルール）をモデルに学ばせる必要があります。しかし、独自データだけでは文章のバリエーションや基礎的な推論能力が不足しがちになります。

そこで私が採用したのが「OSSデータ（70%）＋独自の実務データ（30%）」のハイブリッド戦略です。

🌐 OSSデータ（70%）: 高品質なオープンソースリポジトリから、お手本となる堅牢なコードやDocstringを抽出。モデルの基礎的な推論能力やコーディング文法を補強します。
🏢 独自の実務データ（30%）: SDKの仕様書や実際の公開・非公開プロジェクトコード。これがSLMを「万能な天才」から「専用の職人」へと変える秘伝のタレになります。

ただ闇雲にデータをかき集めるのではなく、独自のデータ抽出・検証パイプライン（Pythonのextractor.py / validator.py など）を自作し、「量より質」を徹底しました。

ステップ2：インフラ自動構築とコスト最適化

独自のモデルを学習させるにはGPU環境が不可欠ですが、A100やH100のようなハイエンドGPUを常に稼働させておくと、あっという間にクラウド破産（💸）してしまいます。

本プロジェクトでは徹底したコスト最適化をテーマに掲げ、GCPのL4 GPUインスタンス（g2-standard-8）を採用しました。L4は推論や小〜中規模モデルの学習において非常にコストパフォーマンスが高く、開発の取り回しがしやすいのが特徴です。実績として、Qwen-7Bのチューニングにおいて数時間の学習を回すだけの利用であれば、わずか数百円程度のクラウド費用で済んでおり、自前で高価なGPUマシンを購入するより遥かに安上がりです。

さらに、Terraform（IaC）を導入し、「学習を行う時だけGPU環境を立ち上げ、終わったら即座にリソースを破棄する」という自動化パイプラインを実装しました。これにより、不要なアイドル時間のコストを極限まで削減し、前述の「数百円」という低コストを実現しています。

また、コスト面だけでなくTTFT（Time To First Token：最初の文字が出力されるまでの時間）の計測テストも組み込み、「エンドユーザーにとってのレスポンス速度」というUXの観点も妥協しないインフラ設計にこだわりました。

ステップ3：LoRAによる効率的なファインチューニング

ベースモデルには、日本語の言語能力とコーディング推論能力のバランスに優れたQwen-7Bを採用しました。7Bというサイズは、L4 GPU単体でも十分に取り扱いが可能で、推論コストを圧倒的に抑えられる「SLMのスイートスポット」です。

フルパラメータのファインチューニングはコストも時間もかかりすぎるため、LoRA（Low-Rank Adaptation）を用いて、モデルの一部（アダプター）のみを追加学習させる手法をとりました。これにより、GPUメモリの消費量を劇的に抑えつつ、先ほど構築した「秘伝のタレ（独自ドメインデータ）」をモデルに素早く注入させることが可能になっています。

また、手動での作業によるヒューマンエラーを排除するため、学習パイプライン全体をスクリプト化し、「簡単なコマンド一つで最新データを読み込み、再学習できる」という自動化環境を構築済みです。

ステップ4：検証と評価（品質をどう担保するか？）

「独自モデルを作って動いた！満足！」ではなく、実務で本当に使い物になるかを厳しく評価（Ruthless Evaluation）することが最も重要です。

本プロジェクトでは、以下の2段構えで評価を実施しています。

ベースライン分析（定量的評価）: ファインチューニング前のベースモデル（Qwen-7B）と学習後のモデルで同じタスクの推論を実行し、「LoRAの学習によってどれだけ実力が向上したか（Performance Delta）」を数値で比較します。
専門家によるマニュアルレビュー（定性的評価）: モデルが出力した20パターンの生成コードについて、シニアエンジニアが直接目視でレビューを行いました。「論理的正確性」「例外処理の妥当性」「可読性」などの評価軸から採点し、AI特有のハルシネーション（もっともらしい嘘）がないか、実務で安心して使えるレベルかを厳格に見極めました。
この「定量＋定性」のクロスチェックにより、業務システムに組み込める品質を担保しています。

おわりに：プロジェクトを通じて得られた知見

ここまで、「特定ドメイン向け・高速SLM」を構築する一連のプロセス概要をご紹介しました。

実際に手を動かして痛感したのは、「AIモデルの性能は、結局のところ泥臭いデータパイプラインとインフラエンジニアリングの上に成り立っている」という事実です。単に話題のオープンモデルをダウンロードして動かすだけでなく、質の高い学習データを集め、IaCでコストを抑え込み、厳格な評価指標を設けることで、初めて「実務で使えるSLM」が完成します。

今後は、このモデルを実際の開発フロー（IDEのプラグイン連携や自動コードレビューなど）に組み込んでいく予定です。

また、各ステップの具体的なソースコード（IaCのTerraformコード、データ抽出のPythonリポジトリ構成、LoRAの具体的なハイパーパラメータなど）については、今後の連載記事で1テーマごとに深掘りして解説していきますので、ぜひそちらも楽しみにしてください！

雪泥鴻爪--IT技術者の随筆