SLM連載1:「自前SLM」に挑む前に知っておきたいAI＆インフラ基礎用語

「独自のコード生成AIをローカルで動かしたい！」「コストをかけずに専用のモデルを作りたい！」
そんな夢を叶えるためにプロジェクトを始めたものの、いざ技術記事（前回公開したハブ記事など）を読むと、「SLM」「LoRA」「IaC」「TTFT」といった呪文のような横文字ばかりで思考停止してしまった......。
そんな方も多いのではないでしょうか？
この記事は、プログラミングやインフラの深い知識がなくても、「なぜその技術が必要なのか？」「どんな魔法を使っているのか？」が中学生でもわかるレベルで理解できるようになる、基礎知識と用語の解説ガイドです。
これさえ読めば、難しそうなアーキテクチャ図やAIの解説記事がスラスラと頭に入ってくるようになります！

---

1. LLM と SLM って何が違うの？（万能な天才 vs 専用の職人）

最近よく聞く「LLM（Large Language Model：大規模言語モデル）」の代表格と言えば、ChatGPT（OpenAI）やClaude（Anthropic）などです。

これらは、インターネット上のあらゆる情報を学習した「超巨大な脳みそ」を持っています。
* LLM（大規模言語モデル）の正体：
* 例え：「何でも知っている万能な天才」
* メリット：翻訳、プログラミング、雑談、要約など、何をやらせても高得点を出す。
* デメリット：脳みそ（パラメータ数・数百億〜数千億）が大きすぎて、自前のパソコンやサーバーで動かすにはスーパーコンピューター級の機材が必要（＝手元で構築するのは困難で、APIを使うとコストが高い）。

これに対して、私たちが今回構築したのがSLM（Small Language Model：小規模言語モデル）です。
数億〜数十億パラメータ（7Bなど）と、LLMに比べて脳みそを「あえて小さく」したモデルです。
* SLM（小規模言語モデル）の正体：
* 例え：「特定のタスクだけを爆速でこなす職人」
* メリット：脳みそが小さいので、安価なGPU（L4など）や普通のパソコンでもサクサク動く。
* デメリット：一般的な知識はLLMに劣るため、「知らないことは答えられない（AI特有の幻覚を起こしやすい）」。
* 勝算：特定のルールや独自の仕様（ドメイン知識）だけを徹底的に叩き込めば、その限定された領域においては「万能な天才（LLM）」と同等か、それ以上の力を発揮できる！

2. 実は誰でも無料で使える「オープンモデル」と話題の「Qwen」

SLMを自前で構築するにあたり、もう一つ重要なのが「オープンモデル（Open Model）」という概念です。

* プロプライエタリ（非公開）モデル：
* ChatGPT（GPT-4）やClaudeのように、企業が中身の設計図や重みデータを秘密にしているモデルです。API経由でお金を払って使わせてもらいます。

* オープンモデル（Open Model）：
* 開発元が「皆さんの環境で自由にダウンロードして使っていいよ！」と無償で公開してくれているモデルです。
* 代表的な例：
* Llama（ラマ）：Meta社（Facebook）が公開しているオープンモデルの世界的リーダー。
* Mistral（ミストラル）：フランスのAI企業が開発し、高い効率性で世界を驚かせたモデル。
* Gemma（ジェンマ）：GoogleがGeminiの技術をベースに軽量化して公開したモデル。
* そして、本プロジェクトで採用したQwen（千問：チェンウェン）です。

数あるオープンモデルの中でも、今回採用したQwen（千問）は、Alibaba Cloudが開発した非常に優秀な大注目モデルです。
特に「日本語の理解力」と「プログラミング（コード推論）の能力」のバランスにおいて、同じサイズの他のオープンモデルを圧倒するポテンシャルを持っています。この「優秀な基礎学力を持ったオープンモデル」を無料で使えるからこそ、自作SLMの敷居が劇的に下がっているのです。

3. モデルを賢くする魔法「LoRA（ローラ）」とは？

「独自の仕様をモデルに叩き込む」と言っても、AIの脳みそをゼロから教育し直す（フルパラメータ・ファインチューニング）には、とてつもない時間とお金（莫大な電気代と計算資源）がかかります。

そこで登場するのが、LoRA（Low-Rank Adaptation：低ランク適応）という魔法のテクニックです。
* フルチューニング（従来の学習）：
* 例え：「天才の脳の神経を、もう一度最初から全部つなぎ直す大手術」
* コスト：莫大（💸💸💸）
* LoRA（現在の主流な学習）：
* 例え：「元の脳の構造には一切触らず、『特定の仕事の手順書が書かれたカンペ（小さなメモ帳）』だけを渡して、それを見ながら作業してもらう」
* コスト：激安（数百円レベル！）

LoRAを使うと、AIの元の脳みそ（ベースモデル）は凍結したまま、後から「外付けのアダプター（カンペ）」だけを学習させます。このアダプターはデータサイズが非常に小さいため、安いGPUで、あっという間に（数時間で）独自モデルを作り上げることができるのです。

💡 さらに知っておトクな発展知識（今後のためのキーワード）
> LoRAのような「モデル全体ではなく一部だけを効率よく学習・調整させる省エネ技術」の総称をPEFT（Parameter-Efficient Fine-Tuning）と呼びます。
> 現在のAI業界では、LoRAをさらに軽量化した「QLoRA（量子化：データを圧縮してさらに安価なGPUで動かす技術）」や、学習の方向性をより賢くする「DoRA」といった進化系も続々と誕生しており、今後の連載でも折を見て取り入れていく予定です！

4. インフラの常識「IaC（Terraform）」とは？

独自のSLMを学習・運用するには、Google Cloud Platform（GCP）やAWSなどのクラウド上でGPUを借りる必要があります。しかし、GPUは「1時間貸し出すごとに〇円」という従量課金です。うっかりサーバーの電源を切り忘れると、月末に「クラウド破産（数十万円の請求）」という悲劇が待っています。

これを防ぐのがIaC（Infrastructure as Code）、そして代表的なツールであるTerraform（テラフォーム）です。
* 手動構築（ダメな例）：
* エンジニアがブラウザの画面をポチポチ操作してサーバーを立てる。
* 学習が終わった後、「消し忘れ」が発生するリスク大。

* TerraformによるIaC構築（良い例）：
* 「こういう性能のサーバーを立てろ」という設計図をプログラム（コード）で書いておく。
* 実行コマンドを1回叩くだけで、数分でサーバーが自動で立ち上がり、学習が終われば自動で（あるいはコマンド1発で）跡形もなく消滅・破棄される。
「環境が必要な時だけ魔法のように出現し、用が済んだらすぐ消える」。この仕組みを作ったことで、数百円という圧倒的低コストでのAI開発が実現しました。

5. UXの命運を握る「TTFT」って何？

AIをシステムに組み込む上で絶対に無視できない指標がTTFT（Time To First Token）です。

直訳すると「最初の1文字目が出力されるまでの時間」です。
ChatGPTを使っている時、質問を投げてから「カタカタカタ...」と文字が返ってくるまでに、10秒も20秒も待たされたらどうでしょう？おそらくストレスでブラウザを閉じてしまうはずです。

* なぜTTFTが重要なのか？：
* 人間の脳は「反応がすぐに返ってくる（数十ミリ秒〜数秒）」ことで、対話しているという心地よさ（優れたユーザー体験＝UX）を感じます。
* どれだけ賢い回答ができるモデルでも、最初の1文字が出るまでに10秒かかるモデルは、実務のプロダクト（開発エディタのコード補完機能など）では待ち時間が長すぎて使い物になりません。

そのため、今回のプロジェクトのインフラ構築では、単に安いだけでなく、この「TTFTがいかに早く（快適に）返ってくるか」というテスト（`test_ttft.py`）を必ず実施し、実用性にこだわっています。

6. AIが本当に使い物になるか？「LLMの評価指標」

独自のモデルを作り終えた後、「自作システムが動いた！すごい！」で終わってはいけません。実務で使うためには、「そのAIが本当に賢くなったのか？」を厳格に測る必要があります。これを評価（Evaluation）と呼びます。

LLMの評価には、大きく分けて2つのアプローチがあります。
1. 定量的評価（自動テストによるスコア化）
* テストの問題集を解かせて、その正答率や、ベースモデル（学習前の元のQwen）からどれだけ「差分（Performance Delta）」として成長したかをコンピューターに自動計算させます。
2. 定性的評価（人間の専門家によるガチの採点）
* 自動テストだけでは、AIが「文法は合っているが、実は使い道のない適当なコード（幻覚：ハルシネーション）」を吐き出しているのを見抜けません。
* そこで、シニアエンジニアが実際に目で見てコードレビューし、「これは現場でそのまま使えるか？」「例外処理は適切か？」を人間が厳格（Ruthless）に採点します。
この「機械の目（定量）」と「人間の目（定性）」のクロスチェックがあって初めて、自作SLMは「趣味の工作」から「実務で使える強力なツール」へと進化します。
---

おわりに

いかがでしたでしょうか？「オープンモデルとQwen」「LoRA」「IaC」「TTFT」「AIの評価」という言葉が、ただの横文字の羅列ではなく「コストを下げて、賢くて、ユーザーに優しいAIを作るための実践的なツール・考え方」であることがイメージできたかと思います。

この基礎知識を持った上で、前回のハブ記事（特定用途向け「高速化SLM」を構築する一連のプロセスとアーキテクチャ全体像）や、今後の詳細な技術解説記事を読んでいただくと、より一層解像度が高く、面白く読めるはずです！

次回は、いよいよ「AIに食べさせる良質なデータをどうやって集め、綺麗にするか（データ抽出パイプライン編）」に迫ります。お楽しみに！

雪泥鴻爪--IT技術者の随筆