SLM連載1:「自前SLM」に挑む前に知っておきたいAI&インフラ基礎用語

「独自のコード生成AIをローカルで動かしたい!」「コストをかけずに専用のモデルを作りたい!」
そんな夢を叶えるためにプロジェクトを始めたものの、いざ技術記事(前回公開したハブ記事など)を読むと、「SLM」「LoRA」「IaC」「TTFT」といった呪文のような横文字ばかりで思考停止してしまった......。
そんな方も多いのではないでしょうか?
この記事は、プログラミングやインフラの深い知識がなくても、「なぜその技術が必要なのか?」「どんな魔法を使っているのか?」が中学生でもわかるレベルで理解できるようになる、基礎知識と用語の解説ガイドです。
これさえ読めば、難しそうなアーキテクチャ図やAIの解説記事がスラスラと頭に入ってくるようになります!

---

1. LLM と SLM って何が違うの?(万能な天才 vs 専用の職人)


最近よく聞く「LLM(Large Language Model:大規模言語モデル)」の代表格と言えば、ChatGPT(OpenAI)やClaude(Anthropic)などです。

これらは、インターネット上のあらゆる情報を学習した「超巨大な脳みそ」を持っています。
* LLM(大規模言語モデル)の正体
* 例え:「何でも知っている万能な天才」
* メリット:翻訳、プログラミング、雑談、要約など、何をやらせても高得点を出す。
* デメリット:脳みそ(パラメータ数・数百億〜数千億)が大きすぎて、自前のパソコンやサーバーで動かすにはスーパーコンピューター級の機材が必要(=手元で構築するのは困難で、APIを使うとコストが高い)。

これに対して、私たちが今回構築したのがSLM(Small Language Model:小規模言語モデル)です。
数億〜数十億パラメータ(7Bなど)と、LLMに比べて脳みそを「あえて小さく」したモデルです。
* SLM(小規模言語モデル)の正体
* 例え:「特定のタスクだけを爆速でこなす職人」
* メリット:脳みそが小さいので、安価なGPU(L4など)や普通のパソコンでもサクサク動く。
* デメリット:一般的な知識はLLMに劣るため、「知らないことは答えられない(AI特有の幻覚を起こしやすい)」。
* 勝算:特定のルールや独自の仕様(ドメイン知識)だけを徹底的に叩き込めば、その限定された領域においては「万能な天才(LLM)」と同等か、それ以上の力を発揮できる!

2. 実は誰でも無料で使える「オープンモデル」と話題の「Qwen」

SLMを自前で構築するにあたり、もう一つ重要なのが「オープンモデル(Open Model)」という概念です。

* プロプライエタリ(非公開)モデル
* ChatGPT(GPT-4)やClaudeのように、企業が中身の設計図や重みデータを秘密にしているモデルです。API経由でお金を払って使わせてもらいます。

* オープンモデル(Open Model)
* 開発元が「皆さんの環境で自由にダウンロードして使っていいよ!」と無償で公開してくれているモデルです。
* 代表的な例
* Llama(ラマ):Meta社(Facebook)が公開しているオープンモデルの世界的リーダー。
* Mistral(ミストラル):フランスのAI企業が開発し、高い効率性で世界を驚かせたモデル。
* Gemma(ジェンマ):GoogleがGeminiの技術をベースに軽量化して公開したモデル。
* そして、本プロジェクトで採用したQwen(千問:チェンウェン)です。

数あるオープンモデルの中でも、今回採用したQwen(千問)は、Alibaba Cloudが開発した非常に優秀な大注目モデルです。
特に「日本語の理解力」と「プログラミング(コード推論)の能力」のバランスにおいて、同じサイズの他のオープンモデルを圧倒するポテンシャルを持っています。この「優秀な基礎学力を持ったオープンモデル」を無料で使えるからこそ、自作SLMの敷居が劇的に下がっているのです。

3. モデルを賢くする魔法「LoRA(ローラ)」とは?

「独自の仕様をモデルに叩き込む」と言っても、AIの脳みそをゼロから教育し直す(フルパラメータ・ファインチューニング)には、とてつもない時間とお金(莫大な電気代と計算資源)がかかります。

そこで登場するのが、LoRA(Low-Rank Adaptation:低ランク適応)という魔法のテクニックです。
* フルチューニング(従来の学習)
* 例え:「天才の脳の神経を、もう一度最初から全部つなぎ直す大手術」
* コスト:莫大(💸💸💸)
* LoRA(現在の主流な学習)
* 例え:「元の脳の構造には一切触らず、『特定の仕事の手順書が書かれたカンペ(小さなメモ帳)』だけを渡して、それを見ながら作業してもらう」
* コスト:激安(数百円レベル!)

LoRAを使うと、AIの元の脳みそ(ベースモデル)は凍結したまま、後から「外付けのアダプター(カンペ)」だけを学習させます。このアダプターはデータサイズが非常に小さいため、安いGPUで、あっという間に(数時間で)独自モデルを作り上げることができるのです。

💡 さらに知っておトクな発展知識(今後のためのキーワード)
> LoRAのような「モデル全体ではなく一部だけを効率よく学習・調整させる省エネ技術」の総称をPEFT(Parameter-Efficient Fine-Tuning)と呼びます。
> 現在のAI業界では、LoRAをさらに軽量化した「QLoRA(量子化:データを圧縮してさらに安価なGPUで動かす技術)」や、学習の方向性をより賢くする「DoRA」といった進化系も続々と誕生しており、今後の連載でも折を見て取り入れていく予定です!

4. インフラの常識「IaC(Terraform)」とは?

独自のSLMを学習・運用するには、Google Cloud Platform(GCP)やAWSなどのクラウド上でGPUを借りる必要があります。 しかし、GPUは「1時間貸し出すごとに〇円」という従量課金です。うっかりサーバーの電源を切り忘れると、月末に「クラウド破産(数十万円の請求)」という悲劇が待っています。

これを防ぐのがIaC(Infrastructure as Code)、そして代表的なツールであるTerraform(テラフォーム)です。
* 手動構築(ダメな例)
* エンジニアがブラウザの画面をポチポチ操作してサーバーを立てる。
* 学習が終わった後、「消し忘れ」が発生するリスク大。

* TerraformによるIaC構築(良い例)
* 「こういう性能のサーバーを立てろ」という設計図をプログラム(コード)で書いておく。
* 実行コマンドを1回叩くだけで、数分でサーバーが自動で立ち上がり、学習が終われば自動で(あるいはコマンド1発で)跡形もなく消滅・破棄される。
「環境が必要な時だけ魔法のように出現し、用が済んだらすぐ消える」。この仕組みを作ったことで、数百円という圧倒的低コストでのAI開発が実現しました。

5. UXの命運を握る「TTFT」って何?

AIをシステムに組み込む上で絶対に無視できない指標がTTFT(Time To First Token)です。

直訳すると「最初の1文字目が出力されるまでの時間」です。
ChatGPTを使っている時、質問を投げてから「カタカタカタ...」と文字が返ってくるまでに、10秒も20秒も待たされたらどうでしょう?おそらくストレスでブラウザを閉じてしまうはずです。

* なぜTTFTが重要なのか?
* 人間の脳は「反応がすぐに返ってくる(数十ミリ秒〜数秒)」ことで、対話しているという心地よさ(優れたユーザー体験=UX)を感じます。
* どれだけ賢い回答ができるモデルでも、最初の1文字が出るまでに10秒かかるモデルは、実務のプロダクト(開発エディタのコード補完機能など)では待ち時間が長すぎて使い物になりません

そのため、今回のプロジェクトのインフラ構築では、単に安いだけでなく、この「TTFTがいかに早く(快適に)返ってくるか」というテスト(`test_ttft.py`)を必ず実施し、実用性にこだわっています。

6. AIが本当に使い物になるか?「LLMの評価指標」

独自のモデルを作り終えた後、「自作システムが動いた!すごい!」で終わってはいけません。実務で使うためには、「そのAIが本当に賢くなったのか?」を厳格に測る必要があります。これを評価(Evaluation)と呼びます。

LLMの評価には、大きく分けて2つのアプローチがあります。
1. 定量的評価(自動テストによるスコア化)
* テストの問題集を解かせて、その正答率や、ベースモデル(学習前の元のQwen)からどれだけ「差分(Performance Delta)」として成長したかをコンピューターに自動計算させます。
2. 定性的評価(人間の専門家によるガチの採点)
* 自動テストだけでは、AIが「文法は合っているが、実は使い道のない適当なコード(幻覚:ハルシネーション)」を吐き出しているのを見抜けません。
* そこで、シニアエンジニアが実際に目で見てコードレビューし、「これは現場でそのまま使えるか?」「例外処理は適切か?」を人間が厳格(Ruthless)に採点します。
この「機械の目(定量)」と「人間の目(定性)」のクロスチェックがあって初めて、自作SLMは「趣味の工作」から「実務で使える強力なツール」へと進化します。
---

おわりに

いかがでしたでしょうか? 「オープンモデルとQwen」「LoRA」「IaC」「TTFT」「AIの評価」という言葉が、ただの横文字の羅列ではなく「コストを下げて、賢くて、ユーザーに優しいAIを作るための実践的なツール・考え方」であることがイメージできたかと思います。

この基礎知識を持った上で、前回のハブ記事(特定用途向け「高速化SLM」を構築する一連のプロセスとアーキテクチャ全体像)や、今後の詳細な技術解説記事を読んでいただくと、より一層解像度が高く、面白く読めるはずです!

次回は、いよいよ「AIに食べさせる良質なデータをどうやって集め、綺麗にするか(データ抽出パイプライン編)」に迫ります。お楽しみに!