「自社でLLMを持ちたい」は実現できるのか

ChatGPTの登場以来、「自分たちでもLLMを作れないか」という声が経営層から上がるようになりました。自社データを学習させた専用AIを持てれば、情報漏洩のリスクを減らせるうえ、競争優位にもなりえます。

しかし現実には、「LLMを開発する」には大きく4つのアプローチがあり、それぞれ必要なコスト・人材・期間が大きく異なります。この記事では、各アプローチの概要と現実的な判断基準を解説します。

LLM開発の4つのアプローチ

アプローチ1:ゼロからフルスクラッチで開発する

GPT-4やClaudeと同等のモデルを一から作るアプローチです。

必要なもの(概算):

項目規模感
学習データ1兆トークン以上(Webクロール・書籍など)
GPUH100×数百〜数千基(数ヶ月間)
計算コスト数十億円〜数百億円
期間1〜3年
必要人材ML研究者・MLエンジニア 数十〜数百名

OpenAIはGPT-4の学習に1億ドル超を投じたと推定されており、Metaのように数千億円規模の設備投資を行っている企業だけが現実的に取り組める領域です。

向いている組織: Google・Meta・Amazon・大手テック企業、または国家プロジェクトレベルの支援がある研究機関。日本では国立研究開発法人産業技術総合研究所(産総研)がLLM「ABEJA」シリーズを開発しています。

結論: 一般企業が検討する選択肢ではありません。


アプローチ2:オープンソースLLMをベースにファインチューニングする

MetaのLLaMA・MistralAI・Google Gemmaなど、重みが公開されているオープンソースLLMをベースに、自社データで追加学習させるアプローチです。現在、企業が「自社LLMを持つ」際に最も現実的な選択肢です。

代表的なベースモデル:

モデル開発元特徴
LLaMA 3Meta最大405Bパラメータ、商用利用可(条件付き)
Mistral / MixtralMistralAI軽量・高性能、商用利用可
Gemma 2Google軽量モデル、商用利用可
Qwen 2.5Alibaba多言語対応が強い
Swallow東京工業大学日本語特化、LLaMAベース

必要なもの(概算):

項目規模感
学習データ数百万〜数億トークン(自社データ)
GPUA100/H100×数基〜数十基(数日〜数週間)
計算コスト数百万円〜数千万円
期間1〜6ヶ月
必要人材MLエンジニア 1〜数名

ファインチューニングの手法:

  • Full Fine-Tuning:モデルの全パラメータを更新する。精度は高いが、GPUメモリが大量に必要
  • LoRA(Low-Rank Adaptation):全パラメータではなく差分だけを学習する軽量手法。必要なGPUが大幅に削減でき、現在最も広く使われている
  • QLoRA:LoRAをさらに量子化(精度を落として圧縮)した手法。コンシューマGPU(RTX 4090など)でも動作可能

向いている用途:

  • 自社の専門用語・文体をAIに覚えさせたい
  • 特定業務(法律・医療・製造)に特化したAIを作りたい
  • 社内文書を外部サービスに送りたくない(セキュリティ要件)

アプローチ3:APIを使ってプロンプトエンジニアリング+RAGで構築する

OpenAI・Anthropic・Google等のAPIを呼び出し、プロンプト設計とRAG(外部データ参照)を組み合わせて「自社専用AI」のように振る舞わせるアプローチです。

厳密には「LLMを開発する」ではなく「LLMを活用したシステムを構築する」ですが、多くのビジネス課題はこのアプローチで十分に解決できます。

必要なもの(概算):

項目規模感
開発コスト数十万円〜数百万円
月額運用コストAPI利用量に応じて(数万円〜)
期間1〜3ヶ月
必要人材エンジニア 1〜数名(ML知識不要)

向いている用途:

  • 社内FAQチャットボット
  • 契約書・報告書の自動要約
  • カスタマーサポートの自動対応
  • 営業メール・提案書の下書き生成

注意点: 社内の機密情報をAPIに送信することになるため、利用規約・データ保護ポリシーの確認が必須。エンタープライズプランであれば学習への利用が行われないとされるサービスが多いです。


アプローチ4:既成のLLMをオンプレミス(自社環境)で動かす

オープンソースLLMをクラウドではなく自社サーバーやプライベートクラウドで動かすアプローチです。外部にデータを送らずに済むため、セキュリティ要件が厳しい業界(金融・医療・官公庁)で注目されています。

代表的なツール:

  • Ollama:ローカルPCでLLMを動かすツール。LLaMA・Mistralなどを手軽に実行できる
  • vLLM:高速推論に特化したLLM実行エンジン
  • LM Studio:GUIでローカルLLMを管理・実行できるツール

M3 MacBook Proのような高性能ノートPCでも、7B〜13Bパラメータ規模のモデルであれば実用的な速度で動作します。

必要なもの(概算):

項目規模感
ハードウェアGPU搭載サーバー(数百万円〜)またはApple Silicon Mac
月額コストAPI利用料ゼロ(電気代・サーバー維持費のみ)
期間数日〜1ヶ月
必要人材インフラエンジニア 1名

アプローチの選び方——判断フロー

社内データを外部に送れない場合は オンプレミス実行 または ファインチューニング を選択します。送れる場合はまず API+RAG で十分か検討し、業務特化の精度が必要であれば ファインチューニング を検討するという順番が現実的です。

ファインチューニングの実際の手順

最も現実的なアプローチ2の大まかな手順を紹介します。

Step 1:ベースモデルの選定

用途・言語・ライセンスを考慮してベースモデルを選びます。日本語対応が必要な場合は、日本語データで事前学習されたモデル(Swallow、Qwen 2.5など)が出発点として有利です。

Step 2:学習データの整備

ファインチューニングの品質はデータの質で8割決まります。

  • 指示応答形式(Instruction Tuning):「質問」と「理想の回答」のペアを大量に用意する
  • 最低でも数千件、できれば数万件の高品質データが必要
  • データの前処理(表記ゆれの統一・不適切内容の除去)が肝心

Step 3:学習の実行

LoRAを使った学習であれば、Hugging FaceのライブラリとA100 GPU(1〜4基)で数時間〜数日で完了します。AWSやGCPのスポットインスタンスを活用すれば、GPU数十万円分のコストを大幅に抑えられます。

Step 4:評価と改善

学習済みモデルを実際のユースケースでテストし、回答品質を評価します。人間による評価(Human Evaluation)と、他のLLMによる自動評価(LLM-as-a-Judge)を組み合わせるのが一般的です。

Step 5:デプロイ

vLLMなどの推論エンジンを使ってAPIとして公開し、社内システムやアプリから呼び出せるようにします。

国産LLMの動向

日本では、自社でLLMを開発する動きも出てきています。

  • Preferred Networks:日本語LLM「PLaMo」を開発
  • Sakana AI:日本の研究者が設立、独自の進化的手法でLLMを開発
  • NTT:「tsuzumi」(軽量・日本語特化)を法人向けに提供
  • 富士通:「Fujitsu Kozuchi」として生成AI基盤を提供
  • 産総研・東工大ほか:「LLM勉強会」を中心に国産LLM研究が活発化

まとめ——ほとんどの企業に必要なのは「開発」ではなく「活用」

「自社LLMを開発する」という言葉の意味は、実は4つのアプローチに分かれており、コスト・期間・難度が大きく異なります。

アプローチコスト難度セキュリティ
フルスクラッチ数百億円〜最高
ファインチューニング数百万円〜
API+RAG数十万円〜△(要確認)
オンプレミス実行数百万円〜

多くのビジネス課題は、フルスクラッチ開発なしにAPI活用+RAGで解決できます。セキュリティ要件が厳しい場合はオンプレミス実行、業務特化の精度が必要な場合はファインチューニングという順で検討するのが現実的な進め方です。

「自社でAIを持つ」ことが目的ではなく、「AIで業務課題を解決する」ことが目的であることを忘れずに、最もコスト効率の良いアプローチを選びましょう。