「目を持つAI」の登場

ChatGPTが登場した当初、AIとのやり取りはテキストだけでした。質問を文字で入力し、文字で答えが返ってくる——それだけでも十分に革命的でしたが、現代のAIはさらに一歩先に進んでいます。

写真を見せれば内容を説明し、グラフを読み解き、手書きのメモを文字に起こし、請求書の数字を抽出する。こうした「画像を理解するAI」の正体が VLM(Visual Language Model:視覚言語モデル) です。

VLMとLLMの違い

LLM(大規模言語モデル) はテキストだけを入出力とします。文章を生成・要約・翻訳する能力に優れていますが、画像を与えても認識できません。

VLM はLLMに「視覚」の能力を加えたモデルです。テキストと画像の両方を入力として受け取り、その内容を統合して理解・回答できます。

項目LLMVLM
入力できるものテキストのみテキスト+画像
出力できるものテキストテキスト(画像生成対応モデルも)
代表例GPT-3、初期のClaudeGPT-4o、Claude 3、Gemini

なお、VLMは「マルチモーダルAI」の代表格ですが、マルチモーダルが音声・動画なども含む広い概念であるのに対し、VLMは主に「視覚+言語」の組み合わせを指します。

VLMはどうやって画像を理解するのか

VLMの仕組みを大まかに理解しておきましょう。

Step 1:画像をエンコードする

まず、入力された画像を「画像エンコーダ」と呼ばれるモジュールが処理します。これはCNN(畳み込みニューラルネットワーク)やViT(Vision Transformer)と呼ばれる画像認識専用のAIで、画像を数値ベクトル(エンベディング)に変換します。「この画像には四角い物体があり、上部に数字が並んでいる」といった特徴が数値で表現されます。

Step 2:画像とテキストを「同じ空間」に変換する

次に、画像のベクトルとテキストのベクトルを同じ次元空間に揃える処理が行われます。これにより、「画像の特徴」と「言葉の意味」が直接対応づけられます。この橋渡し部分の設計がVLMの品質を大きく左右します。

Step 3:LLMが統合して回答を生成する

変換された画像の情報とユーザーのテキスト質問を合わせて、LLMが回答を生成します。「この画像に写っている請求書の合計金額は?」という質問に対して、画像から読み取った数字と文脈を組み合わせて答えます。

代表的なVLMモデル

GPT-4o(OpenAI)

「o」はOmni(万能)の意味で、テキスト・画像・音声をリアルタイムで処理できます。ChatGPTのプレミアムプランで利用可能で、スマートフォンのカメラを向けながらリアルタイムで質問するといった使い方もできます。文書の読み取り精度が高く、図表の解釈にも強いとされています。

Claude 3 / Claude 3.5シリーズ(Anthropic)

最大20万トークンのコンテキストウィンドウを持つため、大量のページからなるPDFを丸ごと読み込んで分析するのが得意です。長文文書の画像解析や、複数ページにわたる資料の要約に向いています。

Gemini 1.5 Pro / 2.0(Google)

Googleのサービス(GmailやGoogle Driveなど)との統合が強みです。動画の理解に対応しており、長時間の動画から特定の場面を特定したり、内容を要約したりする能力でも注目されています。

LLaVA・Phi-3-Vision(オープンソース)

Meta・Microsoftなどが公開したオープンソースのVLMです。軽量なモデルも多く、社内サーバーやローカル環境で動かすことができます。データを外部に送れないセキュリティ要件がある企業にとって有力な選択肢です。

ビジネスでの活用シナリオ

1. 書類・帳票の自動処理

請求書・領収書・納品書・契約書などの書類をスキャンまたは写真で撮影してVLMに送るだけで、金額・日付・取引先・品目などの情報を自動抽出できます。

従来のOCR(光学文字認識)と異なり、VLMは文書の構造を理解した上でデータを抽出します。レイアウトが異なる複数のフォーマットに対応でき、「合計金額」を文脈から判断して抽出するといった柔軟な処理が可能です。

活用例:

  • 経費精算の領収書を撮影→金額・日付・支払先を自動入力
  • 複数業者からの請求書をまとめて処理し会計システムに連携
  • 手書きの発注書をデジタルデータに変換

2. 製品・設備の外観検査

製造ラインで撮影した製品の画像をVLMで分析し、傷・欠け・変色などの不良を検出します。従来の画像認識AIは「学習した不良パターン以外は検出できない」という制約がありましたが、VLMは言語で指示できるため新種の不良にも柔軟に対応できます。

活用例:

  • 「この製品の表面に傷や汚れがないか確認して」と指示するだけで検査
  • 設備の劣化状況を定期的に撮影→異常の早期発見
  • 建設現場・工事現場の安全確認(ヘルメット着用確認など)

3. 資料・図表の分析

グラフ・表・図面・組織図・フローチャートなど、テキストだけでは伝えにくい情報をVLMは読み解けます。「このグラフから読み取れる示唆を3点挙げてください」といった指示が通ります。

活用例:

  • 競合他社のIR資料(PDF)をそのまま読み込んで要約・比較分析
  • Excelのグラフのスクリーンショットをもとにコメント自動生成
  • 複雑なシステム構成図の説明文を自動作成

4. マーケティング・EC業務

商品写真をVLMに見せるだけで、その商品の特徴を捉えた説明文・キャッチコピーを生成できます。大量のSKU(商品管理単位)を持つECサイト運営者にとって大幅な工数削減になります。

活用例:

  • 新商品の写真から商品説明文を自動生成
  • SNS投稿用のキャプションを画像から自動作成
  • ブランドガイドラインに沿ったコピー生成

5. 教育・トレーニング

製品マニュアルや操作手順書の画像・図解をVLMに読み込ませ、「この手順の第3ステップをもっとわかりやすく説明して」といった対話型の活用ができます。

VLMの限界と注意点

精度は100%ではない

VLMも文字の読み取りを誤ることがあります。特に手書き文字・低解像度の画像・複雑なレイアウトでは精度が落ちます。重要な数値(金額・数量など)は必ず人間が確認するフローを設けることが重要です。

画像内の細かい情報の見落とし

非常に細かい文字・薄い色・背景と紛らわしい要素などは見落とされることがあります。また、複雑な図面や専門的な記号・略号の解釈は苦手な場合があります。

プライバシーとセキュリティ

個人情報が含まれる書類(健康診断結果・給与明細など)や機密文書をクラウドAPIに送信することには、情報漏洩リスクがあります。機密書類の処理にはオープンソースのVLMをオンプレミスで動かす選択肢も検討すべきです。

コスト

テキストのみのLLMと比べて、画像処理はAPIコストが高くなります。大量の書類を処理する場合は事前にコストシミュレーションを行いましょう。

まとめ

VLMは「目を持つLLM」として、これまでAIが苦手としていた「画像から情報を取り出す・理解する」業務を自動化する強力なツールです。

書類処理・製品検査・資料分析・コンテンツ生成など、従来は人間の目と手が必要だった業務の多くが、VLMによって効率化できる時代に入っています。

まずは「自社の業務で画像・写真・書類が関わる作業」をリストアップし、VLMが代替できるものを探すことが、導入の第一歩です。