AI TECH PLACE | ビジネスパーソンのためのAI情報学習

「AIが賢い」とはどういうことか

ChatGPTに質問すると、まるで何でも知っているかのように答えが返ってきます。この「賢さ」の源泉は何でしょうか。答えはシンプルで、膨大な量のテキストデータを学習したことです。

しかし「膨大」とはどの程度なのか。どんなデータが使われているのか。データには問題はないのか——こうした疑問は、AIをビジネスで使う上でも重要な背景知識です。

LLMの学習データの「規模感」

代表的なLLMが学習したデータ量を見てみましょう。

モデル	学習トークン数	相当する文字量の目安
GPT-3	約3,000億トークン	日本語の書籍約100万冊分
GPT-4	非公開（推定: 数兆トークン以上）	—
LLaMA 2	約2兆トークン	日本語の書籍約700万冊分
Claude 3	非公開	—

「トークン」とはAIが処理するテキストの最小単位で、日本語の場合おおよそ1文字が1〜2トークンに相当します。数兆トークンというのは、人間が一生かけても読み切れない量のテキストです。

何が入っているのか——データの種類

LLMの学習データは大きく5種類に分類できます。

1. Webクロールデータ（最大のソース）

インターネット上のWebページを大規模に収集したデータです。Common Crawl（コモンクロール）という非営利団体が定期的にWebをクロールして公開しているデータセットが広く使われており、数十億ページ分のHTMLが含まれています。

ただし、Webには質の低い情報・スパム・有害コンテンツも大量に含まれるため、そのまま使うわけではありません。後述するフィルタリングが重要になります。

2. 書籍・出版物

Books3やBookCorpusと呼ばれるデータセットが代表的で、数十万〜数百万冊の書籍テキストが含まれます。書籍は文章の質が高く、論理的な構造を持つため、LLMの「推論能力」の向上に特に貢献するとされています。

ここで問題になるのが著作権です。現在も多くの著者・出版社が「無断で学習に使われた」として訴訟を起こしており、法的決着はついていません。

3. Wikipedia・百科事典

Wikipediaは多言語・多分野をカバーする高品質なテキストソースとして、ほぼすべてのLLMに使われています。ただしWikipediaだけでは現在のLLMに必要なデータ量には全く足りないため、補助的な役割です。

4. コード（プログラム）

GitHubなどのコードリポジトリから収集したプログラムのソースコードです。The Stackなどのデータセットが知られています。コードデータを学習することで、LLMはコード生成能力を獲得するだけでなく、「論理的な手順で物事を考える」能力も向上するとされています。

5. 対話・質問応答データ

Reddit・Stack Overflow・Quoraなどの質問回答サイト、各種フォーラムのデータです。「問いと答え」の形式が豊富に含まれるため、ユーザーの質問に適切に応答するための能力向上に役立ちます。

データはそのまま使うわけではない——前処理の仕組み

集めた生データをそのままLLMに流し込むわけではありません。大規模な前処理（データクリーニング）が行われます。

フィルタリング

品質フィルタ: 文章として成立していない、文字化けしている、繰り返しが多いなどのデータを除外
言語フィルタ: 学習対象の言語以外のテキストを除外
安全フィルタ: 暴力・差別・性的コンテンツなどの有害な情報を除外
重複排除: 同じ文章が何度も出てくると、そのパターンを過剰に学習してしまうため除去

トークン化

テキストをトークン（最小処理単位）に分割する作業です。英語の場合、単語をさらに細かいサブワードに分割することが多く、「playing」→「play」+「ing」のように扱われます。

日本語は英語と異なりスペースで単語が区切られていないため、トークン化が難しく、同じ情報量でも英語より多くのトークンが必要になります。これが「日本語はコストがかかりやすい」理由の一つです。

データの配合比率

複数のデータソースをそのままの比率で混ぜるのではなく、品質が高いデータの比率を意図的に高めることが重要です。

たとえばMeta社のLLaMA 3では、CommonCrawlのWebデータが全体の約45%、その他の品質の高いWebソースが約25%、コードが約17%という配合になっていることが報告されています。

なぜこれがビジネスに関係するのか

「知識のカットオフ」問題

LLMは学習データが収集された時点までの情報しか知りません。これを「カットオフ（知識の締め切り）」と言います。たとえばGPT-4のカットオフは2023年4月です。それ以降に起きた出来事・新製品・法改正などはAIは知りません。

業務でAIを使う際は「このAIはいつまでの情報を知っているか」を常に確認する必要があります。最新情報が必要な場面では、RAG（外部データ参照）を組み合わせることが有効です。

バイアスの問題

学習データがWebやSNSから大量に収集されている以上、インターネット上に存在するバイアス（偏り）がそのまま反映されます。英語圏・先進国の視点が多い、特定の政治的立場が強調されやすいなどの傾向が知られています。

採用判定・融資審査・医療診断など、公平性が求められる業務にAIを使う場合、このバイアスが重大なリスクになりえます。

著作権リスク

書籍・記事・コードを「学習」に使うことの合法性は、各国で争われています。AIが生成した文章が、学習データ中のある著作物に酷似してしまう「暗記再現」問題も確認されています。

企業がAIを使って生成したコンテンツには、著作権侵害リスクが潜在的に存在するという認識を持っておく必要があります。

プライバシーリスク

Webから収集されるデータには、個人のブログ・SNS投稿・フォーラムへの書き込みなど、個人情報を含む可能性があります。LLMが特定個人の情報を「記憶」して出力してしまうケースも確認されており、GDPR（欧州一般データ保護規則）などの観点から問題視されています。

「RLHF」——データだけでは足りない

大量データで学習しただけのモデルは、必ずしも「役立つ・安全な」回答をするとは限りません。そこで現代のLLMにはRLHF（人間のフィードバックによる強化学習）という追加工程が施されています。

人間の評価者が「良い回答・悪い回答」を大量に採点し、そのフィードバックをもとにAIが「人間に有用で安全な回答を選ぶ」よう強化学習させます。ChatGPTが単なる文章生成AIではなく「話しかけると適切に答えてくれるAI」になっているのは、このRLHFの効果が大きいとされています。

まとめ

LLMの「賢さ」の源泉は、インターネット・書籍・コード・対話など多様なテキストデータを兆単位のトークン規模で学習していることにあります。ただしそのデータには、著作権・バイアス・プライバシーという3つのリスクが内在しています。

AIをビジネスで活用するときは、その「賢さ」の限界——知識のカットオフ・偏り・ハルシネーション——を理解した上で、適切な場面に適切な使い方をすることが重要です。AIは「魔法の箱」ではなく、「大量のテキストから統計的パターンを学んだシステム」だと理解することが、正しい活用への第一歩です。

LLMの「中身」とは何か——ChatGPTはどんなデータで賢くなったのか