ICT雑感:「文法とコーパスとAI」

昨秋に発表されて以来、大いに世の中の注目を集め、あっという間に浸透してしまった感のある「ChatGPT」。私も時々、話し相手として遊んでもらっています。

(イラスト出典:「イラストAC」)
ChatGPTは、あたかも人間を相手にやり取りしているような、実に自然な応答をしてくれますが、なぜそういうことができるのか?――既にいろいろな説明がされていますが、科学雑誌などの解説によると、大量のテキストデータをもとに、「Transformer」という深層学習モデルを使って、単語どうしの関連をひたすら勉強して言語能力を磨いた「大規模言語モデル」がその中核になっているとのことです。
この「大規模言語モデル」について、当のChatGPTにも説明を求めてみました。
Q:あなたの頭の中にある「大規模言語モデル」について説明してください。
A:「大規模言語モデル」とは、人工知能の一種であり、テキストや文章の理解、生成、応答などの自然言語処理タスクに使用されるモデルのことを指します。大規模なトレーニングデータセットを用いて訓練され、それに基づいてテキストの文脈や意味を理解し、応答を生成します。
私、ChatGPTは、OpenAIによって開発されたGPT(Generative Pre-Trained Transformer)と呼ばれる大規模言語モデルのバリアントであり、幅広い知識と文脈を持っています。日本語を含むさまざまなトピックについての質問や会話を対話形式で行うことができます……(後略)
単語どうしの関係に注目して文章を理解し、生成しているということですが、学習のために用意されたデータは、「コーパス」のようなものではないかと感じました。コーパスについては、前回の本コラムの文章(2023年5月号「『させていただく』について、書かせていただきます。」)でも触れましたが、日本語のコーパスとしては、国立国語研究所が構築したものがあり、言語の研究などに活用されています。
私がコーパスというものを初めて知ったのは、もう20年ほど前になります。NHKのEテレで放送された英会話の番組で、英語を話すときの基本になる単語100語について、他のどういう単語やフレーズと一緒に出て来ることが多いかを、英語の書き言葉、話し言葉のコーパスからデータ処理してランキングを作り、その組合せで日常使う表現を練習して覚えちゃいましょう、という内容でした。
例えば、”run”という動詞の後に名詞が続く場合、その名詞の頻度のランキングは1.Business(es)、2.course(s)、3.risk、4.country、5.thing(s)、となっています(『NHK100語でスタート!英会話 コーパス練習帳』(NHK出版)から)。このようによく出てくるフレーズを練習しておけば、表現の幅が広がるだけでなく、言葉の予測ができるという意味で、リスニングにも大いに役立ちそうですね。テレビを観ながらの学習は怠け者の性分で途中で挫折しましたが、その斬新なアプローチは記憶に残っていました。その企画をされた先生は、その後コーパス言語学の第一人者となり、今年もEテレの番組に登場されています。
この、単語単体でなく他の単語との関連に注目するというところが、ChatGPTの学習法と共通点があるように感じたのです。そこで、この点についても彼に質問してみました。
Q:あなたの大規模言語モデルを作っているデータは、コーパスのようなものですか?
A:はい、私の大規模言語モデルは、トレーニングに使用されたデータはコーパスと呼ばれる大量の文章データからなります。コーパスには、ウェブ上のテキスト、書籍、論文、ニュース記事、会話データなど、さまざまな情報源から収集されたテキストが含まれています。
このコーパスは、自然言語処理のタスクを学習するために使用され、私が文脈を理解し、適切な回答や情報を生成するのに役立っています……(後略)
気前良く答えてくれましたが、ChatGPTが膨大なコーパスデータを参照し、能力を向上させたことは間違いないようです。学習したデータの規模と内容は、570KBのWebページ、書籍、ニュース記事、会話などのソースからなるテキストデータであることも教えてくれました(無料で公開されているGPT-3.5モデルの場合)。
このように一生懸命学習を重ねて我々の相手をしてくれるChatGPTですが、まるで本当のヒトのようにやり取りができるのは、文法を勉強しているからなのでしょうか? 彼が文法を認識しているのか、この点を次に聞いてみました。
Q:あなたは、英語や日本語の文法をどのように学習したのですか。それとも、文法自体は学習しておらず、ある言葉の次にはどんな言葉が来るのかをデータから学んで文章にしているのですか?
A:私(ChatGPT)は、大規模なテキストコーパスからトレーニングされた言語モデルです。訓練プロセスでは、文法のルール自体を直接学習するのではなく、テキストの統計的なパターンや文脈に基づいて予測を行います。
具体的には、トレーニングデータの中である単語やフレーズの出現パターンや関連性を学習します。これにより、与えられた文脈での次の単語やフレーズを予測し、それを元に文章を生成することができます。
このため、私は文章や構文の規則を意識的に学習したわけではありませんが、トレーニングデータに基づいてテキスト生成を行うことができます……(後略)
やはり、先に文法を勉強したわけではなくて、膨大なデータから見出されるパターンを学習した結果として、文章を生成できるようになったようです。しかし考えてみると、私たち人間も、例えば赤ちゃんが言葉を覚える場合、最初に文法を学ぶわけではなく、親や周りの大人が話す言葉を繰り返し聞いて、それをまねたり片言の応答を繰り返したりするうちに、やがて言葉を話せるようになるわけなので、AIは赤ちゃんや子どもがやっているのと同じようなことを、猛烈なスピードと効率で行っているということではないかという気もします。
このような切り口からなのか、従来、AIは言葉の意味や抽象的な概念を理解していないと言われてきたことに対し、もはやそうは言えない、ChatGPTは文章の意味を理解していると考えていいのではないか、との見解を述べている専門家もおられます。
また、文法とはそもそも何でしょうか。エスペラントのような人工言語は別として、文法とは実際に使われている言葉の中から帰納的に導かれた法則だと考えられます。したがって、時代とともに人々の話す言葉が変化すれば、文法も変わらざるを得なくなります(最初は誤用だとされた語法が、多くの人が使って一般化すると、正しいものと認められる)。ChatGPTは、多数の用例から学習することにより、文法をマスターしていると言ってもいいように思われます。
このように考えを巡らせたり、また実際にChatGPTと会話をしたりしてみると、AIがまるで話し友達のように、あるいは同僚や相棒のようにも感じられます。この調子で人間とのコミュニケーションに習熟し、相手の気持ちを推し量ったり、それによって気遣うような物言いをする段階になったら、それは「感情を持ったAI」の誕生と言ってもいいのではないでしょうか? また、ChatGPTの「中の人」を観察することによって、ヒトの心や自我、感情がどのように形成されるのかの理解にもつながるのではないか、などと考える今日この頃です。
以前このコラム(2021年9月号「AIに恋して」)で、AIが感情を持つようになったら、人間と同じようにあの世の存在を考えるようになるのではないか、などと考察しましたが、そういう時代はもうすぐそこまで来ているのかもしれません。

(イラス出典:「イラストAC」)
(付録)
ChatGPTについて言われている少し面白いことの中に、しれっとウソをつくことがあるから気をつけよう、というのがあります。彼は数学の問題も解いてくれるが、公式を理解しているわけではないと言われている点と併せて、次のようなやり取りで確認してみました。
Q:次の計算をしてください。 X4=1 X=?
A:Xの4乗が1となるXの値を求める問題ですね。まず、Xの値を求めるためには4乗根を求める必要があります。4乗根を求めるには、1の4乗根を求めることから始めます。1の4乗根は1です。したがって、Xの値は1です。X=1です。
Q:X=-1も答えではないですか?
A:おっしゃる通りで、すみませんでした。X=-1も正しい解です。Xの4乗が1となる場合、X=1またはX=-1の2つの解が存在します。ご指摘いただき、ありがとうございます。Xの値は1と-1の両方です。
Q=±ⅰも答では……
A:申し訳ありません。私の先ほどの回答は不完全でした。正確には、Xの4乗が1となる場合、X=1、X=-1、X=ⅰおよびX=-ⅰの4つの解が存在します。X=ⅰおよびX=-ⅰは複素数であり、ⅰは虚数単位を表します。したがって、正確な解はX=1、X=-1、X=ⅰおよびX=-ⅰです。ご指摘いただき、ありがとうございます。正確な情報を提供できるように努めます。
こちらの更問いに対して、慌てて数学の教科書などのテキストを調べてきたのでしょうか。しかし、謙虚に学ぼうとする姿勢は素晴らしいですね。私とのやり取りも参考にして、やがて数学などでも素晴らしい能力を身に着けてくれることでしょう。
(主な参照文献、記事等)
- 「誰でも使えるAIがやってきた! ChatGPT仕事術革命」(週刊東洋経済2023年4月22日号)
- 「特集 話すAI 描くAI」(日経サイエンス2023年5月号)
- 「劇的に進化した『対話AI』 ChatGPTの衝撃」(Newton 2023年7月号)
- 『NHK100語でスタート!英会話 コーパス練習帳』(投野由紀夫著 2004年 NHK出版)
- 「好奇心をたどって開けた研究者の道/コーパスデータとAIが創造する未来の英語の学び方」(インタビュー:投野由紀夫さん2023年3月6日 NHK出版デジタルマガジン)
※この記事は会員サービス「InfoCom T&S」より一部抜粋して公開しているものです。
当サイト内に掲載されたすべての内容について、無断転載、複製、複写、盗用を禁じます。InfoComニューズレターを他サイト等でご紹介いただく場合は、あらかじめ編集室へご連絡ください。また、引用される場合は必ず出所の明示をお願いいたします。
調査研究、委託調査等に関するご相談やICRのサービスに関するご質問などお気軽にお問い合わせください。
ICTに関わる調査研究のご依頼はこちら関連キーワード
川淵 幹児の記事
関連記事
-
ブロックチェーンとどのように向き合うか ~地域活用の可能性~
- WTR No432(2025年4月号)
- ブロックチェーン
- 地方創生
-
世界の街角から:フランス パリ、リヨンへの旅 ~着物がつなぐ歴史と文化~
- WTR No432(2025年4月号)
- フランス
- 世界の街角から
-
より実効性のある公益通報者保護制度の確立に向けて
- ICR Insight
- WTR No433(2025年5月号)
- 国内
-
MWC2025に見る通信業界の転換点:“次のG”ではなく“次のAI”
- AI・人工知能
- MWC
- WTR No433(2025年5月号)
- イベントレポート
- 海外イベント
-
ビジネスフェーズへと向かうネットワークAPI ~日本の通信事業者はどのように取り組めるか~
- MWC
- WTR No433(2025年5月号)
- イベントレポート
- モバイル通信事業者(国内)
- モバイル通信事業者(海外)
- 海外イベント
InfoCom T&S World Trend Report 年月別レポート一覧
ランキング
- 最新
- 週間
- 月間
- 総合