PaLMとは？Pathwaysで学習した大規模言語モデル【G検定】

G検定トップ＞ PaLMとは？Pathwaysで学習した大規模言語モデル【G検定】

まず結論

PaLM（Pathways Language Model）は、GoogleがPathwaysを用いて大規模に学習した、Transformerベースの大規模言語モデルです。

G検定では、次の切り分けが重要です。

PaLM単体は言語モデル。画像やロボットの情報が出たら、PaLM-Eや別のマルチモーダルモデルを疑います。

PaLMは、大量の文章やコードを読んで、続きの語を予測する練習を重ねた言語モデルです。

その結果、次のような能力を示します。

ただし、PaLMという名前だけで、画像や音声を直接扱うモデルだと判断してはいけません。

文章・コードを中心に扱う
→ PaLM

画像やセンサ情報も入力する
→ PaLM-E、PaLI、Flamingoなど

PaLMは、2022年に発表された大規模言語モデルです。

代表的なモデルは5400億パラメータをもち、Pathwaysという分散学習の仕組みを使って多数のTPU上で学習されました。

仕組みを試験向けに整理すると、次のとおりです。

PaLMは、BERTのような穴埋め型の理解モデルではなく、GPT系と同じく、左から右へ次のトークンを予測する自己回帰型の言語モデルとして整理できます。

また、モデル規模を大きくすると、一部の課題で性能が急に伸びる現象が報告されました。これは、G検定で「創発的能力」と関連付けて問われることがあります。

G検定では、性能の高さだけでなく、何を入力として扱うモデルかを確認します。

「ロボット」「環境情報」「画像入力」があれば、PaLM-Eを疑います。

画像説明やVisual Question Answeringなら、PaLIなどのマルチモーダルモデルが候補です。

「穴埋め・双方向」ならBERT、「文章を順に生成」ならPaLM側です。