えんぞう
GPT-3とは何でしょうか? BERTとの違いは何でしょうか? またGPT-3で何ができるのでしょうか?
GPT-3とは?
非営利団体であるOpenAIが開発したものです。過去GPT-1、GPT-2と開発してきましたが、1世代前のGPT-2と比較して、学習データの量が圧倒的に拡大しています。
約45TBものテキストデータを約1750億のパラメータで学習しています。
GPT-2のときに「危険すぎるAI」と言われて話題になりましたが、学習データ、パフォーマンスともにGPT-2を凌駕しています。
発表年 | データサイズ | パラメータ数 | |
GPT-2 | 2018年 | 約15億 | |
GPT-3 | 2020年 | 約45TB | 約1750億(116倍!) |
GPT-3の特徴
GPT-2からのコンセプトですが、特定の自然言語処理タスクに特化せずに様々なタスクに応用できる汎用モデルとなっています。
従来のBERT等のモデルでは、特定のタスク特化するようにそのタスクに合わせてファインチューニングしてパフォーマンスを上げるというのが一般的な手法でした。
BERTもファインチューニングにより特定タスクに特化して利用できるようにしています。
この従来の手法では、ラベル付きデータを用意する必要がありましたが、このラベル付きデータを用意すること自体が課題となり、なかなか利用までたどり着けないケースも多々ありました。
GPT-2、GPT-3ではこのファインチューニングの課題が無くなりました。few-shotという手法で特定タスクに特化した出力を得ることができます。事前学習モデルのみで汎用的なタスクに対応できるのです。
「few-shot」がファインチューニングの位置づけになりますが、一言二言タスクの説明をするだけです。
GPT-3でできること
先に述べたように事前学習のみで、様々なタスクに対応できますが、特に文章生成タスクのパフォーマンスが優れています。
利用方法
以下の記事に利用方法を記載しています。
コメント