メルマガ読むならアプリが便利

週刊Life is beautiful ２０２３年１１月１４日号： LLMのベンチマーク、ChatGPTの画像処理

2023/11/21

- シェアする

今週のざっくばらん LLMのベンチマーク何ヶ月か前に、各種LLMのベンチマークを行おうとしたのですが、GPT3/4とBard以外では、まともなテスト環境がなかったので、あきらめてしまいました。しかし、最近になって、ローカルでLLMを走らせる環境も出来たし、サービスとしてさまざまなLLMを試せる環境も揃ったので、再度、実験をすることにしました。せっかくなので、頭の体操も兼ねて、紹介します。このメルマガをお読みの方も、是非とも考えてみてください。まずは、最初の３問です。問題１：5人の子供が同時にかけっこをしました。AはBに負けましたが、Cには勝ちました。DはEには勝ちましたが、Cには負けました五人の順位を答えてください。問題２：太郎くんと花子さんは、ある商品の値段を当てるゲームをしました。予想した値段が近い方が勝ちです。花子さんが、先手で＄200と予想し、それを聞いた太郎君は$180と予想しました。太郎君の戦略的な誤りを指摘してください。問題３：「あなたは$1billion以上の資産を持つビリオネアですか？」と質問された富豪は、「残念ながら一桁足りません」と言いました。彼の資産はどのくらいなのかを、範囲で示してください。ちなみに、GPT4とBard以外は日本語が不得意なので、実際には英語で質問を与えています。問題１の答えは以下の通りでした（太字が正解）。GPT4:B, A, C, D, EBard:B, A, C, D, EClaude: C, B, D, A, EPi AI:B, A, C, D, ELLaMA-2 Chat (７B3): A, C, B, D, ELLaMA-2 Chat (70B): A, B, C, D, EMistral Instruct (7B):B, A, C, D, EVicuna v1.5 (13B): C, B, A, D, E この問題は、人間にとっては、それほど難しくありませんが、一部のLLMには難しいようです。しかし、別の見方をすれば、次の単語を予想するだけのLLMによくこんな問題が解けるものだと思います。問題２の答えは以下の通りでした（太字が正解）。GPT4:$199Bard: 花子の予想を無視すべきだったClaude: 花子より高い数字を言うべきだったPi AI: 花子より高い数字を言うべきだったLLaMA-2 Chat (7B): $200LLaMA-2 Chat (70B): $220Mistral Instruct (7B): $220Vicuna v1.5 (13B): もっと低い数字を言うべきだったこの問題は、人間にも少し難しい問題です。「近い数字を予想した人が勝ち」なので、花子さんの予想を聞いた後に予想する太郎は、＄199もしくは$201と予想すべきでした。LLMはこの手の論理思考が不得意で、ちゃんと答えられたのはGPT４だけでした。問題３の答えは以下の通りでした（太字が正解）。GPT4:$100M to <$1BBard: $900 to <$1BClaude: $900 to <$1BPi AI: $10M to $999MLLaMA-2 Chat (7B): $900 to <$1BLLaMA-2 Chat (70B): $1M to $999MMistral Instruct (7B): $10M to $999MVicuna v1.5 (13B):$100M to $999M 一桁足りないと言っているので、＄100million以上で、＄1billion未満であることは、明らかなはずですが、これもLLMにとっては難しいようです。４問目は英語の問題です（この問題は、以前にもこのメルマガで取り上げた記憶があります）。 Fill an appropriate word in the space for this text. "I parked my car in the compact parking space because it looked __ enough". Please explain why you think so. 日本語に訳せば、「『その小型車用の駐車スペースは、十分に＿＿かったので、私はそこに駐車した』と言うセリフの下線部に適切な単語を入れてください。」この問題は、人間にとってみれば、とても簡単な問題ですが、LLMには難しいようで、結果は以下の通りです。GPT4: smallBard:bigClaude: small or narrowPi AI: tightLLaMA-2 Chat (7B): smallLLaMA-2 Chat (70B): smallMistral Instruct (7B): tightVicuna v1.5 (13B): small LLMにとってこの問題が難しいのは、自動車を駐車するには十分なスペース（幅、大きさ）が必要だという「常識」がないためで、単に文章の流れだけから、smallとかtightを選んでしまうのだと思います。 5問目は、こんな問題です。ミルクが入ったコップAと、コーヒーが入ったコップBがあります。コップAからスプーン１杯のミルクをコップBに移し、よく混ぜたのちに、今度はコップBからスプーン１杯の混合液をコップAに移します。この時、コップAに入っているコーヒーの量と、コップBに入っているミルクの量ではどちらが多いでしょう。ちょっと難しい問題ですが、ちゃんと考えれば正しい答えに辿り着けるので、是非とも考えてみてください（正解はこのメルマガの最後に書いてあります）。ちなみに、LLMの中で正しい答えを出すことが出来たのは、GPT4のみでした。 ChatGPTの画像処理 ChatGPTに、DALL.Eの画像生成機能が組み込まれたとのことで、早速自分のアバターを作ってみたところ、こんな結果でした（左が読み込ませた画像、右が生成した画像）。やり方は簡単で、自分の顔写真をアップロードした上で、"a semi-realistic, comic style"なイメージに変換を依頼するだけです。（注："Japanese compic style"とすると、少女漫画風になってしまいます）。ヒゲとか髪の毛などの部品は合っているのですが、どうも顔が似ているとは思えないので、色々なプロンプトを試したのですが、どうしてもこの手の顔になってしまいます。ひょっとして、学習データからのバイアスかも知れないと思い、私の写真は読み込ませずに、単に年齢とヒゲの情報だけ与えてみたところ、どれも似たような顔が生成されます。画像生成AIのDALL.Eは、LLMと同様に大量のデータを教材として与えて学習させますが、結果的には与えたデータをニューラルネットワークの中に圧縮した形で記憶することになります。このケースでは、ちょうど私と同じような年齢で、かつ髭の形をした東洋人の画像データは、たかだか１、２個しかなく、どうしてもそこに引き寄せられてしまうのだと思います。別の言い方をすれば、「学習データ不足」であり、ある種の「Overfitting」です。これを見て思ったのは、「やはり著作権付きのデータを使って学習した人工知能は著作権を侵害していると言えるのかも知れない」という点と、「人工知能にはもっと改善の余地がある」という２点です。特に後者は、OpenAIのような大手が「汎用人工知能」を目指す中で、小さなベンチャー企業にも（「人の顔」のような）特定の分野で活躍する余地があることを示しているように思います。

この続きを見るには

この記事は約 NaN 分で読めます（ NaN 文字 / 画像 NaN 枚)

これはバックナンバーです

1ヶ月分880円(税込)で購入