今週のざっくばらん
AI Transformation (AIX)
シアトルで立ち上げたベンチャー企業に大きな変化がありました。ドローンを使って工事現場の3Dスキャンなどをしている会社ですが、実際に役にたつ仕事をさせるとなると、さまざまなソフトウェアが必要ですが、いずれのレイヤーにおいても、AIの技術がとても重要であることが分かり、今ではほとんどのメンバーがAIを活用したソフトウェア開発をしています。具体的に言えば、
オペレータの指示の解釈
飛行プランの作成
障害物を避けながらの自動飛行
撮影した画像から3Dモデルの生成
3Dモデルのレンダリングと物体認識
といういずれの段階においても、AIの技術を適用しているのです。3週間ほど前に、顧客向けに初めてのデモをしたのですが、その時にも「これほどまでにAIの技術を使いこなす会社だとは知らなかった」と驚かれてしまいました。
同様のフィードバックは投資家からもあったので、会社のリブランディングをすることにしました。「ドローンの会社」と言ってしまうと、DJIのようなハードウェアの会社だと誤解されてしまうので、より幅広く「AIと自動運転のマシンを活用したビジネス・ソリューションの会社」というポジショニングです。
そんな中で、私たちが実際にどんなビジョンを持ち、会社を立ち上げたのか、という根本を辿っていくと、「AI Transformation」という言葉に辿り着きました。この言葉は、私がメルマガなどで使い始めた言葉ですが、今、世界で起こり始めている大変革を表すには最適な言葉だと思います。
「AI Transformation(AIX)」という言葉を明確に定義し、広めた上で、私たちの役割を語るのが良かろうということになったのです。
そこで早速、小論文を執筆したのですが、(先週も書いたように)ここで大活躍したのがGPT3です(私は、ChatGPTではなく、開発者向けのPlaygroundを使っています)。GPT3とやりとりをしながら、どんなメッセージをこめるかを決め、執筆のかなりの部分でGPT3の助けを借りたのです。最初のドラフトは3時間ぐらいで出来ましたが、その後、何回か手直しをして、先週の月曜日にLinkedInの記事「AI Transformation: Natural Language UI, Software 2.0 and Autonomous Systems」として発表しました。
最初のドラフトは、もっとビジネス側のインパクトのことを書いていましたが、私が書くのであれば、技術サイドから攻めた方が説得力があると考え、基本的には技術者から見た、三つの大きな変化に注目した小論文になりました。要約すると、
AI技術の急速な進歩により、世の中は「Digital Transformation(DX)」の次のフェーズである「AI Transformation(AIX)」の時代に突入した。Amazonが既存の書店や小売店から仕事を奪い、Uberがタクシー会社から仕事を奪ったのと同様、もしくはそれ以上の変化が、これから起こります。
AI技術の進歩は、さまざまなものに変化をもたらすが、それが顕著に現れるのが以下の三つの領域です。
Natural Language User Interface(NLUI)がGUIを置き換えます。これは単にGUIの置き換えに留まらず、ユーザーの求めていることを理解するAIにより、(これまでエンジニアやITコンサルタントにより開発されて来た)さまざまな「業務アプリ」が不要になることを意味します。究極のNo-Code。
これまでエンジニアがアルゴリズムを設計し、コードを書いて作っていたソフトウェアが、大量のデータで教育されるニューラルネットワークで置き換えられるようになります。Andrej Karpathyが2017年に提唱した「Software 2.0」の時代。
日本に限らず、先進国はどこも労働者不足、特に高いスキルを持った労働者不足に悩まされていますが、その切り札となるのが、ロボット、ドローン、自動運転車などの自動運転機器と人工知能を組み合わせたAutonomous System。将来は、工事現場や農林水産業から介護まで、幅広い業界でAutonomous Systemが使われるようになります。
となります。
1990年代から始まったDXの波に大幅に乗り遅れてしまった日本社会は、結果として、一人当たりの生産性で先進国の中で最下位になってしまいました。今から始まろうとしているAIXの波はさらに大きく、このまま立ち止まっている日本企業は全て淘汰されてしまいます。そんな状態を避けるためには、誰もが「AIを使いこなす側」になるための勉強をする必要があり、企業は思い切ったリストラと先行投資を今のうちにしてしておくべきなのです。
CLIP(Contrastive Language-Image Pre-Training)
質問コーナーには、しばしば、私がどうやって勉強しているか、何を勉強しているか、という質問が来ます。情報の入手経路はさまざまですが、特別に重要なトピックをちゃんと理解しようとする時には、論文にまで遡ることがしばしばです。最近も、Dall.eやStable Diffusionに代表される「画像生成系AI」の仕組みを理解する際に、そこで使われているCLIP(Contrastive Language-Image Pre-Training)というテクニックを理解するために読んだのが、「Learning Transferable Visual Models From Natural Language Supervision」というタイトルの論文です。
CLIPは、(当時は非営利団体だった)OpenAIの研究者が2021年に論文を書き、かつ、オープンソース化したテクニックで、Embedding Vectorを活用して、画像とテキストのマッチングを効率良く行うことを可能にするテクニックです。
少し前に、このメルマガでも紹介しましたが、Embedding Vectorとは、テキストや画像などの構造化されていないデータを、比較や検索がしやすいように高次元のベクトルデータに変換する手法です。一度ベクトルデータに変換してしまえば、二つのベクトルが似ているかどうか、複数のベクトルを似たもの順に、などが単純な数値計算で行うことが出来るようになります。結果として、そのままでは比較できない二つの文章が「似ているかどうか」の判断が素早くできるようになるのです。
CLIP以前の画像認識は、ラベル付けした大量の画像(例:「犬」というラベルがついた画像)でニューラルネットワークを、画像を入力するとそこに写っているものを正しく認識するようにトレーニングすることにより行われていました。
しかし、この方法でトレーニングするためには、綺麗にラベル付けされた画像が大量に必要で、扱える画像の数は限定的でした。インターネット上には、莫大な数の画像がありますが、これらを(膨大な手間とコストがかかる「ラベル付け」をせずに)活用することは出来なかったのです。
OpenAIの研究者は、自然言語の解析の際に用いてきた Embedding Vector という手法を使えば、インターネット上にある大量の画像を画像認識のトレーニングに使えるのではないか、という発想のもとに、CLIPというテクニックを作り出しました。
仕組みは、至ってシンプルで、文字列から Embedding Vector を作るニューラルネットワークと、画像から Embedding Vector を作るニューラルネットワークの両方を用意し、インターネット上にあるキャプション付きの画像を与えた時に、双方の Embedding Vector が出来るだけ一致する方向にニューラルネットワークをトレーニングするだけです(下の図)。
インターネット上にある画像のキャプションは、必ずしも綺麗なテキストではありませんが(例:Pepper the aussie pup)、キャプションをEmbedding Vectorに変換する際に、犬に関連したキャプション同士が近いところにマップされ、さらにその Embedding Vector と画像から生成された Embedding vector のマッチングが(トレーニングの結果)行われるため、「言葉で画像を探したり」「画像に何が映っているかを認識する」ことが可能になるのです。
CLIPの画期的なところは、本来そのままでは比べることが出来ない文章と画像を、共通の構造を持つEmbedding Vectorに変換することにより、比較することが ようにしてしまったところにあります。
CLIPの発明により、画像認識のトレーニングに使えるデータの量は爆発的に増えたし(この論文では、4億個)、自然言語による画像検索など、これまでには不可能だったことが可能になったのです。
「画像生成系AI」は、このCLIPを活用することにより、自然言語で指定した画像を自動生成することすら可能にしてしまったのです。
この記事は約
NaN 分で読めます(
NaN 文字 / 画像
NaN
枚)