今週のざっくばらん
人工知能の今とこれから
あけましておめでとうございます。2024年の最初のメルマガ、ということもあるので、現時点で最も注目すべき技術である人工知能について、現状と今後の展望について書いてみたいと思います。
この分野はこれまでの技術とは桁違いのスピードで進化をしているため、それぞれの分野の最先端がどこにあるのかを把握し続けるのすら難しい状況になっていますが、最低限、おおまかな流れぐらいは把握しておくことが重要です。
私はこの業界と40年以上関わっており、GUI、インターネット、モバイル、などの様々な技術革新を目の当たりにして来ましたが、今回の技術革新は、これまでのどれとも大きく異なるものだと確信しています。
ソフトウェアの作り方が根本的に変わりつつあり、それがオープン・イノベーションと相まって、これまでにない指数関数的とも言えるスピードで、さまざまな技術革新が日々、起こっているのです。
その根幹になるのが、Andrej Karpathyが2017年に提唱したSoftware 2.0で、それが何を意味するのかを理解して初めて、今起こっている技術革新が何なのか、そして、どんなインパクトをこの業界だけでなく、社会全体に与えるのかをイメージできるようになります。
Software 2.0とは、ひとことで言えば「人間(ソフトウェア・エンジニア)がちまちまとアルゴリズムを組み立てる時代から、ニューラルネットワークを活用して、マシンそのものにアルゴリズムを作らせる時代」を意味します。
誤解してほしくないのですが、これは(OpenAIのCode Interpreterのように)マシンがコード(プログラム)を生成する時代の話をしているのではありません。莫大な数のパラメータを持つニューラルネットワークが、機械学習の結果、人間が作ったアルゴリズムやコードのの代わりに、問題を解決してしまうことを意味します。
一昔前まで、画像認識は人間が作ったアルゴリズムを活用して画像に含まれたさまざまな特徴を認識し、そこに写っている物を認識したり、位置を特定したり、ということをしていました。それには莫大な手間(プログラミング)がかかり、かつ、作ったプログラムはすぐに陳腐化してしまう、という欠点を抱えていました。トフォンやVR\ARグラスで効率良く走るようになり、それが実際にアプリケーションとしてリリースされるのは時間の問題で、2024年はそんなアプリケーションを数多く見ることになると予想出来ます。
LLMのマルチモーダル化(言語だけでなく、画像、映像、音なども扱えるようになること)も加速しており、ここに関しては、OpenAIとGoogleが先を進んでいます。マルチモーダル化がオープンソース側に起こるのも時間の問題とも言えますが、文章と違って、著作権に縛られない学習データだけで優秀なマルチモーダルな
この記事は約
NaN 分で読めます(
NaN 文字 / 画像
NaN
枚)