【開発者必見】Gemini 1.5 Pro アップデートと新モデル登場! API 新機能で開発の可能性が広がる

【開発者必見】Gemini 1.5 Pro アップデートと新モデル登場! API 新機能で開発の可能性が広がる

こんにちは!Google I/O 2024で発表された、AIモデル「Gemini」ファミリーの大規模アップデートについてご紹介します。Gemini 1.5 Proの性能向上に加え、新モデル「Gemini 1.5 Flash」の登場、そしてAPI機能の拡充など、開発者にとって見逃せないニュースが盛りだくさんです。

はじめに

Geminiは、Googleが開発するマルチモーダル大規模言語モデル(LLM)です。2023年12月に「Gemini 1.0」を「Ultra」「Pro」「Nano」の3サイズで公開し、2024年2月には100万トークンのコンテキストウィンドウを備えた「Gemini 1.5 Pro」をリリースしました。

今回のアップデートでは、さらに進化した「Gemini 1.5 Pro」に加え、最軽量モデルの「Gemini 1.5 Flash」が新登場。また、オープンモデル「Gemma」のアップデートや、Gemini APIの新機能も発表されました。

Geminiの公式サイト:https://developers.google.com/gemini

大幅に性能向上した Gemini 1.5 Pro

Gemini 1.5 Proは、100万トークンという競合製品を圧倒するコンテキストウィンドウを備えていましたが、今回なんと200万トークンにまで拡張されました。これは1時間の動画コンテンツや3万行以上のプログラムコードに相当する膨大な情報を処理できることを意味します。

さらに、翻訳やコーディング、推論など主要なユースケースで品質改善が行われ、各タスクの公開・内部ベンチマークでも大幅な性能向上が確認されています。

この200万トークン版へのアクセスは、Google AI StudioやVertex AIのウェイティングリストから申請可能です。

最軽量モデル Gemini 1.5 Flash 登場

新たに発表された「Gemini 1.5 Flash」は、Geminiファミリーの最軽量モデルです。翻訳やコーディングをはじめとする高頻度タスクの処理に最適化されており、蒸留(Distillation)技術により、Gemini 1.5 Proに匹敵する性能を維持しつつ、サイズと推論時間を大幅に削減しています。

Gemini 1.5 Flashも100万トークンの長文コンテキストウィンドウを備え、テキスト、画像、音声、動画などのマルチモーダル入力に対応。現在200以上の国と地域でプレビュー版の提供が開始されており、6月には正式リリース予定です。

Gemini API の新機能

Gemini APIにもいくつかの新機能が追加されました。まず、ビデオフレーム抽出と並列関数呼び出しという2つの機能が利用可能になります。また、6月にはコンテキストのキャッシュ機能も導入予定で、長文コンテキストの使い勝手とコスト効率がさらに向上するとのことです。

Gemma の新モデル PaliGemma と Gemma 2

Geminiと同じ技術で構築されたオープンモデル「Gemma」にも、2つの新モデルが加わります。

「PaliGemma」は、画像キャプションや視覚的QAなどの画像ラベリングタスクに特化したビジョン言語モデルです。「CodeGemma」や「RecurrentGemma」に続く事前学習済み派生モデルとして、オープンソースで提供が開始されています。

6月にリリース予定の次世代モデル「Gemma 2」は、開発者にとって使いやすいサイズ帯でトップクラスの性能を目指しています。具体的には、27Bパラメータの「Gemma 27B」が登場し、高性能でありながらGPUや単一のTPUホストで効率的に動作するため、Vertex AI上で手軽に利用できるようになるそうです。

まとめ

Google I/O 2024で発表された、AIモデル「Gemini」ファミリーの大型アップデートについて解説しました。主なポイントは以下の通りです。

  • Gemini 1.5 Proのコンテキストウィンドウが200万トークンに拡張、各タスクで大幅な性能向上
  • 最軽量モデルの Gemini 1.5 Flash が新登場、高頻度タスクに最適化
  • Gemini APIにビデオフレーム抽出、並列関数呼び出し、コンテキストキャッシュ機能が追加
  • Gemmaファミリーに画像特化モデルのPaliGemmaと次世代モデルのGemma 2が仲間入り

Geminiの進化は、私たち開発者にとって大きなチャンスです。膨大なコンテキストを理解し、マルチモーダルな入力を扱えるようになったGeminiを活用することで、これまで以上に高度で創造的なアプリケーション開発が可能になるでしょう。

また、APIの機能拡充により、よりスムーズかつ効率的な開発が期待できます。Geminiを使いこなすことで、自然言語処理や画像認識など、AIを活用した革新的なサービスを生み出せるはずです。

ぜひ皆さんも、進化したGeminiの力を借りて、新たな開発への挑戦を始めてみてください。私もGemini 1.5 Proや1.5 Flashを使った実験を早速始めたいと思います。