
こんにちは。AIエンジニアリンググループの矢澤です。
NeurIPS 2024の参加報告として、これまでチュートリアルや招待講演についての一部を共有しました。 今回は、学会のメインイベントであるオーラルセッションについて、特に気になった発表を紹介したいと思います。
オーラルセッションとは
オーラルセッションは、研究者らが投稿した論文の中で、査読の結果特に優れた内容と認められたものを発表するイベントです。
チュートリアルや招待講演と異なり、発表時間は20分しかないので、研究の背景や課題から手法、実験結果などが端的にまとめられています。 そのため、聴講者側もある程度の事前知識が必要となりますが、どの発表もプレゼン力が高く概要をつかみやすくなっていると感じました。
Datasets Benchmarks
NeurIPSでは通常のオーラルセッションとは別に、「Datasets Benchmarks」というセッションがあります。 こちらは、データ自体の作成や検証を実施した内容を発表するもので、近年のAIモデルの大規模化に応じてデータ自体に注目する研究も増えてきているようです。 余談ですが、ポスターセッションでもDatasets Benchmarksのコーナーが一部の区域にまとめられており、分かりやすくなっていました。
ベストペーパー
オーラルセッションの中から更に一部の論文が、その年のベストペーパーとして表彰されます。 今年は上記のDatasets Benchmarksや副賞と併せて、計5件の研究が選ばれました。 対象の研究は以下の通りです。
- Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction ★
- Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators
- (副賞)Not All Tokens Are What You Need for Pretraining ★
- (副賞)Guiding a Diffusion Model with a Bad Version of Itself ★
- (Datasets Benchmarks) The PRISM Alignment Dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models
オーラルセッションでは、上記の他にも多くの素晴らしい発表がありましたが、本記事では特に技術的に興味深いと感じた★の付いた発表について、概要を共有したいと思います。
各発表について
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
アブストラクト
ビジュアル自己回帰モデリング(VAR):画像の自己回帰学習を、標準的な「次のトークン予測」ではなく「次のスケール・解像度予測」として再定義
- シンプルで直感的な手法により、自己回帰Transformerが画像の分布を高速に学習し、適切に一般化
- GPTのようなARモデルが画像生成において拡散モデルを初めて上回った
ImageNet 256x256での実験:
- VARは通常のARを大幅に上回る性能(FID:18.65→1.73、IS:80.4→350.2、推論速度:約20倍)
- 画像品質、推論速度、データ効率、スケーラビリティなど、複数の側面でDiT1よりも優れていることが実証された
- VARのスケールアップ:LLMと同様のべき乗則を示し、非常に近い相関係数(-0.998)
- さらに、下流タスク(Inpainting, Outpainting, Editing)でゼロショット汎化能力を発揮
- 上記の結果は、VARが初めてLLMの2つの重要な特性(スケーリング則とゼロショットタスク一般化)をエミュレートしたことを示す
画像生成と統合学習用のAR/VARモデルを促進するために、モデルとコードを全て公開
発表内容
生成モデルには大きく分けて拡散モデルと自己回帰モデルの2種類があり、前者にはGANやVAE、フローベースモデル、拡散モデルが該当し、後者はテキスト分野におけるTransformerが有名です。 LLMでは、BPE2やWordpiece3によってテキストをトークンに変換し、潜在空間で次元圧縮した後、最大尤度やクロスエントロピー損失を用いたTeacher Forcing4でモデルを最適化します。 また、LLMは後続トークンの予測によって大規模データから知識を学習し、Context Learningとして一般タスクに転移したり、統一的な生成・理解を実現します。
画像生成では一般的な自己回帰モデルは拡散モデルよりも精度が悪く、テキスト生成と同様のスケーリング則を示しません。 また、ラスター順の予測により推論速度が非常に遅く、画像において重要な大局情報が失われるため自然ではありません。 通常の自己回帰モデルを画像に適用すると、「数学的前提に違反」、「ゼロショット生成が困難」、「構造的な劣化」、「非効率性」などの問題があります。
そこで新たなパラダイムとして、後続トークンではなく次のスケール(より高解像度な画像)を予測するVAR(ビジュアル自己回帰モデル)を提案しました。 人間が画像を見たり絵を描いたりする際にも全体像から詳細に入っていくことが多いため、上記のような流れは画像における自然なアプローチだと考えられます。 処理は2段階から成り、初めに画像を離散トークンに変換するトークナイザーを学習した後、GPT形式のTransformer(スケール領域での自己回帰モデル)をTeacher Forcingで学習します。 新たな量子化オートエンコーダーにより、画像をVARの学習に必要なK個のマルチスケール離散トークンマップに変換します。 VARは各ステップにおいて、以前のトークンマップ群を基に次のスケールのトークンマップを推定します。

実験により、VARはImageNetベンチマークでSoTAを達成し、非常に高速な推論を可能にし、従来のARモデルやDiT、その他の従来手法を大きく上回ることが分かりました。 特にARモデルとの比較では、FID5やIS6が大きく改善し、推論速度も約20倍となっています。 また、DiTと比べた場合にも同様に性能や処理速度、データ効率が向上し、スケーリング則(LLMとほぼ同等のべき乗則)にも従うことが示されました。 スケーリング則については、モデルのパラメーターや処理量のどちらを増やした場合にも、段階的かつ明らかに生成能力に改善が見られます。 ゼロショット生成についても、様々なタスク(Inpainting, Outpainting, Cross-condition Editing)7で追加学習なしに優れた結果を実現しました。
所感
画像における自己回帰モデルやGANによる超解像など、似たような手法はこれまでも存在していましたが、近年主流の技術であるTransformerを使ってスケール予測を行うことで、高品質な画像生成を実現している点が素晴らしいと感じました。 今年度のベストペーパーに選ばれたものですが、手法自体は比較的単純で分かりやすく、従来手法の改良やアルゴリズムの工夫によってブレイクスルーが生まれる余地があるということを再認識できました。
Not All Tokens Are What You Need for Pretraining
アブストラクト
- 従来の言語モデル:すべての学習トークンに均一に損失を適用して事前学習
提案手法:「コーパス内のすべてのトークンが言語モデルの学習にとって等しく重要なわけではない」と仮定
- 初期分析:言語モデルのトークンレベルの学習ダイナミクスを調べ、トークンごとに異なる損失パターンを明らかにした
- 上記の洞察を活用して、新しい言語モデル「Rho-1」を導入
- 従来のLMとは異なり、Rho-1は選択的言語モデリング(SLM)を採用し、望ましい分布に沿った有用なトークンを選択的に学習
- 参照モデルを使用して学習トークンにスコアを付け、高スコアのトークンに重点を置いた損失で言語モデルを学習
実験結果:
- OpenWebMathコーパス(150億トークン)で継続的に事前学習:Rho-1は9つの数学タスクでFew-shot精度が向上(最大30%)
- 追加学習後:Rho-1-1B/7BはMATHデータセットにおいてSoTAを達成(40.6%、51.8%)
- 事前学習トークンのわずか3%でDeepSeekMathに匹敵する性能
- 一般的な800億トークンで継続的に事前学習:Rho-1は15の多様なタスクにおいて精度向上(平均6.8%)
- データ効率と事前学習パフォーマンスの両方を向上
発表内容
LLMの事前学習コーパスについて、ドキュメント単位や行単位では単純なフィルタリングを行うことで、ノイズとなる文章を除外することができます。 しかしトークン単位で考えると、LLMの処理手順(左から右に学習)と人の見方(ズームインとズームアウトを繰り返す、重要な部分に注目、右から左に読み返す)には違いがあるという課題があります。 例えば、日付や名前などのノイズとなるトークンを無視したり、合計の数字を見る際にしか個々の数字に着目しないなどの特徴があります。

そこで著者らは、ベースモデルを用いてトークン損失のダイナミクスを計算し、各トークンを4つのタイプ(高→高、低→高、高→低、低→低)に分類しました。 上記のタイプごとに学習トークン数と損失の関係を見ると、学習が進むにつれて高→高では高い損失をキープ、低→高では損失が増加、高→低では減少、低→低では低い損失をキープという結果が見られます。 また、低→低や高→高の損失推移をトークン単位で見ると、各損失がすぐには収束せずに学習中に変動し続けるということが分かりました。
提案法では有用なトークンを選択する方法として、全トークンで順伝播を行い、逆伝播時に上位K個のトークンを動的に選択するという方法を取っています。 全体の流れとしては、初めに高品質なテキストで参照モデルの学習を行い、事前学習コーパスでトークンのPPL8 を計算し、その後スコアの高いトークンを使ってLLMを学習します。 特に、学習済みの参照モデルと現在学習中のモデルでトークンスコアを計算して差分を求めることで、上記のダイナミクスを考慮する点が重要なようです。
SLM(提案法)では、1B/7Bモデルの両方でFew-shot Accuracyが従来法よりも向上し、さらに学習が高速になったことからデータ効率が良いことが示唆されました。 数学データでの追加学習や一般的な分野の事前学習でも、提案法は従来法よりも優れた性能を実現し、汎用的に性能が高いことが分かっています。 また、高品質なコーパスが利用できない場合には、全データで最後まで学習したモデルや前のチェックポイントを参照モデルとして利用することで、性能を向上させることができました。
以上をまとめると、言語モデルの事前学習では全てのトークンが等しく有用ではなく、SLMでは学習時のトークン選択によってデータ効率を向上します。 SLMは追加学習やアライメント、マルチモーダルなど多くの領域に応用することが可能です。 計算能力は急速に増加するがデータは増加しないため、データ効率性を向上することで同じデータに対する価値を最大化させることが重要となります。 トークンベースの手法には、学習時の正確・細かい単位としての利用など十分なポテンシャルがあります。 今後はより柔軟で文脈依存の手法や、人間のデータに対する見方をより厳密にシミュレーションしたモデル構築など、多くの課題が挙げられます。
所感
上記のVARと同様に、「トークン単位の有用性に注目する」という比較的シンプルなアイデアでありながら、人間の認知処理により近い手法で優れた性能を実現できている点が良いと感じました。 トークンタイプの選択や、ダイナミクスを考慮した学習方法については、まだ十分に理解しきれていない部分もあるため、数式などを眺めながら改めて復習したいと思いました。
Guiding a Diffusion Model with a Bad Version of Itself
アブストラクト
- 画像生成拡散モデルにおける主要な関心:画像の品質、結果の変動量、結果が特定の条件(クラスラベル、テキストプロンプトなど)にどれだけ適合しているか
- 一般的なCFG9:無条件モデルで条件付きモデルをガイドすることで、変動量を犠牲にして、プロンプトへの適合性と画像品質を向上
- これらの効果は本質的に相互影響しているため制御が困難
- 提案手法:無条件モデルではなく、より小さく訓練度の低いモデルを用いて生成をガイドすることで、変動量を損なうことなく画像品質を独立して制御可能
- ImageNetでの実験の結果、生成が大幅に改善され、公開ネットワークを用いて記録的なFID(64x64:1.01、512x512:1.25)を達成
- 本手法は無条件拡散モデルにも適用でき、品質を大幅に向上させる
発表内容
Text-to-Imageではガイダンス10を使用することで、よりプロンプトに合った画像を生成することができます。 また近年主流である拡散モデルは、ノイズを少しずつ除去して画像を生成する手法で、理論的にはホワイトノイズでのフローマッチングに該当します。 ガイダンスの中でも特に有名なCFGは、プロンプトあり・なしの両条件でノイズ除去を行い、なし→ありの向きにデータを外挿します(CFGの強度を上げるほど、よりプロンプトに合った画像が生成されることになります)。 実際には、プロンプトなしの条件では学習が不十分なモデルを使用し、プロンプトありでは十分に学習されたモデルを使用します。 提案手法では、同じプロンプトを使用して、質の悪いモデルでノイズ除去したデータから質の良いモデルのデータに向かって外挿することで、ガイダンスを実現します。
その後、木の枝を模した画像によって提案手法のイメージが図示されました。 枝を構成する各点は一つ一つのデータを表し、データが密集している箇所ほど色が濃くなっています。 クラスごとの分布例として、生成したいクラスを猫、他のクラスを犬とすると、猫と犬の画像が集まった領域に分けることができます。 拡散モデルでは、データにノイズが加わり分布があいまいになります。 ノイズ除去の段階では、サンプリングしたノイズ画像を真の分布(スコアベクトル)の方向に近づけることで、実在する画像に近いデータが生成されるようにします。
実際の生成データでは、分布外の(猫のようで猫でない)画像が生成される可能性があり、CFGによって対象クラス(猫)の向きにデータを誘導します。 CFGの影響として、データが主要部分に密集するため外れ値の除外や品質の向上に繋がるという利点があり、対象クラス(猫)から離れるほど強く誘導されるため、結果的に真の分布に近づくようになります。 一方でCFGにはクラス境界付近のデータが切り捨てられてしまうという欠点もあり、提案法では、CFGの悪影響なしに真の分布に近づけることが可能です。

互換モデルの選び方として、小規模モデル(大幅な適合不足)から大規模モデル(部分的な適合不足)方向への誘導では、適合不足の少ない良い結果が得られます。 しかし、人工の悪性モデル(ネットワークの一部をドロップアウト)から大規模モデル方向に誘導した場合には、適合不足かつドロップアウトという最悪な結果になってしまう可能性があります。 実験の結果、悪性モデルの種類として効果的なもの(層や特徴量の減少、学習不足、それらの混合)と非効果的なもの(ドロップアウトやノイズなどの手動劣化、重みの量子化、データセットの減少、前世代モデル)があることが分かりました。
モデルの性能について、CFGではガイダンスが強くなるほど画像の品質は高まりますが、上記の悪影響によって多様性が減少してしまいます。 一方、提案手法ではガイダンスが強くなっても多様性が減少(FIDが増加)しないことが判明しました。 生成画像を見ても、提案法ではガイダンスの強度を上げると、物体の姿勢や画像のスタイルを保ったまま細部のみが変化しています。
所感
「自分自身の悪いバージョンを活用してCFGと同様のガイダンスを行う」というアイデアが画期的で、個人的に興味深い研究でした。 枝の画像を使った手法の図示も非常に分かりやすく、同じレベルのデモ画面を作成するのは大変かと思いますが、今後自身が発表を行う際にも参考にしたいと思いました。
まとめ
本記事では、NeurIPS 2024のオーラルセッションについて、ベストペーパー発表の一部をまとめました。 どの手法も、人間の感覚と合っていて分かりやすいものでありながら優れた性能を示しており、基礎研究の可能性や重要性を改めて感じることができました。 次回は、最後のセッションとしてワークショップの内容を共有したいと思います。
- DiT(Diffusion Transformer)は、拡散モデルとTransformerを組み合わせた画像生成における新しいアプローチで、従来のU-Netベースの拡散モデルやGANを上回る性能を示しています。↩
- BPE(Byte Pair Encoding)は、LLMの学習時に隣接文字のペアを別の文字に変換する技術で、埋め込み処理のパラメータ数を減らすために使われます。↩
- WordPieceはBERTで採用されたサブワード分割の手法で、サブワードを結合する際にBPEのような出現頻度ではなく、データの尤度を最大化する文字ペアを選択します。↩
- 教師強制(Teacher Forcing)とは、RNNなどの学習において正解データを次の時刻の入力として使用する手法で、学習を安定化させて訓練時間を短縮することを目的としています。↩
- FID(Frechet Inception Distance)は、本物の画像と生成画像の埋め込み表現の平均・共分散を比較したスコアで、画像間の特徴距離を測定するための一般的な基準の1つです。↩
- IS(Inception Score)は生成画像のクオリティと多様性を同時に評価するスコアで、別途訓練された画像分類モデルの出力に基づいて計算されます。↩
- いずれも画像の一部を他の部分を基に推定して穴埋めするタスクであり、In-paintingは中心部分を周囲から推定し、Out-paintingは逆に周辺を中心から推定、Class-condition Editingはクラス(犬、気球など)の条件に従って穴埋めします。↩
- PPL(パープレキシティ)は言語モデルの評価指標の1つで、ある単語を正確かつ確信度高く予測しているほど小さくなる値です。↩
- CFG(Classifier-free guidance)は、条件付き拡散モデルと無条件拡散モデルのスコアを組み合わせることで、分類器ガイダンスと同様のサンプル品質と多様性を実現する手法です。↩
- ガイダンスは、データ生成時に何らかのスコアを基に生成画像を誘導することで、入力したプロンプトや画像に対する忠実度を高める手法です。↩