EDGEのダンス生成インターフェースを探る
EDGEのプロジェクトページ(edge-dance.github.io)にアクセスすると、まず目に飛び込んでくるのは、清潔感のある学術的なデザインのサイトで、魅力的なデモ映像がすぐに表示されます。ランディングページには、未聴の音楽から生成された100の非厳選ダンスサンプルが、メソッドの明確な説明とともに表示されています。直接試せるインタラクティブなプレイグラウンドやAPIはなく、純粋な研究発表に特化しています。その代わりに、CVPR 2023の論文、コードリポジトリ、デモビデオ集へのリンクが用意されています。著者らが述べているように、レイアウトはImagenのウェブサイトに大きく影響を受けていますが、ダンスモーションに焦点が当てられています。ダッシュボードは基本的に静的な情報ページですが、編集可能な合成例のギャラリーが含まれています。関節ごとの制約(上半身から下半身を生成)、時間的な中間補完、ダンスの継続などです。これらのギャラリーをクリックして見ると、生成されたモーションの比較を並べて表示できます。このサイトからは、EDGEが研究者向けの手法であり、商業製品ではないことが明確にわかります。実際に試すには、GitHubリポジトリをクローンしてローカルでモデルを実行する必要があり、かなりのハードウェアリソースが必要です。プロジェクトによると、OpenAIの強力な音楽特徴抽出器であるJukeboxと組み合わせたトランスフォーマーベースの拡散モデルを使用しています。
技術的な深掘り:拡散モデルとJukebox
EDGEは、特定の困難な問題を解決します。任意の音楽入力から現実的で編集可能なダンスシーケンスを生成することです。スタンフォード大学のJonathan Tseng、Rodrigo Castellon、C. Karen Liuの研究者らは、条件付き拡散モデルを活用した手法を発表しています。音楽はまず、リズムとジャンルの両方を理解する凍結されたJukeboxモデルを使って埋め込みにエンコードされます。これらの埋め込みが、5秒のダンスクリップを生成するトランスフォーマーベースの拡散モデルの条件となります。任意の長さのダンスを生成するために、EDGEはクリップのバッチをつなぎ合わせる際に時間的な制約を課し、スムーズな遷移を確保します。特筆すべき技術的貢献は、接触一貫性損失です。これは、モーション生成でよく見られる意図しない足の滑りを大幅に軽減します。モデルは、足が自然に滑るべき場合(一部のダンスムーブのように)と、しっかり接地すべき場合を学習し、物理的に妥当な結果をもたらします。論文では、EDGEは以前の手法BailandoやFACTと比較されています。人間の評価者はEDGEの振り付けを強く好み、その効果が実証されています。ただし、モデルは特定のデータセット(この分野では一般的なAIST++ダンスデータベースと思われます)でトレーニングされており、追加調整なしではすべての音楽スタイルにうまく一般化できない可能性があります。APIや価格については言及されておらず、これはオープンソースの研究プロジェクトで、コードは学術利用が可能です。
編集可能な合成と実世界でのユースケース
EDGEが従来のダンス生成ツールと一線を画すのは、編集可能性に重点を置いている点です。この手法は空間的制約と時間的制約の両方をサポートしています。例えば、上半身の動きを指定して下半身を生成させる、またはその逆も可能です。これは関節ごとの制約デモで示されています。モーションの中間補完では、EDGEは所定のポーズで開始および終了するダンスを生成し、中間部分を自然に埋めることができます。継続生成も可能です。初期モーションシーケンスを提供すると、EDGEはスタイルと音楽の調和を保ちながら、より長いダンスに拡張します。これらの機能により、ゲーム開発、バーチャルリアリティ、映画のプリビジュアライゼーションなどへの応用が期待されますが、繰り返しになりますが、コードを実行する技術的な専門知識が必要です。DeepMotionやRADiCALのようなクラウドベースのモーション生成を提供する商用ツールとは異なり、EDGEはウェブインターフェースやAPIでは利用できません。厳密に研究用の成果物です。手軽なツールを求めるアーティストや振付師にとっては、適切なソリューションではありません。しかし、最先端のダンス生成に興味があるAI研究者やエンジニアにとって、EDGEは優れた参考資料です。コードは公開されており、十分に文書化されています。また、論文では明確な比較が提供されています。制限事項として、モデルはかなりのGPUメモリ(推論には少なくとも16GBのVRAMが必要と思われます)を必要とし、ゼロからのトレーニングにはさらに多くのメモリが必要になります。さらに、編集機能は強力ですが、専門家以外には直感的ではない可能性があります。入力制約を正しくフォーマットする方法を理解する必要があるからです。
全体的に、EDGEは音楽駆動型ダンス生成の限界を押し広げる強力な学術的貢献ですが、何よりもまず研究ツールとして位置づけられています。
実際に試すには、EDGEのウェブサイト(https://edge-dance.github.io/)をご覧ください。
コメント