英伟达推出基于深度学习的人工智能模型 可以自动为音乐编排舞蹈动作
人工智能的深度学习领域一直在不断地进步中,英伟达(NVIDIA)最近也一直在该领域进行各种相关的研究。本月初,英伟达与 Hackster 联合推出了 AI at the Edge 挑战赛。参加比赛的选手注意到他们可以使用 NVIDIA Jetson Nano Developer Kit 开发基于神经网络的新模型。
英伟达还在11月发布了名为“Jarvis”的多模态人工智能开发工具套件,该套件可以将多种传感器集成到一个系统中。英伟达最近还制作了一款新算法的原型,该算法可以使机器人拾取任何对象。
英伟达一直没有在探索人工智能的路上停下脚步,他们又在 NeurIPS 2019 推出了新的基于深度学习的 AI 模型,该模型可以为输入的音乐自动编排舞蹈动作。这个被称为“人工智能编舞”的模型是于加利福尼亚大学默塞德大学合作研发的。
虽然从表面上来看这个模型完成的任务并不复杂,但是研发团队表示如何更准确地关联音乐与对应的舞蹈动作确实很困难,因为编排舞蹈动作需要考虑多种因素,比如:音乐的节拍数和曲风等等。研究人员搜集了三大最具有影响力的舞种(芭蕾舞、尊巴、Hip-Hop)的361000个片段来训练系统使用的生成对抗网络(GAN)。
下图中可以看到的的 GAN 是“分解到合成框架”的核心组件:
原理图中的分布步骤解释如下:
在自上而下的分解阶段,团队使用运动学节拍检测器对从真实舞蹈序列中分割出来的舞蹈单元进行标准化。然后他们训练DU-VAE来模拟舞蹈单元。在自下而上的作曲阶段,给定一对音乐和舞蹈,团队利用MM-GAN学习如何根据给定的音乐组织舞蹈单元。在测试阶段,研究人员从输入音乐中提取风格和节拍,然后以递归方式合成舞蹈单元序列,最后将节拍整形器应用于生成的舞蹈单元序列以渲染输出舞蹈。(仅供参考)
为了让你准确地了解具体步骤的详细解释,我们还为你准备了英文原版介绍:
In the top-down decomposition phase, the team normalizes the dance units that are segmented from a real dancing sequence using a kinematic beat detector. They then train the DU-VAE to model the dance units. In the bottom-up composition phase, given a pair of music and dance, the team leverages the MM-GAN to learn how to organize the dance units conditioned on the given music. In the testing phase, the researchers extract style and beats from the input music, then synthesize a sequence of dance units in a recurrent manner, and in the end, apply the beat warper to the generated dance unit sequence to render the output dance.
英伟达采用 Nvidia Tesla v100 GPU 并使用了 PyTorch 深度学习框架训练模型,同时还应用了 OpenPose 进行舞蹈姿态处理。OpenPose 是一个实时的多人系统,被应用于用于单幅图像中的身体、手、面部和足部关键点的联合检测。
英伟达计划日后将可编舞的舞种扩大到包括流行舞、交谊舞在内的其他舞种。该研究的源代码和原型会在 NeurIPS 结束后于 Github 上发布。当下你可以阅读论文获取关于“人工智能编舞”的研究内容。