Google开发了一种算法,可以自动在帧中的重要对象上裁剪视频



Google的一组研究人员介绍了一项新技术 -一种自动裁剪视频的算法。原始资料是由机器编辑的,用户只需要设置基本参数,例如框架中的长宽比。

好吧,该软件可以自行完成所有操作,跟踪视频中的重要对象并裁剪帧,以使所有重要内容都保留在视频的最终版本中。

团队在GitHub上发布了他们的工作结果,这是一个名为AutoFlip的开源框架。 GitHub还发布了启动程序的代码和说明。

开发人员开始该项目是因为大多数视频都是以水平格式拍摄的。最初就是这种情况-绝大多数视频设备的设计都使帧宽度大于高度。但是现在智能手机无处不在,水平视频并不总是很方便。有时,您必须一次将视频调整为适用于多个平台。



如果您裁剪并修剪水平视频,那么最后一帧之外的许多重要点就会消失。为了避免这种情况,开发人员决定教该算法来跟踪重要对象并在其上裁剪帧。结果,所有需要的东西都保留在框架中,没有任何损失。

顺便说一下,谷歌代表不是第一个处理这个问题的人。不久之前,Adobe公司的代表也致力于类似的想法。他们创造了一种效果很好的产品,但是它有各种各样的限制,并不是每个用户都可以使用它。 Google以自己的方式解决了问题,并向所有人提供了最佳实践。



为了开始使用,如上所述,您需要设置初始裁剪参数-宽高比以及必须保留在框架中的对象数量。进行初始设置后,算法开始工作,标记源文件。评估场景变化的最重要标准之一是饱和度直方图。如果更改,则场景已更改。

根据开发人员的说法,每个场景都是单独处理的。这样做是因为在不同的场景中,框架中的对象位于不同的位置,有时某些对象消失,而另一些则出现。为了使视频的最终版本不会丢失任何重要内容,该算法会标记帧中的对象,并对其进行裁剪以使它们保持可见。



有几种裁剪选项-从静态裁剪到裁剪区域从一侧到另一侧的移动,再到根据对象在帧中的移动的动态裁剪。如果在最初的问题中表明应该保存框架中的所有对象,则该算法能够通过在框架的侧面添加空间来填充出现的空隙来扩展裁剪区域。

根据开发人员的解释,该算法可在GitHub上使用,它是作为MediaPipe管道实现的。顺便说一下,后者可以在Web浏览器中工作,因此,如果需要,可以在计算机或智能手机的浏览器中运行计算机视觉算法。开发人员已经说过,他们不会停在那里,他们会对其进行改进。单个开发人员和整个公司都可以加入该项目。

该算法的应用领域是跟踪框架中说话者的脸部或卡通中的英雄。



将来,该算法将添加绘制边框区域以及删除文本或图片的功能。两种选择都已经作为独立算法存在,因此将它们集成到裁剪解决方案中不是问题。



All Articles