说到与计算机的交流,目前最直观的还是打字、点击鼠标、触摸屏幕,当然现在又多了语音交流。但人类的交流方式其实并不限于语言,任何处理过犯罪青少年的人都知道,一半的交流来自于肢体语言。如果没有肢体语言的帮助,人们相互间的交流会变得事倍功半。
所以,尽管问题很棘手,还是得让计算机学会识别人的姿势。人的姿势通常非常微妙,有很多细节,包括诸如手指的位置;肢体还可能被物件或其他人遮挡。而另一方面,我们的大数据库中尽管有各种面部表情和身体位置的资料,但还鲜有关于手势和姿势的数据。
卡内基-梅隆大学机器人学副教授亚瑟·谢赫领衔的团队,结合多种方法来解决这个问题。最直观的,就是让两位研究生站在摄像机前,摆出成千上万种不同的手势和姿势,让计算机读入,从而为后者提供更多的数据。
团队的另一个研究思路,是改变计算机读取姿势的惯常方式。他们让计算机不看整个人,也不看身体的姿势,而只是盯着人的手、胳膊、腿和脸等部位,然后再将它们联系到人体。这对观察成群的人(比如,跳广场舞的大妈)特别有用。
研究中他们使用的是CMU全景工作室,这是由许多正六边形板材搭成的两层穹顶,内部嵌有500台摄像机。这使计算机能从数百个不同角度,对大量对象的姿势同时进行研究。
“系统每拍摄一下,就能采集到某人一只手的500帧视图,还自带标注手的位置,”机器人学博士生Hanbyul Joo说,“人手的面积小,我们的大多数摄像机难于处理。所以这次采用了31台高清晰度摄像机,以有效地建立庞大的数据集。”
团队目前正在研究如何从二维模型过渡到三维,以便提高识别质量。最终的目标是建立一个系统,能借助单一摄像机和单一笔记本电脑,读出一群人的姿势。
不言而喻,这项技术一旦成熟会有大量的应用,不只是让人通过简单指点与机器打交道。比如,帮自动驾驶车推断行人想何时跨入道路;跟踪场上的运动员,解读他们的行为动机;舞蹈大团导演轻松地找出“不协调”的舞者或动作等等。CMU RI团队甚至别出心裁地借助系统研究了特朗普总统和希拉里前国务卿在辩论会上的身、手动作,试图解读背后的含义。
该研究将于7月21日至26日在美国夏威夷火奴鲁鲁举行的2017计算机视觉与模式识别会议上发表。(图:CMU)凌启渝