请注意,我们所说的文字描述不是拍摄数据(如拍摄地点、日期时间),这些数据,是台数码相机就能提供的;描述性相机以文本方式输出有关照片内容的元数据。
它的确称得上另辟蹊径。
大家知道,人类积累了数量难以置信的照片,管理这个“图像海洋”变得越来越难。如果每张照片在拍摄当场就有相关的描述文本:照片里是谁、在做什么、环境如何,以后的事情就好办些,图片信息变得可以检索、过滤,可以交叉引用。在尚未有成熟技术实现图片内容检索的当下,描述性相机提供了可能的选择。
描述性相机的核心技术是亚马逊的土耳其机器人(Mechanica1TurK)Web服务应用程序接口。开发人员用它提交人工智能任务(HIT),让互联网上的相关人员去完成,在这里是为照片添加描述性文本。研究团队还为网上愿意参加工作的人设计了具有接受任务、预知报酬、提报结果等功能的用户界面。
描述性相机拍了一张照片,应用程序就会将照片通过Mechanica1TurK处理,发送到执行任务的人。后者会按规定写下描述,发回给服务器,再给相机。
相机快门按钮被按下后等待,通常3-6分钟内结果文本就能返回,并打印输出。每张照片的HIT价格约为1.25美元,执行者得到报酬,而亚马逊则收取百分之十的费用。
描述性相机在得州仪器嵌入式Linux平台Beag1eBone上运行,它连接着一台USB口网络摄像头、小型热敏打印机、状态指示灯和快门按钮。一系列Python脚本定义了各种接口,把从抓取场景、处理、错误掌控,到打印输出的不同部件整合起来。设备通过以太网连接到互联网,外接5伏电源。正在开发电池/无线的版本。
那么,描述性相机写下的文本长得怎样呢,我们不妨选几个场景让它描述一下:
●这是破旧建筑的模糊照片。它像是要倒塌,需要修理。
● (如图)看起来像个老旧的柜子,有名字牌、立柱灯连接到它。
●木地板的房间角落,工具箱,自行车,一摞书,书架靠在墙上,双门关闭,袋子挂在门把手,带手柄的线。
凌启渝