当我们在百科、词典中查询新知,大脑会自动基于已有的知识和经验来接收、判断、理解这些新的信息,人类会通过搜索更新学习。那么计算机是否能够在知识库以外的网络中,对更海量无结构信息进行学习呢?“机器学习之父”卡耐基梅隆大学教授汤姆·米切尔(Tom Mitchell)分享了团队正在进行的“永恒的语言学习”(Never Ending Language Learning即NELL)项目。从2010年直到去年9月,NELL系统就以每天24小时、一周7天的状态不停止地学习,筛选数亿网络信息,寻找已知信息和搜索过程中发现的信息之间的关联,模仿人类学习新信息的方式。这一模型是基于半监督学习和自然语言处理的算法实现的,目标是用于开发自然语言自动回答用户提问的方法。而研究也证实NELL的阅读理解能力越来越强大了。
机器学习并不是一站式的步骤,而是定义问题、收集数据、特征工程、模型训练、评估、应用等多步骤的联动。在这个过程中,需要很多机器学习的专家来设计算法。能否用AI来替代实现机器学习规模化落地呢?香港科技大学教授、第四范式联合创始人杨强分享了自动机器学习的算法,用强化学习优化算法使之自动优化迭代。此外,他分享的联邦迁移学习的算法也能够解决在实际应用中遇到的数据不足或数据孤岛问题,利用不同领域的数据迁移与联合来保护隐私的同时,最大化利用共性数据而获得更智能的解决方案。
深度学习的“黑箱”还未照亮,但南京大学人工智能学院院长周志华教授的研究却打开了一扇门,看到了深度学习除了深度神经网络之外的算法——多粒度级联森林(深度森林)。这项研究是从试图打开深度学习的黑箱开始的,“逐层处理可能是隐藏在深度神经网络中的关键,目前我们还无法用数学模型来证明,但如果假设是对的,我们能否设计出神经网络之外的深度学习模型?”周志华指出,没有一种算法是万能的,深度神经网络有太多超参数,因此在图像、视频、语音等应用层面表现不佳。为此团队设计了一种决策树集成方法,实验证明性能较之深度神经网络有很强的竞争力。“这不是全部,这只是一个开始。”
当前,人工智能已经在物联网、智能家居、机器人等多领域中落地应用,与实体经济深度融合,丰富的应用场景也对计算提出了新的需求。自动机器学习、联邦迁移学习、可解释深度学习等一批算法促进新产品的发展,加快社会向智能化不断跃升。