计算机视觉是人工智能领域的重要一环,其核心目标即解析图像内容。
本文将深入探讨计算机视觉的基本概念、实现原理以及其八大任务和四个常见的生活应用场景。
人的大脑在处理信息时,视觉信息占据了约70%的比例,足见其作为人类获取信息主要渠道的重要性。在网络时代,照片和视频等图像数据呈现式增长。观察数据趋势图,我们可以发现非结构化数据(主要为图像和视频)的增长速度正在以指数级上升。
2. 计算量巨大:如手机拍摄的一张照片就可能拥有10002000像素的分辨率,每个像素包含RGB三个参数,那么一张照片就涉及1000 X 2000 X 3个参数的计算。若考虑4K视频等更高级别的应用场景,我们便能理解这一计算量级的庞大规模。
幸运的是,卷积网络()解决了上述难题。属于深度学习的范畴,其能有效地从图像中提取特征并实现海量数据的降维处理,大大减轻了对计算能力的需求。有关的具体工作原理可详见《一文看懂卷积网络-(基本原理+独特价值+实际应用)》。
在计算机视觉的领域中,图像分类可谓是基础中的基础。以此为基础,衍生出了众多其他任务如目标检测、语义分割、实例分割等。
目标检测旨在识别图像或视频帧中的目标并标出其位置及类别;语义分割则将整个图像细分为像素组并对其进行分类标记;实例分割则更进一步,对不同类型的实例进行分类并标记;视频分类需要结合语音、运动等信息理解视频内容;关键点检测通过追踪关键节点的组合来解析人的运动和行为;场景文字识别则将图像中的文字信息转化为文字序列以帮助理解图像内容;最后的目标则是通过交互式观察来特定对象的过程。