OpenCV-Python系列之稠密光流
之前我们讨论过LK算法,其本质来讲属于稀疏光流算法,我们在OpenCV中所用的函数为:calcOpticalFlowPyrLK。这次来介绍一种稠密光流算法(即图像上所有像素点的光流都计算出来),它由Gunnar Farneback 所提出。
光流是由物体或相机的运动引起的图像对象在两个连续帧之间的视在运动模式.光流方法计算在t和 t+Δt时刻拍摄的两个图像帧之间的每个像素的运动位置。这些方法被称为差分,因为它们基于图像信号的局部泰勒级数近似; 也就是说,它们使用关于空间和时间坐标的偏导数。
和稀疏光流相比,稠密光流不仅仅是选取图像中的某些特征点(一般用角点)进行计算;而是对图像进行逐点匹配,计算所有点的偏移量,得到光流场,从而进行配准.因此其计算量会显著大于稀疏光流,但效果一般优于稀疏光流。
Farneback算法原理
非常简单,总共两步。
1、将图像视为二维信号的函数(输出图像是灰度图像),因变量是二维坐标位置 ,并且利用二次多项式对于图像进行近似建模的话,会得到:
其中,
· A 是一个2×2的对称矩阵(是通过像素的邻域信息的最小二乘加权拟合得到的,权重系数与邻域的像素大小和位置有关)
· b是一个2×1的矩阵向量;
· c为标量;
因此系数化之后,以上公式等号右侧可以写为:
2、如果将原有(笛卡尔坐标系)图像的二维信号空间,转换到以作为基函数的空间,则表示图像需要一个六维向量作为系数,代入不同像素点的位置 x,y求出不同像素点的灰度值。
OpenCV中的使用
函数API:
def calcOpticalFlowFarneback(prev, next, flow, pyr_scale, levels, winsize, iterations, poly_n, poly_sigma, flags)
使用Gunnar Farneback算法计算密集光流。
相关参数:
prev 输入前一帧图像(8位单通道);
next 输入后一帧图像(与prev大小和类型相同);
flow 计算的流量图像具有与prev相同的大小并为CV_32FC2类型;
pyr_scale 指定图像比例(\ <1)为每个图像构建金字塔; pyr_scale = 0.5意味着一个古典金字塔,其中每个下一层比前一层小两倍。
levels 金字塔层数包括初始图像; levels = 1意味着不会创建额外的图层,只会使用原始图像。
winsize 平均窗口大小;较大的值会增加算法对图像噪声的鲁棒性,并可以检测更快速的运动,但会产生更模糊的运动场。
iterations 每个金字塔等级上执行迭代算法的迭代次数。用于在每个像素中查找多项式展开的像素邻域;
poly_n大小;较大的值意味着图像将近似于更光滑的表面,产生更稳健的算法和更模糊的运动场,一般取poly_n = 5或7。
poly_sigma用于平滑导数的高斯的标准偏差,用作多项式展开的基础;对于poly_n = 5,可以设置poly_sigma = 1.1,对于poly_n = 7,可以设置poly_sigma = 1.5;
flags 操作标志,可取计算方法有:
OPTFLOW_USE_INITIAL_FLOW 使用输入流作为初始流近似。
OPTFLOW_FARNEBACK_GAUSSIAN 使用Gaussian winsize×winsiz过滤器代替光流估计的相同大小的盒子过滤器;通常情况下,这个选项可以比使用箱式过滤器提供更精确的流量,代价是速度更低;通常,应将高斯窗口的胜利设置为更大的值以实现相同的稳健性水平。
我们同样使用之前的视频做实验,来看代码:
def Farne(cap): # 获取第一帧 ret, frame1 = cap.read() prvs = cv2.cvtColor(frame1, cv2.COLOR_BGR2GRAY) hsv = np.zeros_like(frame1) # 遍历每一行的第1列 hsv[..., 1] = 255 while (1): ret, frame2 = cap.read() next = cv2.cvtColor(frame2, cv2.COLOR_BGR2GRAY) # 返回一个两通道的光流向量,实际上是每个点的像素位移值 flow = cv2.calcOpticalFlowFarneback(prvs, next, None, 0.5, 3, 15, 3, 5, 1.2, 0) # print(flow.shape) print(flow) # 笛卡尔坐标转换为极坐标,获得极轴和极角 mag, ang = cv2.cartToPolar(flow[..., 0], flow[..., 1]) hsv[..., 0] = ang * 180 / np.pi / 2 hsv[..., 2] = cv2.normalize(mag, None, 0, 255, cv2.NORM_MINMAX) rgb = cv2.cvtColor(hsv, cv2.COLOR_HSV2BGR) cv2.imshow('frame2', rgb) k = cv2.waitKey(30) & 0xff if k == 27 & k == 0xff: break prvs = next cap.release() cv2.destroyAllWindows()
来看部分演示的结果: