计算机视觉方法范例(12篇)
来源:其他
计算机视觉方法范文篇1
1视觉跟踪算法
1.1KCF算法
KCF(KernelCorrelationFilter)核相关滤波算法通过目标样本去训练判别分类器,训练判别分类器分析当前跟踪的目标是被跟踪目标周围的背景信息还是被跟踪目标,如图1所示。KCF通过岭回归分类器的学习来完成对目标的跟踪,通过快速傅里叶变化实现算法的加速运算。KCF跟踪算法在训练阶段,利用循环矩阵理论,对视频目标区域进行稠密采样,获取正负样本,提取方向梯度直方图(HOG)特征,通过岭回归分类器分析所以样本进行训练。在检测阶段,以视频前一帧目标位置为中心进行稠密采样,将得到的所有样本输入到岭回归分类器,经过岭回归分类器的分类,得到目标的位置。
1.2TLD算法
TLD(Tracking-Learning-Detection)目标跟踪算法由跟踪模块(Tracking)、检测模块(Detection)、学习模块(Learning)三部分组成,如图2所示。该算法首先由跟踪模块的作用是将被跟踪目标的运动轨道处理成轨道碎片提供给学习模块进行学习,学习模块根据跟踪模块的处理结果进行学习并对检测模块的错误进行分析,通过学习处理后生成训练样本,检测模块在接收到训练样本后对相关参数和目标模型进行跟新并对跟踪模块重新初始化,其中跟踪模块为中值流跟踪器,学习模块为P-N目标模型学习。
1.3视觉跟踪算法改进
KCF跟踪算法的运行速度方面和在目标环境变化不大的情况下跟踪速度表现优异,但其在被跟踪目标出现遮挡、形变、跟丢后无法找回目标,反观TLD解决了被跟踪目标被遮挡、目标跟丢无法重新找回的情况,因此将两个算法互相融合,取长补短能提高算法的运算速度和追踪效果。融合方法:利用KCF克服TLD的中值流跟踪器的缺点,将KCF替换TLD的中值流跟踪器,能够加快TLD的目标跟踪速度。当被跟踪目标在当前图像帧中消失后,KCF会把盲目地在背景中寻找被跟踪目标,当被跟踪重新出现时,KCF算法依然在背景中寻找被跟踪目标,导致跟踪失败,为了避免这个错误的方法,KCF与TLD融合的算法包含了原TLD学习模块,当判断目标丢失时不再盲目地在背景内寻找目标,当目标重新出现时重新跟踪目标,进一步提高算法的跟踪性能。虽然这两个算法的融合方法很简单,但融合后的算法确实解决了KCF不能跟踪被遮挡的物体以及目标跟踪后不能找回的缺点,而且算法速度上高于原TLD算法,提高了算法的性能和适用性。
2机器人控制系统设计
机器人系统总体框架如图4所示,USB摄像头拍摄到的图像信以视频帧的形式传入到程序中。首先先进行KCF的滤波和特征跟踪,再经由TLD算法的处理运算出目标状态,再通过整合模块把得到被跟踪目标的位置信息转换为云台舵机转动命令发送,通过CH340模块将指令由USB转为TTL电平,机器人下位机通过STM32单片机直接或间接地控制各个模块实现机器人的各个功能。STM32单片机在接收到PS2手柄模块和CH340模块的控制信号后,根据程序存储器对应的指令执行行动,如前进、水弹枪射击等。STM32单片机实时接收各模块的信息,例如编码电机的电机转速,陀螺仪的欧拉角等,根据各模块的信息及时调整机器人的运动状态实现机器人运动底盘的灵活移动。摄像头所拍摄的图像信息并不会直接交给STM32单片机除了,而是先经由上位机NUC通过视觉追踪算法运算过后所得的控制指令发送给单片机接收,单片机接收到通过CH340转换的控制指令后控制舵机云台转动追踪目标。
3机器人目标跟踪算法软件设计
目标跟踪算法软件实现流程图如图5所示。由于该目标跟踪算法的运算结果只返回一个跟踪框,并没有实际的跟踪结果,所以需要获取被跟踪目标所在图像中的坐标,获取包围被跟踪目标的矩形重心后,才能方便实现目标跟踪算法。计算出被跟踪目标的矩形包围框的重心后,先对图像帧区域进行划分,使用渐近式接近目标区域为核心思想,将每一帧的图像划分为许多相同的矩形区域。随后根据KCF+TLD目标跟踪算法运算得出的结果框的重心与图像正中心对比,计算出被跟踪目标与图像正中心坐标的偏移量,再通过舵机控制算法计算出舵机云台的转动量,逐帧接近目标所在位置,达到跟踪效果。
4系统视觉跟踪算法测试
计算机视觉方法范文
关键词:机器视觉;三维重建;图像处理
中图分类号:TP301
文献标识码:A文章编号:1672-7800(2014)003-0013-02
作者简介:罗尤春(1989-),男,华中科技大学机械科学与工程学院硕士研究生,研究方向为机器视觉。
1Marr机器视觉框架
在漫漫进化历程中,人类和大部分动物通过视觉、听觉、触觉等来获取周围世界的信息,并通过大脑处理这些信息。而根据调查,人类大脑处理的信息有80%是来自视觉,我们通过双目感受深度信息,通过对不同频率光信号进行判别来获取颜色信息[1]。通过运用摄像机来达到模拟人眼的识别和测量功能,机器视觉成为人工智能研究的重要环节。机器视觉区别于计算机视觉,更偏向于应用,一个机器视觉系统一般通过摄像机之类的光学仪器以图像的形式获取周围世界的信息,通过计算机进行图像处理和图像理解,再根据相应的控制程序和机械驱动设备对智能输出设备发出操作指令,实现智能控制和操作功能。
早期的机器视觉局限于对二维图像的分析、识别和理解上[2]。20世纪80年代初,Marr第一次融合图像处理、神经科学的相关研究,提出了里程碑式的视觉系统框架。具体来说,Marr框架包括三个层次:计算理论层次、表达与算法层次、硬件实现层次。计算理论层次,可以理解为通过对二维图像的理解来重建三维客观世界的视觉三维重建理论研究。因为现实世界是复杂多变的,如何建立一种通过二维图像来实现三维重建的普适性方法成为机器视觉系统中最重要也是终极的目的。Marr提出的这一层次是想通过建立某种普适性模型来获取客观世界任何物体的形状、位置以及运动的信息;表达与算法层次低于计算理论层次,是要解决“软件”的问题,即如何实现机器视觉系统各个模块之间信息输入、输出和信息表达的问题,亦即各种算法的实现;硬件实现层次可理解为如何组建机器视觉系统的硬件实体设备,与表达与算法层次一起为计算理论层次服务。
Marr提出的视觉框架中研究最多的是计算理论层次和表达与算法层次,分别对应下节要介绍的三维重建理论和图像处理。
2三维重建
视觉三维重建理论是整个视觉领域研究的重点和前沿。客观世界的物体都是由基本的几何要素组成的:点、直线、二次曲线等。因此,要实现对客观世界的描绘,利用这些最基本的几何要素来组建客观世界是可以实现的。在很多研究中,通过大量的点对匹配得到三维世界中物体的三维点云模型,从而模拟出真实物体的形状。在三维重建研究中,立体视觉或称双目(多目)视觉是最重要的手段。仿照人眼的原理,要获得对周围三维世界的认知,必须知道深度信息,最少需要两个眼睛。与此同理,立体视觉一般都需要两个或者多个摄像机同时工作,才能较好地得到周围世界的三维信息。
2.1摄像机针孔模型
摄像机的普适模型——针孔模型来源于小孔成像现象。简单地说,针孔模型是指空间中一点P与摄像机中一特定点C(称为光心)的连线交摄像机的图像平面于点p,这个点p便是空间点P的成像点,蕴含了空间点P的几何信息。从数学的观点,摄像机的成像模型是一个从三维到二维的映射f:Pp,是一个降维映射,丢失掉了深度信息,即处于光心C—空间点P的直线上任意一点Q的投影也都是p。从数学上可以证明,至少需要两幅或以上图像才能重建出空间点P的深度信息zP。
2.2空间点三维重建
采用两个不同的摄像机位拍摄空间中同一点P的图像,分别得到P在左右摄像机图像平面上的投影点p\-L和p\-R,如果事先知道左右摄像机的相对位置关系——称为双目摄像机标定,那么就知道了左右摄像机的光心C\-L和C\-R的位置。简而言之,双目视觉系统能够提供给我们一个坐标系(左或者右摄像机坐标系),在这个坐标系下通过摄像机标定知道两个光心C\-L和C\-R的位置以及投影点p\-L和p\-R的位置,直线C\-Lp\-L和C\-Rp\-R的交点就是要重建的空间点P。
2.3空间直线三维重建
空间直线的重建原理和空间点的重建类似,假如要重建空间直线L,得到L在左右摄像机图像平面上的投影直线l\-L和l\-R,那么左摄像机光心C\-L和左投影l\-L形成一个平面S\-L,同理右摄像机光心C\-R和右投影l\-R形成一个平面S\-R,则空间直线L就是平面S\-L和S\-R的相交直线。
2.4二次曲线三维重建
实二次曲线一般包括椭圆、双曲线、抛物线和圆[3]。关于二次曲线的三维重建,司少华等[4]在1993年提出了一种特征值的方法,其开创性贡献在于首先将二次曲线视为一个几何元素来进行重建,而非利用二次曲线由其上的若干点(至少5个点)决定的原理,更不是利用点云的思想来重建二次曲线。将要重建的对象视作整体而非利用局部元素(点)去拟合逼近的思想是视觉理论更进一步的发展。圆作为最常见的二次曲线特征被广泛应用在物体空间定位上[5]。
3图像处理
图像处理是指利用计算机对图像进行分析,得到需要的信息。所谓图像,其数学模型即一个二元向量函数f(x,y),其坐标(x,y)表示图像的横纵坐标。对于灰度图像,这个向量函数成为一个标量函数,f(x,y)表示对应平面坐标(x,y)的灰度值。对于彩色图像,一般使用RGB三原色来表征,即f=[R,G,B]\+T。图像处理的内容非常丰富,包括了图像滤波去噪、边缘检测、图像复原、形态学处理、图像分割等。其中,为了得到三维重建所必须知道的点、直线、二次曲线等图像信息,边缘检测至关重要。所谓边缘检测,目的是要识别出图像中灰度值变化明显的图像点。图像中突变的位置一般代表了三维世界中的不同属性。现有的边缘检测算子包括Canny算子[6]、Sobel算子、Prewitt算子、RobertsCross算子、罗盘算子、Marr-Hildreth算子等。
A=imread('Beach.jpg');
B=rgb2gray(A);
C=edge(B,'canny',0.1);
imshow(C)
4机器视觉应用及前景
机器视觉技术广泛应用于机器人、工业检测等领域。由于机器视觉系统是一套光学系统,因此具有非接触式测量的优点。由于计算机的运算速度不断刷新纪录,使得图像处理效率也不断提升,运用机器视觉系统能够为工业中的不同应用提供实时数据。加载视觉系统的智能机器人不仅拥有灵活、快捷的操作手臂,而且配置了灵敏的摄像机充当“眼睛”,还有超强计算能力的计算机充当“大脑”,真正实现了手—眼—脑同体。在工业检测以及测量领域,机器视觉利用自身的独特优势在质量缺陷、生产监控等方面占据了重要地位。机器视觉是一种人工智能技术,在未来的智能化时代,视觉技术必定能成为人机交互的最重要途径之一。
参考文献:
[1]张广军.机器视觉[M].北京:科学出版社,2005.
[2]马颂德,张正友.计算机视觉:计算理论与算法基础[M].北京:科学出版社,2003.
[3]吕林根,许子道.解析几何[M].北京:高等教育出版社,2006.
[4]司少华,马颂德.基于二次曲线的立体视觉[J].自动化学报,1993,19(4):420-427.
计算机视觉方法范文篇3
关键词:机器人;人机界面;三维可视化;图形降噪;图像处理
中图分类号:TN830.1?34;TP391文献标识码:A文章号:1004?373X(2017)12?0105?03
Abstract:Inordertoimprovetheoperatingperformanceof3Dvisualizationofrobothuman?computerinterface,a3Dvisualizationreconstructiondesignmethodofrobothuman?computerinterfacebasedonGPUreal?timegraphtrackingrenderingisputforward.Thecomputervisionmethodisusedtosamplethevisualfeaturesofrobotman?computerinterface,andperformthesparsescatteredpointsreconstructionforthesampledvisionpixelinformation.Theimageprocessingmethodisadoptedtodenoisethegraphandcorrecttheedgeinthereconstructed3Dspace,andimprovethedetailpresentationabilityof3Dvisualizationgraphofman?computerinterface.Thesimulationresultsshowthatthemethodusedtodesignthe3Dvisualizationoftherobothuman?computerinterfacehasperfectvisualeffectoftheoutputgraph,stronghuman?computerinteractionability,andhighapplicationvalue.
Keywords:robot;human?computerinterface;3Dvisualization;graphnoisereduction;imageprocessing
0引言
机器人人机交互(Human?ComputerInteraction,HCM)是通过图像和计算机视觉处理的方法,实现机器人系统与用户之间的交互关系和沟通,在机器人人机交互过程中,人与计算机通过计算机视觉处理和动作识别的形式实现语言沟通,完成确定的任务和计算机与机器人的信息交换[1]。机器人人机交互系统广泛应用在视景模型仿真、机器手设计和远程虚拟控制等领域,在现代工业和远程控制中具有重要的应用价值。
在机器人的人机交互中,需要通过对人机界面的三维可视化设计,提高人机交互的可视性和人工智能性,研究人机交互界面的三维可视化重构方法在机器人的人工智能优化设计领域具有重要的应用意义。对此,本文提出一种基于GPU实时图形跟踪渲染的机器人人机界面的三维可视化重构设计方法。首先采用计算机视觉方法进行机器人的人机界面视觉特征采样,采用图像处理方法实现图形降噪和边缘修正处理,提高人机交互界面的三维可视化图形细节表达能力。最后进行仿真实验分析,得出有效性结论。
1视觉特征采样与像素信息重构
1.1人机界面计算机视觉特征采样
为了实现机器人人机界面的三维可视化设计,首先进行视觉信息采样,本文采用计算机视觉方法进行机器人的人机界面视觉特征采样,在视觉信息采集中,对特征空间中的突变信息进行采集,检测提取后的轮廓线信息是否符合要求,不符合的原因是由于阈值小而提取了过多的次要轮廓线,使主要轮廓线无法突出。利用多尺度特征来提取轮廓线,并将高频与低频部分的轮廓线信号进行融合,也就是在不同尺度特征下进行轮廓线提取,因此可得到光滑的轮廓线图像,提取出的人机界面外部采集轮廓线,将外部特征通过二维流形分析[2]。机器人与人体动作的交互过程可以表征为一个高维向量,收集大量人体动作完成机器人的人机动作交互,将人机交互界面场景数据库中的交互动作数据进行三维特征扫描,扫描包括激光扫描、红外扫描和CT扫描等方法[3],得到机器人人机界面交互的动作扫描的像素组成为:
1.2视觉像素信息稀疏散点重构
对采样的视觉像素信息进行稀疏散点重构,为进行人机界面的三维可视化设计提供数据基础,对机器人人机交互界面的视觉像素信息稀疏散点重构需要遵循以下原则:
(1)可描述性。对不同的人机交互动作,应该提取具有明显区别的特征参数,即特征参数具有较强的敏感性,能够高效地对技术姿态进行描述。
(2)可靠性。不同的动作识别系统做同一个技术动作时一定会存在差异,但这种差异不应该对特征参数造成影响,即同种类型的技术姿态的特征参数会比较相似,这就要求所提取的特征参数对位置和对象不敏感。
(3)数量少。一个动作识别特征值越多,系统的计算复杂程度就越大,因此要尽可能控制特征值的数量[5]。在像素点中,通过仿射变换,得到对应的不变矩坐标为,在不同朝向和不同尺度间进行机器人人机界面网格区域匹配,得到人机界面三维轮廓函数为:
3实验测试分析
对机器人的人机界面三维可视化实验建立在本主机配置为PentiumDCPU2.80GHz,2.79GHz,2.00GB内存的计算机硬件平台上。在机器人人机动作特征识别中,人体动作特征单元和模块子单元表示为Cell(col,row)。其中col表示行,row为列,人机交互中人体动作图像采集来自于分辨率为640×480,帧率为25f/s的AVI视频,参数设定为=0.5,=2,=2,得到机器人人机界面的三维可视化重构结果如图1所示。对图1给出的机器人人机界面三维重构结果进行降噪和修正处理,得到三维可视化优化结果如图2所示。
对比图2和图1结果得知,采用本文方法进行机器人人机界面的三维可视化设计,输出图形的视觉效果较好,人机交互能力较强,性能优越。
4结语
为了提高机器人人机界面的三维可视化操作性能,本文提出一种基于GPU实时图形跟踪渲染的机器人人机界面的三维可视化重构设计方法。采用计算机视觉方法进行机器人的人机界面视觉特征采样,在重构的三维空间中通过图像处理方法实现图形降噪和边缘修正处理,实现三维可视化设计。研究得知,采用该方法进行机器人人机界面的三维可视化设计,输出图形的视觉效果较好,人机交互能力较强,具有较高的应用价值。
参考文献
[1]董哲康,段书凯,胡小方.非线性忆阻器的串并联研究及在图像处理中的应用[J].西南大学学报(自然科学版),2015,37(2):153?161.
[2]袁健,高勃.基于OpenCL的三维可视化加速模型[J].小型微型计算机系统,2015,36(2):327?331.
[3]朱路,刘江锋,刘媛媛,等.基于稀疏采样与级联字典的微波辐射图像重构方法[J].微波学报,2014,30(6):41?45.
[4]HUANGY,PAISLEYJ,LINQ,etal.BayesiannonparametricdictionarylearningforcompressedsensingMRI[J].IEEEtransactionsonimageprocessing,2014,23(12):5007?5019.
计算机视觉方法范文篇4
[关键词]计算机辅助环境艺术设计起源现状及发展
随着计算机软硬件的进步,计算机辅助设计逐渐成为建筑效果图表现的主流。所谓计算机辅助环境艺术设计是指设计师通过计算机技术表现设计意图,最终以图像的方式告知客户,使客户清晰地理解设计师的设计意图和创意,它是一种更为直接、有效的表现方式,通常又被人们称为计算机建筑效果图。
一、计算机辅助环境艺术设计的起源
计算机的发展及应用,使人们的生活日新月异。计算机辅助设计源于计算机图形技术的产生,计算机辅助设计的研究构想发端于1950年,但使用计算机绘图的最早记录是在1963年,美国麻省理工学院的研究人员伊凡·苏泽兰在美国计算机联合会会议上发表了名为《画板》的博士论文,从而开始了计算机辅助设计的发展历程。他从1950年开始着手开发通过图形技术来处理人与电脑交互对话的操作系统。1963年,这套以电脑主机、显示屏、光电笔和键盘为工具的图形画线系统得到实现。这套图形画线系统开发和引进了许多计算机绘图的基本思想和技术,使用户可以运用电脑画出直线、复杂曲线以及简单的标准部件。
最初cad被解释为“计算机辅助绘图”,由于当时计算机在设计上的作用是替代传统手工绘图的一种新工具,但随着后来信息技术的飞速发展,计算机技术在各领域的广泛应用,cad的含义也在不断变化扩展,随着20世纪70年代像素的产生、80年代三维曲面造型系统的开发等,使电脑绘图从只能用“线”这一基本绘制元素发展到可以用点、面、体进行绘制计算机图形,从而使cad的含义也发展成现在人们比较熟知的计算机辅助设计这个概念了。1970年的威尼斯双年展首次接纳了计算机绘画作品,这也标志着新的视觉艺术形式的诞生得到了社会的承认。
我国的计算机辅助设计起源于20世纪70年代。与国外计算机辅助设计发展的轨迹相似,国内计算机辅助设计的研究与应用基本上是从各高等院校发展起来的。20世纪90年代初,随着我国现代化进程的迅速发展以及计算机的进一步普及,在环境艺术设计和创作领域,计算机技术应用的价值,逐渐得到人们的重视。
二、我国计算机辅助环境艺术设计的现状
计算机作为信息时代重要的技术工具,在环境艺术设计领域得到普遍应用。在20世纪90年代前,国内对环境艺术设计效果的表现是使用手工绘制的方法,到了20世纪90年代初期,计算机辅助设计技术开始在我国建筑业应用。计算机辅助设计技术在建筑设计表现领域以不可逆转的潮流迅速发展。尤其是到了20世纪末,计算机辅助设计逐渐成为建筑效果表现的主流。起初,设计师主要运用autocad软件进行施工图的绘制,在方案阶段还以手绘为主。但随着相关专业软硬件的更新和进步,它自身的强大优势得以显示,同时对传统手绘表现产生了越来越大的冲击。
随着近十几年来我国计算机辅助环境艺术设计的发展,计算机建筑效果表现的类型己经有了很细致的划分,可以分为:计算机建筑效果图、计算机建筑漫游动画和计算机建筑效果虚拟现实。计算机建筑效果图主要是通过3dsmax,lightscape,photoshop等计算机软件制作的静态的效果图。通过计算机三维软件从平面、立面数据中得到透视图,透视点位置及视点角度均可变换,然后再渲染出二维图像,这种方式是目前社会上应用最广泛的。计算机漫游动画是利用3dsmax软件的三维动画功能,在建筑物的室内或室外的设计阶段就能以可视的、动态的方式全方位展示建筑物所处的地理环境、建筑物外貌和各种附属设施以及建筑物内部空间的效果,使人们能够在未来的建筑物中漫游,因而成为建筑设计方案及装修效果展示、建筑方案投标、论证、评审的有力工具。
三、计算机辅助环境艺术设计的发展趋势
当前,随着计算机软硬件技术的迅猛发展,计算机辅助设计在环境艺术设计领域受到了广泛的重视和应用,比如各种方案的汇报、投标以及招商广告中随处可见,从而出现了大量的绘图软件的教程以及在教学上更加重视计算机绘图软件的教学课程。人们更多的关注计算机技术,想方设法掌握各种绘图软件,在模型、材质、灯光以及各种渲染技法上花费大量的时间,而忽略了最终的效果图的艺术性。计算机辅助设计是科学与艺术以及计算机与艺术设计相结合的边缘学科。计算机辅助设计在视觉艺术创造规律、形式法则和审美方法与传统的艺术设计是相同的。所谓视觉艺术,是通过人的视觉感受而将客观内容纳入主观心灵并予以对象化呈现的艺术形态。一些美学研究者认为,从审美主体的角度来看,艺术离不开创造者和欣赏者两个方面,而这两个方面都要通过一定的感官和相应的感性物质媒介,前者创造出审美对象,后者达到审美愉悦。所以说,作为视觉艺术的计算机辅助设计作品既要真实的描绘场景,又要使欣赏者达到审美偷悦。不可否认,人们的欣赏水平在不断提高,求新、求异的视觉口味也越来越高。这源于技术的发展、审美的进步,计算机技术的发展对于社会和艺术创造产生了重大的推动作用。
在计算机辅助环境艺术设计发展的初级阶段,设计师的目标是使效果图具有真实感,能够模拟未来场景的真实效果,具有一定的实用性。目前的计算机建筑效果图的风格单一,已经不能满足大众的不断提高的视觉口味。计算机建筑效果图既是表现的技术同时它又是视觉艺术。设计师创造出审美对象,筑物内部空间的效果,使人们能够在未来的建筑物中漫游,因而成为建筑设计方案及装修效果展示、建筑方案投标、论证、评审的有力工具。使用的软件有creator系列三维建模工具及vega场景管理软件。计算机建筑效果虚拟现实技术强调的是一种身临其境的感觉,采用的是人与人之间自然的交互方式。它可以实现逼真的、纯三维的场景,可以全方位、多角度、完全由用户自由控制在场景中漫游。作为建筑师可以从多个角度观察建筑方案,所以说虚拟现实技术不仅可以使用于建筑表现,而且也是一种推敲方案的有利手段。vr技术在我国的环境艺术设计领域中有着广泛的应用前景,将给环境艺术设计带来革命性的改变。
设计师创造出审美对象,要使欣赏者达到审美愉悦而不是审美疲劳。为此,根据目前我国计算机辅助环境艺术的发展情况,未来计算机建筑效果图应呈现艺术化、人情化和多样化趋势。
参考文献:
[1]邓庆尧.环境艺术设计[m].济南:山东美术出版社.
[2]张绮曼.中央工艺美术学院环境艺术设计系—室内设计的风格样式与流派[m].北京:中国建筑工业出版社.
[3]张绮受.中央工艺美术学院一环境艺术设计与理论[m].北京:中国建筑工业出版社.
计算机视觉方法范文篇5
关键词:三维坐标;多目视觉;双目交汇;硅棒;特征点
中图分类号:TP274.2文献标识码:Adoi:10.3969/j.issn.10055630.2013.02.001
引言硅棒的实际尺寸参数与硅棒本身的特征点提取密切相关,获取硅棒特征点的三维坐标信息可有效反映硅棒尺寸参数和产品质量,为产品的质量监控提供依据[1]。然而针对硅棒,无论是整体尺寸还是局部特征的检测,国内目前尚无相关仪器,在我国这些参数的检测还主要是依靠人工完成[2]。人工检测是一种非在线、接触式的传统检测方式,采用直角尺、游标卡尺、钢板尺等工具进行检验,检测精确度和重复性受到检测人员工作状态干扰,很难保证统一标准,总体上来说检测速度和检测精度不高;同时接触式检测过程中需反复搬动样品不可避免地造成对样品的二次伤害,效率低,仪器损耗大[2]。结合视觉成像技术和图像处理技术出现的机器视觉检测技术,不仅摒弃了传统检测方法的不足,满足了实时检测要求,同时还具有非接触、精度高等优点,是现场实时三维坐标测量的首选方法之一[35]。国内外关于三维坐标的相关测量方法主要有:电子经纬仪法和三坐标测量机法[3]。坐标测量机的测量精度可达微米级,但是庞大的机身、厚重的底座、复杂的操作以及昂贵的成本限制了其现场的应用[4];经纬仪、激光跟踪仪便携性好,但采用多点对准,效率低,不适合于现场在线检测[5]。机器视觉检测系统组建非常灵活,既可由单目视觉测量系统构成,亦可选择双目甚至多目视觉测量系统搭建而成。因为单目视觉测量三维空间坐标测量不确定度偏差较大[4],所以选择由四CCD构成的多目视觉系统,该多目视觉检测系统中,相邻的两CCD构成正交双目交汇视觉测量子模块系统,基于双目视觉原理的子模块克服了单目视觉检测的缺陷,精度更高。该多目机器视觉系统在保证较高精度的前提下,作为机器视觉前端采集系统,实现了硅棒全范围大尺寸轮廓检测,检测效率和速度较高。1硅棒坐标检测机器视觉系统组成典型的基于机器视觉的硅棒坐标检测系统组成如图1所示:
图1机器视觉的坐标检测系统组成
Fig.1Thedesignofmachinevisionforcoordinatedetectionsystem
硅棒坐标测量系统主要包括上位机界面、数据采集模块、图像处理模块、输入输出接口以及机械搭建平台组成。上位机作为人机交互平台负责数据显示和存储,总体管理数据采集模块和图像处理模块。数据采集系统作为机器视觉检测的核心之一完成硅棒轮廓信息图像采集,涉及光源、镜头、CCD相机以及图像采集卡,采集系统工作流程为:光源照射待测硅棒,CCD相机采集图像信息经过图像采集卡将图像信息转换为数字信息送入上位机并实时保存起来。数据采集完成之后,图像处理模块读取图像通过相应算法提取特征点最终计算特征点空间三维坐标。图1还可以看出整个数据采集模块搭建在机械平台上由执行机构驱动,不仅可以实现待测目标的小范围检测,同时还可以配合机械平台运动,驱动数据采集系统实现待测物体的大范围全尺寸检测。2硅棒特征点三维坐标检测原理
2.1四目视觉全范围检测系统组成硅棒特征点坐标视觉检测技术基于四目视觉原理,整个四目视觉系统作为机器视觉检测系统的数据采集模块负责为后续图像处理模块提供硅棒图像信息,采集的图像质量直接影响到后续图像处理的难易程度和结果的计算精度。四目视觉原理如图2所示:数据采集模块由四台CCD相机组成,分别在待测硅棒每个侧面安装一台CCD面阵相机,保持相机与硅棒待测面垂直放置,在自然光源照射下硅棒表面成像于与之垂直的CCD相机上,则相机分别获得每个硅棒表面特征的图像。该图像可以通过一个四路camelink接口图像采集卡或者2个双路camelink接口图像采集卡送入上位机进行后续图像处理。整个数据采集系统要实现的功能就是确保不降低系统检测精度的前提下,维持尽量大的有效视场范围,实时采集获取清晰的硅棒图像。
2.2四目视觉系统视场约束为了实现最优检测目的,必须保证待测硅棒在检测过程中始终处于四目视觉系统的有效视场范围内,若硅棒对应于相机上像点的坐标为(xi,yi),通过针孔模型透视变换公式就能得出某个特征点在有效视场内的世界坐标为OXWiYWiZWi。图3为四目视觉系统有效视场示意图,以四台CCD交汇中心建立世界坐标系。
图2四目视觉系统组成
Fig.2Thecompositionofthe4CCDs
visionsystem图3四目全范围检测原理及有效视场分析
Fig.3Theprincipleandtheanalysisofeffective
visionfieldfor4CCDs′fullrangedetection
如图所示:四台面阵相机型号相同,焦距f均为镜头中心到CCD靶面中心的距离,相邻相机之间的基线长度均为B(B=O1O2=O2O3=O3O4=O4O1),O1Xc1Yc1Zc1、O2Xc2Yc2Zc2、O3Xc3Yc3Zc3、O4Xc4Yc4Zc4是分别以CCD相机各自的镜头中心建立相机坐标系,以CCD1和CCD2光轴的交点为原点建立世界坐标系OXWYWZW,O1Xc1Yc1Zc1、O2Xc2Yc2Zc2、O3Xc3Yc3Zc3、O4Xc4Yc4Zc4均位于OXWYWZW内,最终计算时必须将O1Xc1Yc1Zc1、O2Xc2Yc2Zc2、O3Xc3Yc3Zc3、O4Xc4Yc4Zc4这四个相机坐标系转换到同一个参考坐标系OXWYWZW。假设CCD相机像平面平均尺寸为2Tx×2Ty,相邻相机光轴夹角为2α,则四目视觉系统的有效视场为ABCDEFGH围成的八边形。为了准确描述有效视场,在八边形ABCDEFGH内做内切圆,内切圆面积就反映有效视场的大小,采用内切圆的半径R对有效视场进行描述。考虑Tx远远小于焦距f,则有效视场R可以采用如下近似公式描述:R=Bcosβ/2sinα=Bcos(arctan(Tx/f))/2sin45°≈22BTx/f(1)由式(1)可知:CCD相机间基线长度B、视场角β以及相机夹角α这三个参数不仅直接限制有效视场的大小,还会严重影响四目视觉系统的测量精度。引起测量精度的误差包括相机本身参数(Tx、Ty)以及相机分布结构参数、参数本身的测量误差(B、f)[6],它们共同决定了机器视觉采集系统的精度。
2.3双目交会原理如图2可知:四目视觉系统中的任意相邻的两个CCD构成双目交汇视觉测量系统,所以整个四目视觉系统可以看作四个双目交汇视觉子系统组成,其中CCD1和CCD2构成子系统1,CCD2和CCD3构成子系统2,CCD3和CCD4构成子系统3,CCD4和CCD1构成子系统4。因为每个子系统光轴互相垂直,所以子系统基于正交双目交汇视觉原理。正交双目交汇测量比单目测量准确度高,它的相机夹角2α=90°有效降低安装误差[7],保证基线长度,形成相对较大的有效视场利于实现大尺寸检测,同时α=45°满足α∈(40°-70°)放置时测量误差最小要求[4]。以双目交汇视觉子系统1为例:CCD1和CCD2分别满足针孔成像模型:zc1u
(3)其中矩阵M是由相机内部参数(r1~r9)和相机外部参数(T1~T3)构成的一个3×4的综合矩阵。联立式(2)和式(3)求解则可得到CCD1和CCD2的采集图像上的公共特征点的三维坐标,即硅棒第1对棱边上的特征点坐标,同理对于双目交汇视觉子系统2、双目交汇视觉子系统3、双目交汇视觉子系统4可依次求得第2对、第3对、第4对棱边上的特征点坐标,从而在保证精度前提下实现硅棒全范围检测目的。3硅棒特征点三维坐标检测方法的实现为了验证硅棒特征点三维坐标视觉检测系统的可行性,在实验室搭建了机器视觉检测试验样机进行试验,完成四目视觉采集系统的相机标定实验,同时以CCD1和CCD2构成的正交双目子系统为例进行一对硅棒表面图像的数据采集实验,基于VisualStudio2008平台编写核心图像处理算法。
3.1标定实验相机标定是视觉测量过程中不可缺少的关键技术,标定通过针孔成像原理求取相机内部属性参数和外部位置参数从而确定空间坐标系中物点和像点的对应关系[8]。针对本文的多目视觉系统首先对每个相机进行单目标定。单目标定选择一种介于传统标定技术和自标定技术之间的方法:张氏平面标定法。标定流程为:首先将自制一个大小为11×11标准棋盘格模板,每个棋盘格大小为10mm×10mm。该模板置于视觉系统有效视场内,改变模板位置多角度(不小于3个)分别拍摄,拍摄完成后进行角点检测,单应性矩阵求解和参数优化,每个CCD获得一个相应的相机标定文件calib_CCD_1.mat、calib_CCD_2.mat、calib_CCD_3.mat、calib_CCD_4.mat。这种标定方法比传统标定简单,算法计算量减少且精度高于自标定方法。通过单目标定得到X方向和Y方向有效焦距(ax,ay)、CCD靶面中心坐标(u0,v0)以及径向或者切向畸变等相机内部参数,由于切向畸变较小,此处忽略不计,主要考虑径向畸变参数(k1,k2),单目标定结果见表1。单目标定完成之后进行立体标定,分别获得相机坐标系O1Xc1Yc1Zc1、O2Xc2Yc2Zc2、O3Xc3Yc3Zc3、O4Xc4Yc4Zc4相对于世界坐标系的旋转矩阵R和平移矩阵T。立体标定结果见表2。表1单目相机标定结果
Tab.1Theresultofmonocularcameracalibration
CCD1CCD2CCD3CCD4(ax,ay)(1537.644971864.83493)(1533.415091857.50018)(1535.344071860.93201)(1539.70031865.79331)(u0,v0)(350.60211272.77893)(360.14942285.26816)(357.02119279.77549)(351.33908288.44109)(k1,k2)(-0.382631.71026)(-0.372052.034223)(-0.367811.90127)(-0.380091.94737)像素误差(0.321280.37039)(0.275690.22316)(-0.332810.20127)(-0.339610.29127)
表2多目相机标定结果
Tab.2Theresultofmulticameracalibration
O1Xc1Yc1Zc1O2Xc2Yc2Zc2O3Xc3Yc3Zc3O4Xc4Yc4Zc4R10010.00370.04310.00290.004310.00370.0403010-0.00361-0.00650.04361-0.0465-0.00711-0.0473001-0.00450.06681-0.00390.06171-0.00650.05791T0.24281000.22900999.23370.10020.29750.44170.0209-998.00190.19951002.33670.0197
图4硅棒图像
Fig.4Imagesofsiliconrods3.2图像采集实验实验采用四个IMPERX面阵CCD相机、相机配接15mm的标准镜头,两个X64CLPrio图像采集卡,两个镜头基线距离为1408.6mm搭建实验样机,有效线视场为236.544mm,将待测硅棒置于CCD交汇的有效视场范围内,配置图像采集卡输出格式为CameralinkBaseMono#1,导入IPX_VGA210相机.cfg配置文件,通过X64CLPrio图像采集卡将一对像素为640×480黑白硅棒图像实时送入上位机。其中正交双目视觉子模块1采集到的一对图像如图4所示。
3.3图像处理特征点坐标检测视觉系统第二个核心组成是图像处理模块,该模块通过完成对采集数据的后续图像处理获得目标特征点的三维空间坐标,技术难点在于机器视觉数据采集模块中CCD相机得到的是二维图像信息,而系统最终要求是得到目标特征点的空间三维坐标。针对问题论文提出一种二维图像上恢复特征兴趣点三维坐标的解决方法:首先提取待处理图像上的特征兴趣点,建立特征兴趣点对应关系即同名点识别,接着通过同名点立体匹配获取对应点视差从而得到特征兴趣点3D坐标。
3.3.1Harris角点检测论文以硅棒角点作为研究的特征兴趣点,采用一种基于灰度值相关的角点检测算子:Harris算子进行硅棒角点检测。Harris角点检测的目的是提取待测目标的特征点,依靠特征点来传递图像所表征的参数信息,算法不受相机姿态及光照影响,检测精度达到像素级别[9]。Harris算子数学表达形式为:M=G(S)gxgxgy
gxgygy(4)
I=Det(M)-k×Trace2(5)M为自相关联系矩阵、Det(M)为自相关矩阵行列式的值,Trace为矩阵的迹,k为默认常数,取0.04。式(5)称为Harris算法响应函数,该函数给出局部范围内的兴趣值大小。Harris算法采用局部范围内的极大兴趣值对应的像素点作为特征点,因此通过对算法中的门限阈值、局部邻域大小、高斯窗口大小和高斯方差多次调整,保证在局部邻域内只留下最大极值点作为兴趣点,实现特征最优角点的提取。
3.3.2特征点立体匹配特征点立体匹配就是在待匹配图像上寻找标准图像上每个特征点的同名点,从而将不同图像中原本独立的特征兴趣点联系起来[1011],特征点匹配不是盲目进行,它遵循一定约束条件,本文同名点匹配基于极线约束。极线约束规定了一幅图像上任意一点在另一幅图像上的对应点只可能位于一条特定的极线上,通过该约束特征点匹配搜索空间从二维降为一维,减少计算量[10]。匹配流程为:首先在现有图像中设定一个标准图像,对于标准图像中的特征点Pl,找出待匹配图像中与其有最近欧氏距离的前两个特征点Pr1和Pr2,计算两个特征点中最近的距离Dmin与次近的距离Pcmin的比值,如果该比值小于匹配阈值,则表示待匹配图像上欧氏距离最近的点是标准图像中Pl特征最优匹配点。其次以待匹配图像中Pr1为特征点,重复步骤1的过程,求取标准图像中Pr1的候选匹配点P′l。最后如果Pl和P′l是相同点,则Pl和Pr1匹配成功,否则弃之。重复这个流程,直到匹配完成。同名点匹配完成之后,由双目视觉视差公式即可得出特征点3D坐标。最后对采集系统拍摄的两幅硅棒图像进行角点检测及匹配算法验证,获得了图像中的4对公共角点3D点坐标值,结果见表3。
表3特征点3D坐标计算结果
Tab.3Thecalculationresultofcharacteristicpoints′3Dcoordinatemm
特征角点X实测值X理论值Y实测值Y理论值Z实测值Z理论值153.59154-79.833-80.5-63.422-63263.32263-80.032-80.5-53.709-54353.6195480.20080.5-63.192-63463.2096379.90280.5-53.991-54
通过表3可以看出:理论计算结果和实际测量结果基本吻合,且实际测量精度明显高于理论计算精度。4结论论文提出一种基于机器视觉的非接触、实时硅棒特征点检测技术,搭建了多目视觉硅棒采集系统进行图像采集实验,重点研究了多目视觉有效视场确定和正交双目交汇视觉测量原理,基于VisualStudio2008平成了硅棒角点特征提取以及同名角点立体匹配等后续图像处理算法,整个检测过程时间不超过0.5min。实验结果表明,该技术可准确快速获取待检测硅棒的特征点三维坐标,检测精度可以达到像素级别,适合于硅棒参数的非接触式高精度检测。为下一步开展硅棒面形检测研究奠定了基础。参考文献:
[1]郭海霞,解凯.焦点检测技术研究[J].哈尔滨师范大学自然科学学报,2007,23(2):73-75.
[2]徐岳生,刘彩池,王海云,等.直拉硅的现状与发展[C]∥中国有色金属学会第六届学术年会论文集.长沙:中南大学出版社,2005:62-69.
[3]彭凯,刘丽冰.双摄像机光学三坐标测量系统的研究[J].工艺与检测,2008,10(9):115-117.
[4]彭凯,刘丽冰,刘书桂.基于双相机的计算机视觉坐标测量系统[J].光电工程,2008,35(7):95-98.
[5]管业鹏,童林夙.双目立体视觉测量方法研究[J].仪器仪表学报,2003,24(6):581-588.
[6]刘佳音,王忠立,贾云得.一种双目立体视觉系统的误差分析方法[J].光学技术,2003,29(3):354-360.
[7]郭玉波,姚郁.双目视觉测量系统结构参数优化问题研究[J].红外与激光工程,2006,35(增刊):506-509.
[8]罗世民,李茂西.双目视觉测量中三维坐标的求取方法研究[J].计算机工程与设计,2006,27(19):3622-3624.
[9]张春生.基于点特征匹配的SUSANHarris算子比较[J].西安科技大学学报,2007,27(4):608-616.
计算机视觉方法范文篇6
关键词:计算机视觉;智能交通;监控系统
中图分类号:TP277
近些年来,随着我国人民生活水平提高,使私家车辆的数目急剧增长,并且车辆的增长速度远远超出市政建设的力度。这样的事实导致城市交通拥堵、违规通车、车祸增加,所以迫切的要求加快市政建设,实施高效率的交通监控措施,基于计算机视觉的智能交通监控系统也由此得到了相应的广泛的发展和应用。那么,计算机视觉技术下的智能交通监管系统究竟应该如何设计与实现呢?
1计算机视觉下的智能交通监控系统
1.1计算机视觉技术
计算机视觉技术即利用各种图像摄录设备将通过对视觉目标进行识别、跟踪、测量并将由此获取的视觉信息传输至计算机并进而利用图像技术进行视觉信息处理以达到进一步进行智能化处理的视觉处理技术。
1.2智能交通系统(ITS)
智能交通系统(ITS)是指通过现代化的网络信息技术、自动控制技术等有效综合手段在一定范围内建立的全方位发挥作用的交通运输综合管理和控制系统。作为交通运输管理体系的一场新的革命,近年来,由此技术进一步开发形成的监控系统已经在各个道路的关键路口、路段和其他交通繁忙地域普遍建立,为交通运输管理提供了自动化、智能化的信息收集和处理等多方面的服务。但是,随着城市建设的迅猛发展和人流、车流量的猛增,更加智能化的交通管理系统的开发和利用显然也成为了当务之急。
2计算机视觉下的智能交通监管系统的建立
正是基于新的发展需要,我们有必要把计算机视觉和智能交通监控系统进一步结合起来,首先通过计算机视觉分别对各个道路的关键路口、路段和其他交通繁忙地域等相应位置实时进行交通信息采集,然后,通过信息传输系统、或者进行处理后存入服务器并将处理过的实时交通信息及时传输到监控指挥系统,以实现对于各个道路的关键路口、路段和其他交通繁忙地域的实时监控和管理。由此,显然就需要设计以下各个子系统并共同构建为一个完整的体系。
计算机视觉下的智能交通监管系统
实时交通信息收集系统
监控指挥系统
高质量信息存储传输系统
图1计算机视觉下的智能交通监管系统工作程序示意图
3智能交通监控系统的实现
计算机视觉下的智能交通监管系统实现的第一步是通过实时交通信息收集系统实时进行交通信息采集,即通过对于运动物体的分割,在图像找出有意义的部分,抽出运动目标的特征,进而通过连续画面间的变化判断目标的运动状况。在这一系统运行中,首先可以“摄像头读入”的初始视频,使用相应的算法提取“背景”,然后通过原图与背景运算形成相应的“前景”,由此即可进一步通过矩形框的使用来达到“运动目标检测”与信息采录的目的。
图2视觉监控系统原理图
3.1系统功能实现
对运动物体的检测主要有光流法以及差分法两种方法,由于光流法比较复杂和耗时,实时检测很难实现,因而,现有实时交通信息收集系统一般通过差分法的应用来进行开发和实现。
3.1.1帧间差分法
帧间差分法对运动目标进行分割处理过程中使用较多也最为简单实用的一种方法,其基本原理就是通过在连续的图像序列中两个或三个相邻帧间采用基于像素的帧间差分并且阈值化来提取图像的运动区域,进而通过逐象素比较获取前后两帧图像之间的差别来判断运动物体的移动状况。在实际操作中,一般可以假设用于获取序列图像的视频设备为静止物体,设视频中连续两帧的图像为It(x,y)和It+1(x,y),然后通过对连续两帧的图像相应的像素进行比较,利用Dt(x,y)=It+1(x,y)-It(x,y)这一方程求出相应的阈值来检测出运动物体的移动状况:
Mt(x,y)=
当然,必须注意的是,由于帧间差分法所得到的差分图像在现实中并非由理想封闭的轮廓区域组成的,因而,运动目标的轮廓自然也就往往是局部的、不连续的,且其误差往往随着运动物体速度的增大而增大,因而,这一方法并不适于对于高速运动目标的有效检测。
3.1.2背景差分法
与帧间差分法不同,背景差分法则是利用当前图像与背景图像的差分来检测物体运动状况一种方法。其基本原理是在可控制环境下,通过对于运动背景的固定假设,设待检测运动物体的图像为I(x,y),背景图像为B(x,y),通过输入图像与背景模型进行比较,利用D(x,y)=I(x,y)-B(x,y)这一方程求得到图像中的各像素的变化信息,进而检测运动物体的移动状况:
Mt(x,y)=
当然,在实际运用中,背景差分法的关键,是要建立一个背景模型,并更新模型。
3.2程序功能的实现
本程序功能实现所主要使用的是OpenCV函数。OpenCV能够实现对图像数据的操作,包括分配、释放、复制、设置和转换数据,以及对摄像头的定标、对运动的分析等。在函数实现上,用到了Cv图像处理的连接部件函数,运动分析与对象跟踪中的背景统计量的累积相关函数等相关的函数。本系统就是运用图3介绍使用到的函数名及其功能和使用格式等来实现对视频流的运动车辆的轮廓检测的。
图3寻找轮廓程序主要算法流程
实验证明,本系统能够较好地实现对视频流的运动目标的轮廓检测和对象跟踪,并能实时更新背景,车辆跟踪正确率在95%以上,虽然存在着轮廓检测正确率稍差的缺点,但其主要原因是由于摄像头所处的角度和运动目标靠近程度的影响,从根本上并不影响对于运动目标的实际检测。
4结束语
加快城镇化进程是我国发展的大趋势,在这一趋势下,城市病的治理当然可以离不开现代化的科学技术。但是,必须注意的是,无论多么先进的管理系统,最终都只有通过人的行为才能够发挥有效的作用,在这个意义上,设计与使用先进的交通监控系统固然是解决交通问题的技术条件,但是,交通问题的解决,最终还必须依赖于人的素质的全面提高。
参考文献:
[1]戴俊乔.城市道路交通视频监控系统架构和性能的研究[J].科技与创新,2014(06).
[2]张伟龙,李刚,王雨翔.基于计算机视觉的智能交通监控系统[J].小型微型计算机系统,2014(07).
[3]庞其富.浅谈城市轨道交通视频监控系统设计方案[J].通讯世界,2014(01).
计算机视觉方法范文篇7
关键词:视觉;形象设计;专业课程;教学改革
中图分类号:G42文献标识码:A文章编号:1005-5312(2014)05-0261-01
随着时代的不断进步,计算机应用的领域越来越广,对于各行各业都产生了不同程度的渗透作用。其中,计算机对于艺术领域的影响是巨大的。相反的,艺术设计也因计算机技术的开发与不断地深入研究,使得其在艺术表现形式的获取上取得了不菲的成绩。艺术设计作为一门交叉性学科,在现代看来,如何实现与其他学科的有机融合显得越来越重要。教育工作者尤其应注重在这方面的研究。
一、改变教学模式
传统的视觉形象设计教学模式没有从手工时代的思想约束中解放出来,在专门的教室里进行长期的作画过程对于学生来说相当枯燥,久而久之,学生对专业课的学习便无法产生浓厚的兴趣。根据这种情况,现代新兴的教学模式建议教育工作者采取将计算机教学与艺术基础课相结合的方式,取代传统的艺术设计课惯用模式,将色彩、速写、图形等的设计取法于计算机仿真模仿。除此之外,计算机具有随意缩放的功能,在设计过程保证作画质量的同时使得学生的作画设计更加逼真,更加精确且规范;计算机还具有修改方便、勾形快捷以及渲染效果良好等的优势,是辅助学生开展课程学习的利器。需要看到的是,传统手工设计所需要的各种工具,如笔、纸、尺、规等等在利用计算机设计时都可以免除,对于节省资本用于开展其他课程活动这方面来说,产生了很多积极影响。这种结合计算机技术展开视觉形象设计的方式为学习者解放思想,自由发挥想象力提供了必要的空间,作品的完成度也大大提高了。
二、实现动态方式进行艺术设计
计算机应用于视觉形象设计教学使得艺术设计不再枯燥无味,实现了图画的动态化,为艺术设计创造了独特的交流方式。如用Flash实现角色动画、网页动画、互动游戏设计等等。计算机与艺术设计的及时交互为视觉形象设计的发展提供了发展的空间。首先,这种功能使得学生改被动为主动,在设计过程中,可以实现学习者主动参与到艺术设计的目标。其次,这种交互作用使得学生增多了艺术判断的渠道,对选用不同的过程得出相应结果来提高学生的学习兴趣来说大有裨益。计算机技术领域的多媒体技术作为一种新兴的辅助教学工具,具有将图像、文本、声音、视频等因素结合于一体的效果,丰富艺术表现力的同时还相应提高了作品的感染力。如影视合成中的AfterEffectsCS4,PremiereCS4课程的设置就是如此。所谓影视合成就是将虚拟的场景、物品、角色与实拍的场景、物品或者角色等合成在一起。与影视合成相关的是影视编辑,影视编辑就是剪辑。它是一门具有综合性质的课程,因此需要在早期入学时便开设课程,为日后的学习打下坚实的基础。
三、注重社会应用的价值
视觉形象设计课程作为一门计算机数字艺术在很多时候是以交叉学科的身份出现的,在动画、电影、电视领域运用越来越广泛。作为一门融合性的学科,教育工作者对于学生跨学科的教育要求也应有所提高。只有全面认识到各个相关学科所起到的作用才可以促进视觉形象设计教学事业的全面发展。其中,首先运用到的便是计算机辅助设计。现在我们运用的高档彩色输出以及打印领域的技术创举就是其中的内容。某些学校开设的PhotoshopCS4,CorelDRAW就是关于计算机辅助设计的课程。其次,计算机绘画。可感压力的数字画笔的使用取代了传统画笔的地位,并在艺术设计领域发挥着不可小觑的作用。随着手部压力的微弱变化就可以在计算机画板上展现出不同的效果,与手工时代的画笔所造成的效果几乎一致,此外还给学习者带来了传统画笔所不能带来的福利。及时交互等优势使计算机超越了传统工具被动的地位,2D插画和概念艺术广泛应用于商业广告插画、出版物插图、游戏美术中。最后,是计算机多媒体动画技术的运用。这项应用十分广泛的计算机艺术形式按制作方法,可分为二维动画和三维动画;按长短,可分为动画短片、动画电影(电视剧);按剧种,可分为故事片、儿童剧、科教片等。具体情况,在次不再赘述。
四、结束语
综上所述,计算机技术与视觉形象设计这类艺术设计类课程相结合所产生的效益是某个独立的学科所无法实现的。数字媒体技术的发展给艺术设计带来了耳目一新的风格与形式,为视觉形象设计的创新提供了无限发展的空间。相信未来我国在这方面取得成果将越来越多,其教学水平也将更上一层楼!
参考文献:
计算机视觉方法范文1篇8
摘要本文以计算机视觉三维重建技术为研究对象,分析了开放计算机视觉函数库OpenCV中的三维重建模型,通过六个步骤,特别是摄像机标定和立体匹配中极线约束方法的使用,给出了基于OpenCV的三维重建算法。该算法充分发挥了OpenCV的函数库功能,提高了计算的精度效率,具有良好的跨平台移植性,可以满足各种计算机视觉系统的需要。
关键词计算机视觉;三维重建;OpenCV;摄像机标定;极线约束
计算机视觉方法范文
自从机场服务机器人投入展览后,一直是该展区的热门展项,驻足围观的游客络绎不绝。对机器人的表现,游客也是褒贬不一。有些游客对机器人的精彩表演连连称赞;有些则认为机器人反应迟缓、显得笨重,相比人类的表现,令人失望。
识别这些行李对于机器人来说是不是很困难?机器人在视觉方面能否做得更好,能否识别更复杂的对象?它们的目力能否超过人类?它们究竟能看到什么?
这些问题将我们引向了一个新兴的热门领域:计算机视觉。计算机视觉是人工智能的子学科,而人工智能则是仿生学的一种。人工智能旨在模仿人(有时也包括其他动物)的行为和思维,而计算机视觉将模仿的对象集中在了人眼上,即模仿人“看”的行为。换言之,计算机视觉是一门利用摄影机和计算机代替人眼进行图像获取、目标识别、跟踪、测量、理解和处理的学科。作为一门交叉学科,计算机视觉与许多学科有重要联系:机器学习、神经生物学、认知科学、信号处理(图像处理)等。在后面的介绍中,这些学科间的联系将变得更加清晰。
眼睛是人体获取外界信息最重要的传感器。它高速、准确、信息量大,为人的决策和行为提供了丰富的信息。同样,计算机视觉系统作为人工智能体的一个感知器,也常常为决策提供了最重要的信息。那么,一个理想的计算机视觉系统究竟完成了什么任务,又给智能体提供了怎样的信息呢?
让我们来举一个简单的例子。你走进一家咖啡店,发现你的好友彼得坐在角落里,双手托着下巴,一脸的不愉快。于是,你决定走过去安慰一下。假如完成该任务的不是人类而是机器人,则要由其计算机视觉系统获取图像,然后对该图像进行处理,并得到以下信息:1.这是好友彼得;2.他看上去很沮丧。这两条信息被传递给决策器,后者随即做出了走过去安慰的计划,计划则最终被四肢等效应器执行。
对人来说,这个过程再简单、自然不过,但对于计算机视觉系统来说,却是个相当复杂的过程。对该图像进行处理的过程中,计算机分别完成了三个层次的任务:初级视觉、中级视觉和高级视觉。这样的分类方式不仅和视觉任务的复杂程度有关,也和人类在完成这些任务时所涉及到的视神经和脑神经部位有关。在以下的篇幅中我们将介绍一些分别属于这三个层次的典型的计算机视觉任务。
初级视觉
现代数字成像技术使计算机视觉成为可能。利用CCD或CMOS等感光原件,可获得数字化的图像。一般来说,对像素进行处理的任务即属于初级视觉。在挖掘出图像中包含的信息时,首先需要对图像进行一些处理,以便能够执行更高级的任务。图像的主体和背景之间、同一表面上不同的材质和颜色之间等都会形成边界,从图像中提取出边、角、点等特征能帮助计算机理解图像,并利用滤波的方式进行边界特征提取。像滤波这样的信号处理方法在初级视觉中被广泛应用,除了特征提取外,还有降噪、平滑等。
图像上各种颜色的像素并不是随机分布的,它们一般都在图像上形成一定含义的组合。比如,草地是由绿色的像素拼合成的,而天空是由大量的蓝色像素组成的。找到这样的具有相同属性的像素形成的像素块称为分割。当然,提取边界可以帮助分割图像,但是简单地把所有的边界分割出的区域都作为具有相同属性的像素块是否正确呢?这正是图像分割最具有挑战性的。比如一副斑马图片,计算机如何知道斑马的嘴不是背景的一部分呢?这就涉及到了图像的语义。在给图像进行初级分割后,更精确的分割任务就要交给中级或高级视觉了。
人类有两只眼睛,同样,机器人也可以通过安装两个经过标定的摄像头来实现双目视觉,从而实现测距,即分辨物体在三维空间中的位置。上文的例子中,双目视觉可以依据透视原则和遮挡的关系来帮助视觉系统确定彼得所坐的位置,比如在第二张桌子和第三张桌子之间。
中级视觉
中级视觉是建立在初级视觉的计算结果上的。在执行中级视觉任务时,不仅使用了实时的初级视觉计算结果,还结合了一定的视觉经验。举个简单的例子,平时生活中我们所看到的,被桌上的杯子遮挡的部分也是桌子的一部分;上文斑马深色的口鼻部并非背景的一部分,而是斑马的一部分。事实上,这些结合经验的视觉任务可以首先被应用到分割任务中。中级视觉中的分割不再是仅仅依靠颜色将图像分为若干个像素块,而是产生更有意义、更精确的分割,这样的分割不是仅靠边界提取就能够实现的。分割算法不计其数,常用的有类聚的方法、基于特征向量的方法、基于图论的方法、期望最大化、概率的方法(贝叶斯方法)等。
在经验的帮助下,视觉系统可以通过拟合的方式来解释甚至纠正图像中的变形或缺失。比如,根据经验桌子的边一般是直的,则视觉系统在提取到桌子的部分边缘或拐点后,就可以用直线来拟合被遮挡而缺失的部分,或因摄像头的棱镜引起的失真。这样,机器人在走向彼得时就能避免撞到桌子。
经验也并非是绝对正确的,此刻看到的也许是经验中所缺失的。通过一个加权的概率模型,视觉系统可以将目前观察到的图像和经验中的数据结合起来,从而对未来的状态做一个预测。这样的方法常常被用于跟踪,也就是在一帧帧连续播放的画面中,根据目标在以前和目前图像中的位置来预测目标在未来图像中的位置。比如高速公路上的车辆跟踪系统,系统用从对象上提取出的特征点(红色)来定位目标。视觉跟踪常用的算法有卡尔曼滤波器、非线性动态模型等。
目前的中级计算机视觉研究受到了心理学和认知科学的影响。比如格式塔心理学对基于经验和认知整体的中级视觉有较大贡献。
高级视觉
也许高级视觉才是计算机视觉中最有趣的一部分,因为它是人类视觉中至今还无法被完全解密的部分(也许连部分解密都谈不上)。当你站在杂乱、昏暗的酒桌前,从看到的图像中识别出沮丧的彼得时,整个过程只需要0.3秒。事实上,现代处理器的运算速度远远高于人类视神经和大脑中神经突触的信息传递速度。但人类视觉的功能是如此的强大,以至于计算机视觉系统远远不能达到人类的水平。较新的研究表明,人类发达的视觉系统得益于一套大规模并行计算系统──不计其数的神经元形成的视觉通路,它就像一张有无数节点的计算网络,信息在其中往返传递。
高级视觉任务几乎都围绕着两个字展开:识别。识别是给对象贴上标签的过程,即给对象附上含有语义的名称或描述。这是一种高级的视觉活动,需要学习、联想等更高级的大脑活动的参与。拿图像的分割任务来说,图像不仅被分割成独立的像素块,视觉系统还为每个像素块贴上“标签”,比如“窗子”、“桌子”、“酒瓶”、“彼得的脸”等。通过模板比对,视觉系统将彼得的脸和经验中的图像联系了起来,从而引起了系统的兴趣。从彼得的脸上提取的特征中,视觉系统还解读出了彼得的沮丧。于是在随后的图像中,视觉系统都将注意力放在了彼得的脸上,试图跟踪该对象。视觉系统在继续跟踪的同时,将从图像中得到的信息发送给决策器。
即使是当代最成功的算法和视觉系统都无法像人类一般高效地识别物体。对我们来说,识别“一个瓷杯”处于不同状态似乎并不怎么困难,但对计算机视觉系统来说却不容易。杯子可以有不同的摆放姿势、不同的光照强度和颜色、出现在画面中的不同位置、可能有的部分被遮挡,如果按不同状态就是不同的杯子这一点来判断,那就可能误判为存在不计其数的各式各样的杯子(即外观的区别)。在绝大多数计算机视觉系统中,目标都被要求符合一些限制条件,否则,计算机视觉将成为不可能的任务。由此可见,在杂乱、昏暗的酒桌一角发现彼得对计算机视觉系统来说是多不容易的一件事情。
对人类来说,识别并非与生俱来的本领。婴儿睁大眼睛看着陌生的世界,他们的视觉实践是从测距、分割开始的。幼儿几乎每时每刻都在努力学习如何给图片贴标签。他们学习得很快,低龄儿童不仅可以成功地识别物品,还可以在一定程度上察言观色,感受到由表情传达的情绪。通过奖励和带教,可以加速儿童的学习过程。
通过这样的启发,高级视觉还将依赖机器学习这门学科。机器学习是研究如何通过算法让计算机实现人类的学习过程,从而让计算机不仅能够实现简单枯燥的任务,还能够向智能迈进一步。作为人工智能领域的核心学科,机器学习如百家争鸣,不断取得着新的成绩。当今重要的机器学习算法有人工神经网络、遗传算法、支持向量机、贝叶斯网络、强化学习等。
至今,计算机视觉系统最为成功的案例,莫过于手写数字识别。MNIST是使用最广泛的手写数字库,为各类识别算法提供了一比高下的平台。MNIST中含有七万幅边长为28个像素的图像。目前最出色的识别算法一般都可以达到1%以内的错误率。然而,MNIST只是对目标的外观做了有限多的变化,并没有涉及到有如杯子在不同状态下的各种变化。而且,28×28=784个像素的图片实在很小,如果处理普通大小的照片,视觉系统的运算量就会呈指数级增长,甚至让超级计算机都无能为力。
计算机视觉方法范文1篇10
【关键词】视频;图像处理;智能交通系统
交通视频监控系统是一个国家交通正常运行的有力保障。随着我国城镇化进程的不断推进和汽车的普及,交通问题日益严峻,道路拥挤、事故频发,加上不遵守交通规则的人比比皆是,使交通问题成为一直困扰我国的难题。而由于交通系统是一个相当复杂的庞大系统,所以监控起来十分困难。
随着计算机技术的发展,计算机视觉处理技术兴盛起来。计算机视觉处理技术是模拟人类视觉系统的一种技术,人类可以通过对视觉中感知到的信息进行适当的组合和联想以达到对外界信息进行判断的能力,计算机视觉处理技术就是要用计算机代替人类的大脑实现对采集到的信息进行处理,从而使计算机具有外部感知的能力,这对于交通视频监控系统具有非常重要的意义。
在智能交通系统中,基于计算机视觉的图像处理技术扮演着重要的角色,它以视频图像为分析对象,利用先进的算法去除干扰,具有直观、高效、精度高等特点。
1交通视频中进行图像处理的重要性
交通视频检测系统的摄像机在工作时面临的是自然气象条件,这就意味着它要受到各种自然条件的干扰,比如强光、雾霾、粉尘、街灯等,由于光照条件不同所引起的图像差异远远大于由于人的不同所引起的图像差异,即使是在相同光照条件下,由于镜面反射的存在,同一物体的不同表面对光的反射不同,再加上粉尘、雾霾等的影响,从不同视角反映出来的图像有很大差异。外界光照的方向和强度还会随着时间不断发生变化,这些因素会导致采集的图像不清晰、重影、有阴影等,给基于视频的检测带来很大的难度。而视觉检测必须借助外界光线才能够获取图像信息,所以要把图像中的车辆信息完整清晰的反应出来,就要对静止的视频图像序列(即每帧图像)进行预处理。这些处理会涵盖图像色彩模式转换、格式转换、算法处理等。
2交通视频监控系统的组成
交通视频监控系统一般由采集、传输、控制、显示四部分组成。
2.1图像采集
图像采集工作由前端的摄像机完成,采集质量的好坏将直接影响视频图像处理的效果。如果视频图像中的车辆信息清楚,对比度好,无干扰信息或干扰信息少,将有利于车辆的检测和跟踪,反之,将不利于车辆的检测和跟踪。
2.2传输
根据摄像机和控制中心之间距离的长短,会采用不同的传输设备,一般的传输方式包括视频基带传输、射频有线传输、光纤传输、电话线传输等。
2.3控制
控制部分是整个交通视频监控系统的中心,由总控制台组成。总控制台可以进行信号的缩放、矫正、补偿、切换、遥控、记录存储图像等。
2.4显示
显示部分的功能就是把传送过来的图像显示出来,由若干台监视器组成。
3交通视频监控系统中视频图像处理技术的应用
3.1车辆检测
对运动车辆的检测是交通视频监控系统的核心功能,通过对视频图像中的连续画面的变化分析能抽出运动车辆的特征,从而实现检测。但是由于运动的车辆受光线、灰尘、雾霾、阴影等因素的影响,给图像分割带来很大的困难。所以在进行车辆检测时,要对获得的视频图像进行处理,来提取目标车辆信息,常用的方法有帧间差分法、背景差分法、边缘检测法等。
3.2车辆跟踪
对车辆进行检测的目的是辨别运动车辆,然而要想了解目标的运动参数,还要对车辆进行跟踪。车辆跟踪的核心内容是根据目标运动车辆的某些特征在不同的图像帧中进行目标匹配,用于匹配的特征包括位置、大小、形状,以及局部的点、线特征和整体轮廓特征等[1]。常用的车辆跟踪方法有基于区域的方法、基于特征的方法、基于运动估计的方法、基于模型的方法、基于轮廓的方法等。
3.3阴影检测
阴影检测是交通视频监控系统的一项重要且具有挑战性的工作。运动目标车辆由于受各种光源的影响会产生阴影,而阴影与运动目标车辆具有相似的视觉特征和运动特征,所以前面介绍的车辆检测方法都不能有效地将阴影检测出来。阴影的存在会使车辆检测和跟踪产生误差,给交通参数的提取带来很大误差,因而阴影的检测与去除是视频检测的重点和难点。根据阴影形成的不同原理可以把阴影分成不同的类型,而不同类型的阴影又有不同的特点,这给阴影的检测和提取提供了可能。目前,阴影检测方法通常包括两大类:一类是基于阴影属性如颜色不变性、纹理不变性、低频性质等属性的检测技术,另一类是基于应用场景先验知识的模型的阴影检测[2]。
3.4交通参数的检测
交通参数可以分为两类,一类是针对某一具体车辆的,如该车辆的车型、颜色、车牌、速度、重量等;另一类是针对某一具体路段的,如该这段的固定时间内的车流量、平均速度、车辆密度、车辆数目、路面占有率等。基于图像处理的交通参数检测需要实时处理大量的图像数据,这些参数的获得可以为交通执法提供依据,增加交通道路的容量。目前应用较为广泛的交通参数获取方法为虚拟线圈检测方法,很多学者都在此基础之上设计算法更加精密的检测系统。
3.5车牌识别
车牌识别技术(VehicleLicensePlateRecognition,VLPR)是计算机视频图像识别技术在车辆牌照识别中的一种应用。车牌识别是现代智能交通系统中的重要组成部分之一,应用十分广泛。它以数字图像处理、模式识别、计算机视觉等技术为基础,对摄像机所拍摄的车辆图像或者视频序列进行分析,得到每一辆汽车唯一的车牌号码,从而完成识别过程。通过车牌识别可以实现对停车场的收费管理、车辆定位、交通违法行为监控等功能,对于维护交通安全、实现交通自动化管理有很重要的意义。
视频图像处理技术在交通视频监控系统中应用的已经十分广泛,随着计算机视觉、人工智能理论的发展,对包含运动目标的图像序列进行分析和处理,能够实现交通管理的高效智能化。随着视频图像处理技术硬件的不断发展,我们所面临的挑战是如何找出与硬件相匹配的高效的软件技术(即先进的算法),使智能交通系统的功能更加强大和完善。
【参考文献】
[1]梁晓爱.基于视频的车辆检测与跟踪技术研究[D].山东师范大学,2010.
[2]许洁琼.基于视频图像处理的车辆检测与跟踪方法研究[D].中国海洋大学,2012.
[3]卫小伟.视频图像处理技术在智能交通系统中的运用[J].电子测试,2015(6).
[4]姜旭.视频图像处理技术在智能交通系统中的应用[D].苏州大学,2009.
计算机视觉方法范文篇11
关键词:Web;Web碎片信息;CSS;信息抽取
中图分类号:TP391
随着网络技术的发展,互联网的信息呈现方式正在发生日新月异的变化,微博的出现使人们随时随地都可以分享自己的信息。同时,微博的出现也正在改变着人们关注信息的习惯,网民们获取信息的方式越来越“碎片化”,从传统的“一对多”的信息分享方式变成的“多对多”的信息分享方式。也就是说,在信息碎片化的时代,每个人都是信息的制造者,也是信息的获取者。由于每个人均可以通过碎片信息平台(如新浪微博、腾讯微博)信息,使得碎片信息出现了很大的随意性,信息的构成不再像传统方式的规范化,而出现了多元化、异构化及碎片化。在进行碎片信息抽取的时候,由于其本身可能只是“只言片语”,就有可能被当成信息“噪声”过滤了,因此给信息的抽取与整合带来了一定的困难,针对碎片信息所固有的特点,考虑到信息的分享者是“人”,而非浏览器本身,对信息的抽取应该从浏览器给人的视觉分块出发,提出了一种基于CSS视觉分块的Web碎片信息抽取算法。首先对Web信息抽取的技术进行分析,其次基于CSS视觉分块的Web碎片信息抽取算法,然后通过实验对提出的算法进行验证与分析,最后对算法进行总结。
1Web信息抽取技术
Web信息抽取的目的就是便于检索或者数据挖掘,从松散的、半结构化的Html网页中抽取出有价值的、隐含的数据信息,并将其结构化存入数据库中。这一概念最早是由Gwiederhold提出的[1]。相应地,Web碎片信息抽取就可以引申为:从无结构或半结构的Web碎片信息网页制取出用户关心的、有价值的信息片段,并形成结构化数据的过程[2]。
目前,有很多研究者在研究Web信息抽取的技术,力求达到准确、高效的效果。纵观目前关于Web信息抽取的研究成果,不难发现,抽取的效果取决于是否能准确找出Web页面中的抽取规则,即抽取规则的生成。通常有基于统计理论的抽取技术、基于DOM树的抽取技术及基于归纳的抽取技术。
基于统计理论的抽取技术是一种传统的抽取方法,主要思想是通过统计网页标签所包含的信息量或链接文本与普通文本的比值来获取网页的主题信息。如孙承杰等人提出的通过获取网页中的标签的源码信息,去掉所有的HTML标签,对文本的长短进行统计,长度较大的就是主题信息[3]。如Gupta等人提出利用链接文本与普通文本的比值来确定页面中的正文分块,如果普通文本比例较大,则认为是所要抽取的目标文本,否则认为是噪声(如广告信息)[4]。可针对Web信息碎片的抽取,这种方法有其局限性,因为Web信息碎片所占的比重小,有可能会被当作噪声去掉,会直接影响抽取算法的召回率。
基于DOM树的抽取技术是通过DOM解析器将Web页面解析为Dom语法树[5],Dom语法树的本质就是在内存中构建XML语法树,它主要包括根元素(DocumentElement)与节点(Node),其中Node能反映出所有Web页面的所有结构信息,包括文本信息与属性信息,方便了对各节点的操作。基于DOM树的Web信息抽取算法在抽取时先获取HTML源码,再经过预处理,构造XML语法树,然后去噪,最后根据需求抽取信息。如刘军等人提出的基于DOM的网页主题信息的提取技术[6],那赫提出的基于DOM的Web主题信息提取系统的设计与实现[7]。
基于归纳的抽取技术是基于样本训练的模式,假设某网站具有信息公用模板,并且此模板下生成了大量的页面,然后对这些页面进行样本训练,寻找出网页的结构及文本特征的变化规律,从而获得页面之间相对稳定的相似结构特征,发生变化的只有文本特征。以此来归纳内网页的统一公用模板,并利用公用模板抽取出页面的信息。如石倩等人提出的基于规则归纳的信息抽取系统实现[8]。但基于归纳的抽取技术需要大量的相似页面作为训练的对象,不适应一些页面较少的网站。
2基于CSS视觉分块的Web碎片信息抽取算法
众所周知,HTML页面的编写具有很强的灵活性与随意性,不同的网页设计者可以按自己的方式设计页面,就导致了页面呈现出异构性,给信息的抽取带来了困难。但网页开发的目标是在浏览器上显示所设计的内容,把设计的视觉效果通过浏览器根据设计的CSS样式将其展现给用户,网页设计的目的给“人”看的,浏览器只是一种显示的手段。因此,在进行Web碎片信息抽取时,将CSS视觉分块引入信息抽取是必要的,因为CSS视觉分块是从“人”的角度出发的,不仅仅是浏览器。2003年微软亚洲研究院首先提出了将VIPS(aVision-basedPageSegmentationAlgorithm)[9]将视觉分块引入到了网页信息的分块之中,VIPS主要依靠计算分块的背景颜色、内容字体的大小及空白区域等视觉特征,根据HTML标签特征及相关规则计算Web页面的视觉分块。VIPS算法在某种程度上达到了Web页面视觉分块的要求,但算法本身所采用的启发式规则是基于HTML标签结构的。如果能将CSS视觉特征引入页面分块中,会更加符合网页设计的意图。
定义1CSS视觉块构成Web页面的基本单位,也是一个CSS盒子,如图1所示。其是一个矩形的视觉区域,由CSS盒子模型的高(height)、宽(width)、外边距(margin)、内边距(padding)、边框(border)及内容(content)构成。即:
CSS-V={height,width,margin,padding,border,content}
其中,content可以是CSS视觉块,也可以是文本内容,也可以为空。
定义2CSS页面视觉块BWeb页面本身就是一个CSS视觉块,由若干其他的CSS视觉块所构成。
定义3CSS普通文本视觉块T内容为文本信息的CSS视觉块。
定义4CSS链接文本视觉块A内容为文本信息且含有链接指向的CSS视觉块。
定义5空块N内容为空的CSS视觉块。
算法主要思想:对于Web碎片信息的抽取往往中关心上述几种视觉块信息,对于其他的块可以作为干扰噪声去掉。由此根据Web页面的DOM树(DocumentObjectModelTree),计算出CSS所有的CSS视觉块,去掉不属于{B,T,A}的视觉块,生成视觉块描述文件。如腾讯微博http:///xiangchengguan的视觉块描述文件如图2。常言道“物以类聚”,对于Web碎片信息所在块的识别,尽管信息较短,但它们是以“聚集”的方式出现的,所占用块的面积在整个页面视觉块中占有比率应不小于30%,同时它们的个数在整个页面中也是最多的。因此,需要对所有的CSS视觉块进行分类,分类采用统计的方法进行,即根据CSS-V中的height、width、margin、padding、border及content进行相似度计算,如果结果相同就可视为同一类CSS视觉块,如对图2所示的视觉块描述文件进行分类可得到表1所示的分类结果。
由表1可以计算出,视觉块个数最多为20,它占用的面积在整个页面中的比率最大,因此其必为Web碎片信息的视觉块。
抽取算法分为四步进行:
Step1计算出CSS所有的CSS视觉块;
Step2删除不属于{B,T,A}的视觉块,并生成描述视觉块的XML文件;
Step3统计分类结果,找出Web信息所在的CSS视觉块,并删除其他视觉块;
Step4对Web信息所在的CSS视觉块进行信息抽取,并将结果格式化后写入数据库。
3实验
为了验证算法的有效性,实验以随机选取的1000个Web碎片信息站点作为测试的数据集,分别对基于统计理论的抽取算法(Ext-ST)、基于DOM树的抽取算法(Ext-DOM)、基于归纳的抽取算法(Ext-I)与基于CSS视觉分块的Web碎片信息抽取算法(EXT-CSSV)进行对比测试。算法均采用C#语言实现,实现过程中通过微软的VisualStudio2008提供的WebBrowser控件调用IE内核,从而生成CSS视觉分块。实验中运行的硬件环境为Intel?Rentium?IIIXeonprocessor(2CPUS),2.6GHz。160G硬盘,内存为1GB。存储数据的数据库为Microsoftsqlserver2000,操作系统为MicrosoftWindowsXP。
实验中主要检测查准率与查全率两个指标。查准率为算法抽取到的Web碎片信息中准确的信息数与实际Web碎片信息数的比值。查全率为算法抽取的Web碎片信息数与应抽取的Web碎片信息数的比值。实验结果如表2所示。
为了进一步验证算法的效率,实验中分别采用随机选取500、1000、1500、2000、2500、3000、3500、4000、4500、5000个页面作为输入页面,各算法运行的对比结果以图3所示。
从表2可以看出,基于CSS视觉分块的Web碎片信息抽取算法的查准率为97.14%,查全率为96.87%,均比基于统计理论的抽取算法、基于DOM树的抽取算法及基于归纳的抽取算法要好。在时间效率上,从图3可以看出,随着输入页面数量的增多,基于CSS视觉分块的Web碎片信息抽取算法越占优势。
4结束语
从半结构化的Web页面中抽取出相关的Web碎片信息,可以作为相关研究工作获取数据的重要前提,可以为研究人员获取相关的Web碎片信息,例如对于Web舆论导向研究具有十分重要的意义。基于CSS视觉分块的Web碎片信息抽取算法从CSS视觉效果出发,不仅考虑到浏览器的因素,更重要的是考虑了网页设计的对象是“人”的因素,从用户所见的视觉效果的角度对Web页面进行分块,可以快速地寻找出碎片信息所在的块,方便了信息的抽取,在一定程序上提高了碎片信息抽取的准确性与效率。目前,基于CSS视觉分块的Web碎片信息抽取算法已经被用于贵州省优秀科技教育人才省长专项资金项目——基于信息碎片与移动网络的信息传播与舆论导向研究中,作为前期获取信息碎片的主要工具之一,并体现出了较强的实用价值。
参考文献:
[1]王贤.基于树结构的DeepWeb数据抽取研究[D].昆明,昆明理工大学,2007.
[2]詹沐清,朱颖.基于Web的信息抽取技术探讨[J].中国科技信息,2013(4):69-70.
[3]王贤.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22.
[4]GUPTAS,KAISERG.DOM-basedcontentextractionofHTMLdocuments[C]//Procofthe12thWorldWideWebConference.NewYork:ACMPresses,2003:207-214.
[5]李文,郑邦习,邓武.基于XML和DOM技术的Web信息抽取模型[J].大连交通大学学报.2013,34(3):96-99.
[6]刘军,张净.基于DOM的网页主题信息的抽取[J].计算机应用与软件,2010,27(5):188-190.
[7]那赫.基于DOM的Web主题信息提取系统的设计与实现[J].计算机与网络,2010(7):30-31.
[8]石倩,陈荣,鲁明羽.提出的基于规则归纳的信息抽取系统实现[J].计算机工程与应用,2008,44(21):166-170.
计算机视觉方法范文篇12
关键词:CG视觉艺术VR数字雕绘
“CG”为ComputerGraphics(计算机图形学)的英文缩写,是随着计算机的诞生而兴起的一门学科,是一种使用数学算法将二维或三维图形转化为计算机显示的栅格形式的科学。简单地说,计算机图形学的主要内容就是研究如何在计算机中表示图形,以及利用计算机进行图形的计算、处理和显示的相关原理与算法。在二十世纪五十年代中期,一批计算机专家为了了解电脑的潜力,开始将计算机图形学的知识运用到科学模拟和视觉艺术创作领域。到了八十年代,随着个人计算机的普及、相关艺术专业软件的开发、专业艺术家与计算机专家之间联系的加强,以交互式为特点的CG艺术开始崭露头角。时至今日,CG艺术已广泛应用于影视、娱乐、游戏、军事、建筑、网络等各行各业。
进入二十一世纪,CG在技术上已基本进入成熟期。目前,艺术家已可以利用CG技术来进行数字雕塑、数字绘画、自然笔触模拟、照片级渲染、非真实渲染等,利用CG来完成传统意义上的视觉艺术创作已成为完全可能。技术上的束缚对于CG艺术家来讲已不再是一个瓶颈。视觉艺术通常又被称为“美术”、“空间艺术”、“造型艺术”,它是一种广义的范畴,包括传统美术(诸如素描、绘画、版画、雕塑),传播和设计艺术(诸如电影、电视、图形制作、产品设计),建筑和环境艺术(诸如城市设计、内部和园林设计),民间艺术,以及诸如制陶、纤维编织、珠宝等艺术品和木制、纸制与其他材料的艺术制品。视觉艺术是用一定的物质材料,靼造直观形象的艺术,包括绘画、雕塑、建筑艺术、实用装饰艺术和工艺品等。
CG作为一种创作手段,已渗透到整个视觉艺术领域,几乎囊括了当今电脑时代中所有的视觉艺术创作活动,如平面印刷品的设计、网页设计、三维动画、影视特效、多媒体技术、以计算机辅助设计为主的建筑设计及工业造型设计等。从这一点来看,CG是视觉艺术的数字化表现形式。
CG作为一种新兴的视觉艺术表现手法,有着非常独特的特点。它的出现大大扩展视觉艺术创作的各种可能性,同时也发展出很多新的视觉艺术领域,对视觉艺术的发展产生了极其深远的影响。
CG对视觉艺术设计最直接的贡献就是新的造型语言及表达方式。计算机图像处理上的特点,使计算机创作的作品表现出新的风格。屏幕显示的方式,开辟了艺术设计表现的新领域。艺术设计过程不再是单向发展的,而是多向反复的。从作品的素材看,由于扫描仪及数码照相机的出现,设计师能更直接地输入真实的图像,通过二维或三维技术的辅助,模拟出逼真的虚幻世界,并从观念上改变了人对真实准则的认识。
如今,在用计算机模拟自然绘画笔触效果方面。软件技术已经有了很大的突破,计算机模拟绘画的技术为艺术家们提供了一个十分真实的绘画环境和更大范围发展的机遇。它包括更复杂的通用软件技术,用以模拟传统的工具:从油画、水彩、树胶水彩到铅笔、炭条和彩色粉笔、水墨,能够出色地获得传统绘画的效果。由于多种笔法效果能同时施用于一幅画面,这使艺术家可以有多种多样的尝试,尽情地表现其创意。同时,计算机笔触所特有的有序性、随机性、数学美感等特点。也为艺术家提供了更多的创意和创作可能。
在平面设计中,CG技术可以大大简化工作流程,并在作品中表现出丰富多样的感觉形式。例如:设计师用扫描、拍摄等多种手段将各种材质输入到计算机中,使之与图形或字体结合,就能将触觉肌理引入到视觉传达上产生生动的视觉形象。人们很早就在二维空间中模拟三维的效果,试图产生虚幻的空间感。CG技术将这种尝试的可能性扩展到了最大化,如通过形体的改变或形体间的重组,快速而有效地表达出画面的视觉深度;又如计算机模拟摄影、模糊形体及色彩的技法,能使图像发生改变,产生动感。之所以能产生空间感,是由于计算机图像对应的是一系列的数据。计算机在屏幕上缩放的优势,增强了精细设计的可能性,也使表现层次更多样化。观察物体时,视点如具有流动性,可以表现出物体各部分的细节,同时也能在不同的视点中对形体进行构筑和修改。另外,由于可以从现实不存在的角度来展现物体的整体或局部,这样就可以获得超乎寻常的夸张变形效果。计算机创造的形体更富于变化,复杂的空间曲面也能模拟表现出来。
三维作品也是美术和设计中一个主要的表现形式。计算机三维建模系统已成为令人信服和能力很强的新工具。在计算机的三维空间中,多个形体可以连接或打散,因此可创造出复杂的物体形象。相关联的部件可以设定成一组,在变化时保持空间关系不变,这样在分析研究对象时更具层次性和关联性。动画技术的引人可以让观者研究物体的运动状态,以及各部分之间的关系。通过CG三维技术,设计师可以将设计结果表现得更为生动和直观。
CG三维技术被广泛应用于工业设计、影视特效、动画、建筑预览表现等视觉设计领域。除此之外。CG技术还和其它计算机技术结合发展,派生出视觉艺术领域最为前沿的学科一虚拟现实。虚拟现实,英文名为VirtualReality,简称VR技术。这一名词是由美国VPL公司创建人拉尼尔(JaronLamer)在上世纪八十年代初提出的,也称灵境技术或人工环境。作为一项尖端科技,虚拟现实集成了计算机图形技术、计算机仿真技术、人工智能、传感技术、显示技术、网络并行处理等技术的最新发展成果,是一种由计算机生成的高技术模拟系统,它最早源于美国军方的作战模拟系统,九十年代初逐渐为各界所关注并且在商业领域得到了进一步的发展。这种技术的特点在于计算机产生一种人为虚拟的环境,这种虚拟的环境是通过计算机图形构成三维数字模型,并编制到计算机中去生成一个以视觉感受为主,也包括听觉、触觉的综合可感知的人工环境,从而使得在视觉上产生一种沉浸于这个环境的感觉,可以直接观察、操作、触摸、检测周围环境及事物的内在变化。并能与之发生“交互”作用,使人和计算机很好地“融为一体”,给人一种“身临其境”的感觉。
同时,cG技术自身的飞速发展,也拓展出很多以前没有的视觉艺术领域。比如:美术史上曾经不止一次地出现过针对“雕塑与绘画哪种形式更优越”这一问题的论战,其中最著名的就是文艺复兴时期达・芬奇与米开朗琪罗的论战,据说这两位在各自领域内无可争议的大师曾经针对这个问题唇枪舌剑了许多年,为了论战他们甚至完整透彻地研究了对方的艺术领域,最终他们两个人都成为绘画+雕塑的双料大师。CG发展到今天,同样在技术上再次印证了这两位大师论战的结论,目前的CG三维技术已经将绘画和雕塑完全整合到了一起,发展出数字雕绘这样的新兴视觉艺术。无数三维建模师和二维概念艺术家逐步参与到数字雕绘领域,成为这一领域的先驱。并且数字雕绘技术从产生之日起,就迅速渗透到各种传统视觉艺术中去,特别是在电影特效和次世代游戏创作中发挥着超凡卓群的作用。
综上所述,CG艺术作为一门新兴的艺术独立存在。但归根结底它属于视觉艺术的一个分支,是建立在视觉艺术这个大型构架上的组合体,是一种新型表现的手段。因此,它不会脱离视觉艺术而独立存在。CG技术成就了新的表现手段,并在不断发展中,这些表现手段对某些传统视觉艺术的表现手段具有颠覆性的意义。同时,这些新的表现手段还无限地扩大了艺术家的创作思路,改变着他们的思维方式。
参考文献:
[1]倪明田,吴良芝.计算机图形学.北京大学出版社.1999,(1).
年级写人的作文范例(整理5篇)
- 阅0年级写人的作文篇1我最熟悉的人当然是我的弟弟啦,我的弟弟是个瓜子脸,乌黑的眉毛下有一双水汪汪的大眼睛。他还有一张会说的嘴,如果你和他斗嘴,他肯定斗得你无话可说。我弟弟特.....
党员酒驾检讨书范例(精选3篇)
- 阅02020年党员酒驾检讨书范例篇1尊敬的交警同志:关于我酒后驾驶的行为,几天来,我认真反思,深刻自剖,为自己的行为感到了深深地愧疚和不安,在此,我谨向各位做出深刻检讨,并将我几天来的.....
计算机网络安全的技术范例(12篇)
- 阅0计算机网络安全的技术范文篇1关键词:网络安全;攻击;防御;解决方案一、网络安全概述计算机网络安全是指通过采用各种技术和管理措施,使网络系统正常运行,从而确保在一个网络环境里.....
语文的教学素养范例(12篇)
- 阅0语文的教学素养范文篇1关键词小学语文素养语文素养是一种以语文能力为核心的综合素养。一个人的语文素养至少包括他的语文能力、语言积累、语文知识、学习方法和习惯以及认.....
幼儿园教职工培训计划范文(精选5篇)
- 阅1幼儿园教职工培训计划篇1一、培训目标和培训重点坚持以师德建设为中心,以促进教师专业发展为目标,以《指南》....