- 0-课程简介
- 1-Python与Opencv配置安装
- 2-Notebook与IDE环境
- 1-计算机眼中的图像
- 2-视频的读取与处理
- 3-ROI区域
- 4-边界填充
- 5-数值计算
- 1-腐蚀操作
- 2-膨胀操作
- 3-开运算与闭运算
- 4-梯度计算
- 5-礼帽与黑帽
- 1-Sobel算子
- 2-梯度计算方法
- 3-scharr与lapkacian算子
- 1-图像平滑处理
- 2-高斯与中值滤波
- 3-图像阈值
- 1-Canny边缘检测流程
- 2-非极大值抑制
- 3-边缘检测效果
- 1-轮廓检测方法
- 1-模板匹配方法
- 1-图像金字塔定义
- 2-金字塔制作方法
- 2-轮廓检测结果
- 2-匹配效果展示
- 3-轮廓特征与近似
- 1-总体流程与方法讲解
- 2-环境配置与预处理
- 3-模板处理方法
- 4-输入数据处理方法
- 5-模板匹配得出识别结果
- 1-整体流程演示
- 2-文档轮廓提取
- 3-原始与变换坐标计算
- 4-透视变换结果
- 5-tesseract-ocr安装配置
- 6-文档扫描识别效果
- 1-深度学习要解决的问题
- 2-深度学习应用领域
- 3-计算机视觉任务
- 4-视觉任务中遇到的问题
- 5-得分函数
- 6-损失函数的作用
- 7-前向传播整体流程
- 4-返向传播计算方法
- 5-神经网络整体架构
- 6-神经网络架构细节
- 7-神经元个数对结果的影响
- 8-正则化与激活函数
- 9-神经网络过拟合解决方法
- 1-PyTorch实战课程简介
- 2-PyTorch框架发展趋势简介
- 3-框架安装方法(CPU与GPU版本)
- 4-PyTorch基本操作简介
- 5-自动求导机制
- 6-线性回归DEMO-数据与参数配置
- 7-线性回归DEMO-训练回归模型
- 8-常见tensor格式
- 9-Hub模块简介
- 1-气温数据集与任务介绍
- 2-按建模顺序构建完成网络架构
- 3-简化代码训练网络模型
- 4-分类任务概述
- 5-构建分类网络模型
- 6-DataSet模块介绍与应用方法
- 1-卷积神经网络应用领域
- 2-卷积的作用
- 3-卷积特征值计算方法
- 4-得到特征图表示
- 5-步长与卷积核大小对结果的影响
- 6-边缘填充方法
- 7-特征图尺寸计算与参数共享
- 8-池化层的作用
- 9-整体网络架构
- 10-VGG网络架构
- 11-残差网络Resnet
- 12-感受野的作用
- 0-1-卷积网络参数定义
- 0-2-网络流程解读
- 1-Vision模块功能解读
- 2-分类任务数据集定义与配置
- 3-图像增强的作用
- 4-数据预处理与数据增强模块
- 5-Batch数据制作
- 1-迁移学习的目标
- 2-迁移学习策略
- 3-加载训练好的网络模型
- 4-优化器模块配置
- 5-实现训练模块
- 6-训练结果与模型保存
- 7-加载模型对测试数据进行预测
- 8-额外补充-Resnet论文解读
- 9-额外补充-Resnet网络架构解读
计算机视觉顾名思义就是让计算机或者其他电子设备具有类似人类的视觉系统,可以通过采集的图片或视频进行处理,从而获得场景或事物的三维信息,并进行识别判断。
人脸识别、手势解锁、以图搜图、无人驾驶、AI医疗……以计算机视觉为代表的人工智能在各行各业大放异彩,在很多领域都取得了超过人类专家的水平。达尔闻项目实战系列第4季由TE独家冠名——
什么是计算机视觉?
Computer Vision是一个工作场所,可让我们以数字方式检测图像并对这些图像执行操作。Computer Vision是一个人工智能工作区,在这里我们可以通过访问数字媒体中的图像特征来收集信息并提取特征。在其他来源中,其定义如下:
维基百科:
计算机视觉是一门跨学科的科学领域,涉及计算机如何从数字图像或视频中获得高级了解。从工程学的角度来看,它试图理解和自动化人类视觉系统可以完成的任务。
IBM:
计算机视觉是人工智能(AI)的领域,它使计算机和系统能够从数字图像,视频和其他视觉输入中获取有意义的信息,并根据该信息采取行动或提出建议。如果AI使计算机能够思考,则计算机视觉使他们能够看到,观察和理解。
计算机视觉的主要目的是理解图像并解释它们以供我们使用。作为人类,我们可以用眼睛轻松感知任何街道上的移动物体。计算机使用许多不同的算法来理解这一点。但是,使用这些算法,计算机可能仍无法给出非常高精度的结果。
资源:https : //manningbooks.medium.com/how-does-computer-vision-work-bc35b0fb5df5
计算机视觉如何工作?
计算机使用某些算法来检测数字媒体中的图像。数字媒体中的图像由像素组成。任何图像中的像素都具有颜色和坐标。
想象一下,每个像素都有自己的标识。在其ID上,它写入坐标和颜色信息。这是计算机可以检测和识别图像的方式。
像素的坐标和颜色信息用数字表示。数字是根据RGB格式定义的。由于图像身份中的此信息是用数字表示的,因此计算机可以理解这一点。
每个图像可以包含数千个像素。这些像素也作为矩阵保留在图像上。因此,如果我们要在视觉上进行操作,则需要通过矩阵进行操作。
计算机视觉分为三个基本步骤:
1.获取图像
可以通过视频,照片或3D技术实时获取甚至大集合的图像进行分析。
2.处理图像
深度学习模型会自动执行此过程的大部分过程,但是通常会先向模型提供数千张标记或预先识别的图像,然后对模型进行训练。
3.了解图像
最后一步是解释性步骤,在此步骤中对对象进行识别或分类。
资源:https://www.weareworldquant.com/en/thought-leadership/understanding-images-computer-vision-in-flux/
计算机视觉的应用
最受欢迎的计算机视觉应用程序的示例:
癌症检测
COVID-19诊断
口罩检测
车辆分类
交通流量分析
停车占用检测
自动车牌识别
客户追踪
人数盘点
社会距离
球追踪
球门线技术
什么是OpenCV?
OpenCV,即开源计算机视觉库。可以理解,它是一个开放源代码的计算机视觉库。如今,它在图像处理领域非常流行。你可以使用Java,C ++或Python语言在OpenCV上工作。
通过使用OpenCV,人们可以处理图像和视频以识别对象,面部,甚至是人的笔迹。当它与各种库(例如Numpy)集成时,python能够处理OpenCV数组结构以进行分析。
为了识别图像模式及其各种特征,我们使用向量空间并对这些特征执行数学运算。
OpenCV的简史
OpenCV由加里·布拉德斯基(Gary Bradsky)于1999年在英特尔创立,第一版于2000年问世。瓦迪姆·皮萨列夫斯基(Vadim Pisarevsky)与加里·布拉德斯基(Gary Bradsky)一起管理英特尔的俄罗斯软件OpenCV团队。
2005年,OpenCV用于Stanley,该车赢得了2005年DARPA大挑战赛的冠军。后来,在Willow Garage的支持下,它的发展得以继续,Gary Bradsky和Vadim Pisarevsky领导了该项目。OpenCV现在支持与计算机视觉和机器学习有关的多种算法,并且正在日益扩展。
OpenCV支持多种编程语言,例如C ++,Python,Java等,并且可在包括Windows,Linux,OS X,Android和iOS在内的不同平台上使用。基于CUDA和OpenCL的高速GPU操作的接口也正在积极开发中。
OpenCV-Python是用于OpenCV的Python API,结合了OpenCV C ++ API的最佳质量和Python语言。
OpenCV快速入门
在讨论了计算机视觉和OpenCV之后,我想向你展示我们可以使用一些简单的应用程序来做些什么。这样,你既可以练习得更好,又可以进入学习过程。
读取图像
首先,我们将使用OpenCV进行读取图像并将其显示在屏幕上的过程。如果在使用Python的IDE中未安装OpenCV,则必须先安装它。
pip install opencv-python
安装之后,首先,你必须导入库。你可以将OpenCV库称为cv2。
你需要将要读取的图像保存到对象中。
你可以使用cv2.imread( )函数读取图像。此函数将获取图像的文件的路径作为参数。由于我的python工作文件与位于同一文件夹中,因此我直接输入的名称。这里要注意的一点是编写视觉效果的扩展。别忘了这个。
当我们运行代码时,我们给该窗口命名,因为它将在可视窗口中打开。我们使用cv2.namedWindow( ).函数执行此操作。该函数将窗口的名称作为其第一个参数。实际上,这就足够了。但是由于我希望能够更改打开的窗口的大小,因此我添加了参数cv2.WINDOW_NORMAL.
代码运行时,函数cv2.imshow( )用于在屏幕上显示当前图像。它有两个参数。第一个是我们将要显示的视觉效果的名称,第二个是它在其中注册的对象。在这里,我将图像保存为img。因此,我将img用作第二个参数。
最后,我编写该函数cv2.waitKey(0)是因为希望在打开的可视屏幕上随时关闭它。此函数以毫秒为单位获取数字值。当我们在此处写入0时,表示我们可以随时关闭窗口。
另外,养成添加函数cv2.destroyAllWindows().的习惯。当我们执行高级项目时,我们会忘记关闭许多在屏幕上打开的窗口。此函数可避免这种情况。
你可以在下面找到所有代码。
import cv2
img = cv2.imread("klon.jpg")
cv2.namedWindow("Image",cv2.WINDOW_NORMAL)
cv2.imshow("Image", img)
cv2.waitKey(0)
cv2.destroyAllWindows()
从网络摄像头读取视频
现在,让我们检查一下如何从计算机摄像机读取视频。
首先,我们导入OpenCV库。
然后,我们将从计算机摄像机拍摄的图像写在一个物体上。我将此对象设置为捕获。我们使用cv2.VideoCapture(0)函数从计算机摄像头捕获视频。此处的值0用于访问连接到计算机的相机。
如果你有摄像机,则可以将其设为0。如果你有更多摄像机,则可以尝试1,2 ..访问相应的摄像机。
如你所知,视频由帧组成。为了查看我们在视频中捕获的图像,我们必须将它们循环打印在屏幕上。因此,我们进行了定义,将读取捕获的图像,然后将该图像返回给我们。
ret, frame = capture.read()
然后我们进行调整。要在镜中看到自己看到的捕获图像,我们需要将它们反转为y轴。这就是为什么我们在frame = cv2.flip(frame, 1).此处编写代码的原因,当我们在帧后输入参数为1时,它给出了y轴图像的倒数。
然后,我们编写代码cv2.imshow("Webcam", frame)以显示从相机拍摄的帧。
然后,我们确定捕获的图像将在屏幕上保留几毫秒。除此之外,当我们按下键盘上的q键时,我们将编写以下代码以停止接收图像。
cv2.imshow("Webcam", frame)
if cv2.waitKey(30) & 0xFF == ord("q"):
break
在此,0xFF == ord("q")是指按键盘上的q键。
最后,在处理完视频之后,完成后,我们需要编写一些代码来发布图像。如下。
capture.release()
你可以在下面找到所有代码。
import cv2
capture = cv2.VideoCapture(0)
while True:
ret, frame = capture.read()
frame = cv2.flip(frame, 1)
cv2.imshow("Webcam", frame)
if cv2.waitKey(30) & 0xFF == ord("q"):
break
capture.release()
cv2.destroyAllWindows()
长宽比应用
现在,我将向你展示一个长宽比应用程序。在某些情况下,我们可能不知道图像的尺寸。在这种情况下,可以通过避免手动计算来使用此类应用程序来实现此目的的自动化。
我们定义了一个名为resizewithAspectRatio的函数。我们为此函数设置了4个参数。这些是:
为其保留图像的变量的名称
宽度
高度
并具有避免在调整大小时插值的功能
让我们继续执行要应用的步骤。
首先,我们定义一个维变量,其预定义为空。然后,将原始尺寸中图像的前两个尺寸分别作为高度和宽度的h和w保存到一个元组中。
如果未指定宽度和高度,则我们希望图像返回其原始状态。
如果未指定宽度,我们希望执行以下操作。