植物百科网
当前位置: 首页 农业百科

人工智能计算机视觉方向是什么(计算机视觉的这6个概念)

时间:2023-07-05 作者: 小编 阅读量: 2 栏目名: 农业百科

物体检测是发现目标并确定其位置。在今年的4月份,商汤科技就宣布完成了6亿美元的C轮的融资,再次创下了人工智能单轮融资的记录。第四点是不同场景存在干扰和遮挡。人脸认证和人脸检索的核心均为人脸相似度的判决。通过这些步骤不难看出,人脸识别技术是模仿人类识别人脸的过程,用计算机比较人脸图像的相似性。如果从公开测试集的效果来看人脸识别技术已经逐步接近甚至是超过人眼的水平。

对于人类而言,最重要的两种感官应该就是视觉和听觉了。而在人工智能的发展中,如何让机器“看懂”和“听懂”信息,也一直是研究人员们的重点工作方向。

这一期,我就来为同学们讲述一下计算机视觉方面的重点知识。

5大常规任务

计算机视觉是研究如何让机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉。

计算机视觉中有5项常见任务,分别是图像分割、物体检测、物体识别、图像描述、语义推理

图像分割是将图像分解成若干特定、具有独特性质的目标区域。例如用户输入左边这张照片,机器会对其做一些场景语义分割,将照片中的人和摩托车区分开来。

物体检测是发现目标并确定其位置。其最常见的任务有三类:这张图片中是否有XX?XX的数量是多少?XX的位置在哪里?

物体识别是在物体检测的基础上,不仅找到物体在哪里,还能确认它是什么。物体识别通常由两类常规任务构成:第一类任务是相似检索问题,比如搜索引擎中的相同或相似图像的搜索功能;第二类任务是相似比对问题。

图像描述即“看图说话”,由机器来描述照片中的内容。

语义推理是五项任务中最难的一项,即挖掘图像或视频内容背后更深远的故事。以上图为例,机器根据“鞋子里的小猫”这张图像进行背后故事挖掘,猜想小猫是因为好奇所以钻进鞋子玩耍。

计算机视觉的应用领域

计算机视觉在现实中的应用非常广泛。可以说,机器不仅能帮助人完成许多需要“看”的工作,还能“看见”更多人眼无法辨别的东西。例如以下几种应用:

指纹及其它生物特征识别

通过计算机利用人体所固有的生理特征(指纹、虹膜、面相、DNA等)或行为特征来进行个人身份鉴定的技术。比如科幻片中经常看到的指纹和虹膜识别,就都是运用了计算机视觉技术。

人脸检测识别

在往期的AI大学课程中,班主任有跟大家讲解过人脸识别的详细知识点哦(戳这里回顾)

视频监控和安防分析

如住宅区分布的智能视频监控系统、银行安防系统等,能够有效地监控、分析现场情况。

医学生物图像检测分析

X线图像、多排螺旋CT等可获取人体内部的二维、三维医学图像,大大提高了诊断准确性和效率。

除了以上四类应用,计算机视觉在拍照翻译和图像搜索方面也被广泛使用。例如讯飞翻译2.0就可以通过拍照来识别出文字,同时实现翻译。

还有文档分析识别、VR虚拟现实、辅助驾驶领域等等,都是计算机视觉领域的热点。

近两年有大量的资本涌入计算机识别领域,比如商汤科技已经融资33亿,旷视科技也融了31亿。在今年的4月份,商汤科技就宣布完成了6亿美元的C轮的融资,再次创下了人工智能单轮融资的记录。

由此可见,计算机视觉技术应用的发展前景是十分可观的。

计算机视觉技术的难点与挑战

尽管能力强大且应用广泛,计算机视觉技术仍然有许多难点尚未找到合适的解决方法,因此可以说是机遇与挑战并存。

计算机视觉技术的第一大难点是多变和非均匀的光照场景,例如一些逆光的场景。第二个是成像质量差异,比如说不同清晰度的相机拍出来的照片质量不同。第三个是复杂易混淆的背景,比如说雪地里的一只白猫。第四点是不同场景存在干扰和遮挡

此外还有一些难点,包括失焦透视变形等等。

卷积神经网络处理图像的过程

图像识别最常用的就是卷积神经网络,而卷积神经网络主要是模拟人的视觉神经系统提出来的。

以CNN做人脸识别任务为例,先得到一些像素信息,再往上层得到一些边界信息,然后再往上提取就是一些人脸的部件信息,包括眼睛、耳朵、眉毛嘴巴等,最后是人脸识别,这整个过程和人的视觉神经系统是非常相似的。

卷积神经网络的结构依旧包括输入层、隐藏层和输出层,其中卷积神经网络的隐含层包含卷积层、池化层全联接层3类常见构筑,接下来我们着重讲解下卷积和池化的相关知识点。

卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,一个卷积核覆盖的原始图像的范围叫做感受野(权值共享)。

一次卷积运算(哪怕是多个卷积核)提取的特征往往是局部的,难以提取出比较全局的特征,因此需要在一层卷积基础上继续做卷积计算,这就是多层卷积。

在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。

通过这种池化的操作,能够一定程度上克服图像的一些旋转和局部的细微变化,从而使得特征的表达更加稳定。

人脸识别

人脸识别技术是计算机视觉的一个典型应用,接下来我们就来讲解一下人脸识别中的相关知识点。

人脸识别的分类

人脸识别大体上分为静态人脸识别动态人脸识别,它们的难度是不同的。静态的人脸识别,人是非常配合的,难度小很多,比如身份证的录入、银行办理业务时的人脸验证。

而动态的人脸识别会由于人脸距离摄像头的距离等因素,配合度较低,需要准确捕捉到运动的人脸,难度就比较大了。

人脸识别技术

人脸识别技术中有两项常见任务:判断图像或视频中出现的人是不是同一人,即人脸认证;判断这个人到底是谁,即人脸检索。人脸认证和人脸检索的核心均为人脸相似度的判决。

机器在判断两张图片中人脸的相似度时一般有以下4步:人脸检测---预处理---特征提取---特征对比。通过这些步骤不难看出,人脸识别技术是模仿人类识别人脸的过程,用计算机比较人脸图像的相似性。

看到这里可能有些同学要问:既然是比较相似性,那我们该如何评价人脸识别的效果呢?

说到人脸识别的效果,就不得不提到人脸识别的公开测试集。目前在国际上比较有名的人脸识别公开测试集一个是LFW公开集,此公开集中6000个图像对,最高准确率已经达到99.83%,超过了人眼的水平;另一个公开集是华盛顿大学发布的MegaFace公开集。

如果从公开测试集的效果来看人脸识别技术已经逐步接近甚至是超过人眼的水平。

人脸识别效果的影响因素

虽然在公开集中人脸识别取得了很高的准确率,甚至在某些特定情况的准确率已经超过了人眼识别,但在实际应用过程中会存在很多影响因素,一类是外因,一类是内因。

外因的影响因素主要有光线影响,比如说极端的光线或者人脸光照分布不均等,除了光线以外摄像头分辨率也是一个很大的影响因素,拍摄角度不好或者离拍摄人物很远的时候,会导致机器识别不出人脸。

内因则包括人脸部的遮挡——墨镜、刘海、口罩等;还有些拍照角度以及脸部纹理变化也会影响人脸识别的效果。

图文识别

图文识别是计算机视觉的另一个典型应用。

图文识别的分类

图文识别的基本概念就是根据已有的文字把它识别出来。它主要有两个分类,第一个是OCR光学字符识别,即对已有的文字把它把它识别出来;另外一个就是在线手写识别,像大家熟悉的讯飞输入法里的手写输入,相比于OCR识别来说,手写识别包含了更多的笔划信息。

OCR识别

手写识别的演进过程

以讯飞的图文识别技术为例,大概经过了这4个演讲过程:

手写输入法

输入法中运用的单个字的识别技术。

手写图文

对于手写的中英文字、词、句子的识别。

行业文档识别

例如发票以及快递号的识别。

通用文字识别

这是现在我们要做的,就是随机拍个照片,就能对里面的文字进行识别了。

图文识别现在广泛运用于试卷评阅中。我们先让机器把手写的文字识别成机器能够看懂的格式,然后下面就可以做作文的评阅等相关工作了,现在,数学公式也能读出来了。最终,我们想要达到的目标是“Read anything”

    推荐阅读
  • 空气含量中最多的气体(空气含量中最多的气体介绍)

    空气中含量最多的气体是氮气,氮气约占空气体积分数的百分比约为78%。通过实验测定,空气的成分按体积计算,氮气大约占78%、氧气占21%、稀有气体0.94%、二氧化碳0.03%、其他气体和杂质0.03%,也就是说空气中含量最多的物质是氮气。氮气化学性质很不活泼,在高温高压及催化剂条件下才能和氢气反应生成氨气;在放电的情况下才能和氧气化合生成一氧化氮;即使Ca、Mg、Sr和Ba等活泼金属也只有在加热的情形下才能与其反应。

  • 文思豆腐羹如何做好吃(文思豆腐羹用什么豆腐)

    文思豆腐是一道有名的淮扬菜,需要的就是精湛的刀工,这样做出的文思豆腐会有嫩滑的口感,打造入口即化的口感。文思豆腐羹如何做好吃文思豆腐羹材料和做法步骤一、文思豆腐羹材料准备好豆腐400克,鸡脯肉,火腿还有香菇,再有准备好生菜,冬笋,调料需要准备盐和味精。

  • 结构性存款可以买理财吗(结构性存款是存款吗)

    雪球产品就是今年年初监管向信托公司进行窗口指导,要求叫停的产品。简单的说,这是一种高风险的金融衍生品,它通过持有一定结构的金融衍生品,来实现在某一特定情况下获利。这样的投资结构就能保证我不论涨,还是跌,只要在一定幅度内都可以盈利。交易期权等金融衍生品,是非常高风险的投资。

  • 正言厉色意思(正言厉色的意思)

    下面内容希望能帮助到你,我们来一起看看吧!正言厉色意思正言厉色,汉语成语,拼音是zhènɡyánlìsè,意思是形容板着脸,神情非常严厉。出自《汉书·王莽传》。宝玉突然想出一个主意,一本正经地给她讲扬州黛山林子洞耗子精偷香芋的故事,黛玉见他正言厉色,以为真有其事,后来才发现原来是在取笑她。

  • 面谈调薪酬有什么技巧(跟老板谈调薪的技巧有哪些)

    如果你在老板心目中分量很大,一般老板都会给你加薪的。和老板谈加薪时目的一定要明确,让老板知道你只是为了加薪,而不是辞职走人。和老板谈加薪后,一定要给老板一个考虑的时间,不要咄咄逼人,逼着老板加薪。老板也要有足够的思考时间,来考虑你是否值得加薪,给你加薪后对公司有没有什么影响。不仅口头上要表示感谢,工作中要更加努力,让老板觉得给你加薪是值得的。

  • 杏花有没有香味(杏花闻起来会特别香吗)

    杏树是中国著名的观赏树木,可配植于庭前、墙隅、道路旁、水边,也可群植、片植于山坡、水畔,是春季主要的观赏树种。杏花直径2至3厘米,先于叶开放。花梗短,长1至3毫米,被短柔毛。花萼紫绿色,萼筒圆筒形,外面基部被短柔毛。萼片卵形至卵状长圆形,先端急尖或圆钝,花后反折。花瓣圆形至倒卵形,白色或带红色,具短爪。

  • 减肥减肚子的方法(怎么减肚子呢)

    减肥减肚子的方法食用健康食品:酸奶与发酵的牛奶能激活消化必须的物质,有助于改善肠道微生物系统,从而防止腹部隆起。走路、喝水、按摩:走路及喝水有利腹部扁平。

  • 新坑翡翠手镯多少钱(新坑翡翠手镯的价格)

    新坑翡翠手镯多少钱?新坑翡翠手镯多少钱翡翠手镯作为大件翡翠制品,用料特别多,只有大块、质量好的翡翠原石才能打造成手镯,因此翡翠手镯的价格都比较高,商家们拿到质量比较好的原石也尽可能打造成手镯。具体到新坑种翡翠,因为大多数新坑种翡翠透明度都不高,质地也不够细腻,因此种水一般都是以糯种或豆种为主,极少出现冰种或冰种以上的种水,这样的翡翠价格价格自然不会太高,一个品质比较好的糯种翡翠手镯大概在十万以内。

  • 宁波毛蚶做法水煮几分钟(毛蚶煮多长时间可以吃)

    宁波毛蚶做法水煮几分钟毛蚬是很多人喜欢吃的食物,不过建议大家在做之前都要先用开水煮以下。强精益气,提高精液质量,增强精子活力。适用于治疗肾阳虚所致的阳痿、腰痛、小便频数及补五脏之气不足。可治疗全身水肿,小便不利等。能软化和保护血管,有降低人体中血脂和胆固醇的作用。

  • 2022洛阳湿地公园最新名单 洛阳生态公园最新消息

    国家级湿地自然保护区河南黄河湿地国家级自然保护区,面积24000公顷。国家级湿地公园嵩县陆浑湖国家湿地公园,面积4222.39公顷伊川伊河国家湿地公园,面积1384.36公顷。