在 Create ML 中训练对象检测模型

自定的 Core ML 对象检测模型让您有机会为自己的 app 增添一些神奇的功能。了解 Xcode 中的 Create ML app 如何让训练和评估这些模型变得简单。看看您可以如何利用连续互通相机直接在 app 中测试模型性能。为 Core ML 构建和部署出色的对象检测模型变得从未如此简单。

资源

相关视频

上午好

我是 Alex Brown 是 Core ML 团队的一名工程师

今天我们要展示用于物体检测的 Create ML 在机器学习的新功能这一会议中我们向你们介绍了全新的 Create ML App

这是一种非常亲善好用的工具可以帮助你在 App 中添加自定义机器学习模型

本会议中我们会更深入地介绍两个专门的模板分别是针对图像的物体检测和声音分类我们先来看物体检测

物体检测可以让你的 App 识别设备相机拍摄的真实物体并根据它们是否出现在何位置有何关系作出反应你可以在网上下载能够分辨物体所属大类的物体检测器

但如果使用你自己的数据训练自定机器学习模型你就可以让你的 App 分辨不同物体间的细微差别例如动物手势路标游戏符号等等如果你曾经使用过 Apple 的机器学习你对图像分类就应该比较熟悉了

你可以使用图像分类建立模型为一幅图像提供简短描述

我们可以将这幅图像描述为户外或公园或者对特定 App 而言描述为“一条狗”

但要是我们想要获取场景中两个或以上的物体呢？这种情况下物体检测就能派上用场它可以检测出照片里两个或以上的物体并提供位置大小等信息还能给每个物体添加标签这样一来你的 App 就可以运用设备用摄像头做更复杂的事但为此我们要详细了解如何用图像训练你的模型

要训练物体检测器你需要在图像上标记出希望模型检测的区域标记物体用的选框起始点位于希望标记物体的中心并且有其大小高度和宽度单位均为像素定位取图像左上角为原点定位点是希望标记的物体中心你将所有的标注标签位置和大小打包在一个 JSON 文件中格式如下你可以从网页下载工具帮助实现但要确保这些工具的坐标系统与 Create ML

App 的相一致完成标注图像后将文件拖拽到被标注图像所在的文件夹就好了

你的训练数据就准备就绪了现在我们知道如何展示用于物体检测的训练数据我们来看一个实例

我的同事 Scott 有一个不错的想法制作一款面向儿童的数学游戏并使用真正的骰子生成问题

你们可以在 228 号会议中了解更多会议名为使用 Core ML 和 ARKit 创建超棒的 App Scott 找我帮忙给他的游戏构建一个模型我提议用 Apple 的 Create ML App 来训练一个物体检测器 Scott 早就把训练数据发给我了

他找了一堆图像是角度不同顶部点数不同的骰子的图像他标注了这些图像在顶面画了选框并且添加了标签标注了每个骰子上面的点数大小现在数据就准备就绪了我们来看看如何使用 Create ML App 来构建模型

首先我们来检查数据

可以看到我们把所有图像放在一个文件夹里每张图像包含多个骰子

我们把所有标注都放在一个 JSON 文件里

现在我来打开 Create ML App 我可以从 Xcode 的菜单打开也可以使用聚焦

Create ML App 打开后就可以选择打开之前创建的文档我们来创建一个新项目首先可以看到模板选择器可以从一系列机器学习模型中选择这个案例中我们选图像物体检测器

我来给它命名这样之后就能把它区分出来再添加一些细节

现在可以看到主窗口训练视图位于右侧它已经选择了一个训练标签页准备接收我们的训练数据我也可以将它直接拖入训练数据区在训练数据之前 App 便会检查数据确保其格式正确包含图像而非声音等其他类型的文件且饱含一个 JSON 文件能正确描述图像文件它同时还提供了一些初始数据可以看到我们大概有 1,000 幅图像并且有六个类对应骰子的六个面非常好

我们还可以在这个界面上做些其他的例如我们可以提供测试数据从而比较不同模型的表现同时我们也可以设置高级参数调整模型训练的方式但现在这些还不需要担心我们已经可以开始训练了

我们按下开始按钮看看会发生什么

训练开始了我们直接就会来到训练标签页这里可以看到模型训练的进度这是展示损失的图表随着模型不断优化损失也越来越少所以这条线最后应当到达图表底部物体检测训练所需时间比图像分类要长得多我估计这可能要花上至少一个小时我们不想这么干等所以我已经用这组数据训练好了一个模型

好了现在我可以跳转到之前看到的训练标签页

可以看到损失已经显著减少了表明模型的性能随着训练时间增加而不断改善

这个界面上还有其他东西我认为值得大家仔细一看首先是总体性能 92% 这个数字对于物体检测器来说相当不错

我们还想确认一下是否对所有类性能水平都较为一致

从 1 到 6 的每个类性能都超过 90% 并且值都大致相等这很重要因为这表明模型处理骰子六个面时性能一样好对骰子游戏来说公平性很重要这一点也至关重要所以数学上来讲这个模型性能不错但我们又该如何相信它适用于我们的实例呢我们可以使用输出标签页

Scott 发给我一张测试图像让我在把模型发回给他之前先测试一下我们把这张图拖进来

看起来还不错可以看到场景中的五枚骰子都被识别了模型正确地在骰子的顶面画出了方框依次点击 6 1 5 我们可以看到每个标签置信度较高

性能很不错所以如果我要编写自己的 App 的话我就可以直接将生成的模型拖入在 Xcode 中使用我觉得 Scott 可能也在等着把这个模型用到他的 App 里

但在此之前我还想再试一件事

在我准备此次演示鼓弄骰子照相机和电脑的时候我九岁的儿子过来问我在干什么

我解释之后他非常兴奋并且想出了一个游戏里面有熊蝙蝠和其他动物它们共同合作收集螺栓造一艘太空船要用不同颜色的骰子升级不同种类的怪物

我们拿到了他的骰子并决定试一下 Scott 的模型他用的骰子有一点不同这些是角色扮演类游戏用的骰子我们来看看模型的性能到底如何使用 Mac 的连续互通相机功能我可以直接从 iPhone 导入照片这一点很棒因为这意味着我使用的屏幕和相机与你的 App 使用的一样

我来拍摄一张照片选择使用照片照片马上就被分析了我们来看一下到底发生了什么模型正确识别了两枚带点数的六面骰子并且附上了正确的标签模型忽视了照片中大多数的骰子除了那边的几枚

模型识别出的它们的点数也是错误的为什么会这样问题在于预期的不同 Scott 知道要使用的都是白色六面骰子用点数标明数字我儿子对骰子的理解有点不同这些骰子都是彩色的它们不只有六个面该如何在我们的 App 中解决这个问题呢

我们可以继续使用课堂上玩这个游戏可能会用到的骰子或者我们可以用这些骰子训练这个模型有两种方法可以实现这一点我们可以决定只有六面带点骰子有效而排除其他骰子这样的话我们只需要拍摄包括两种骰子的照片只标记六面骰子就好或者如果我们要编写先前说到的游戏我们就要把其他类型的骰子加入模型将它们一并标记可以只标记数字或者添加额外标记记录颜色红 6 黑 4 等等

我们把这个模型发给 Scott 他就可以编写演示 App 了我可以使用分享按钮直接用邮件发送模型

这样就行了

我们看到你可以使用 Create ML App 基于你收集的训练数据训练物体检测器有一些事情希望大家在收集训练数据时予以考虑首先每个类带有标注的图片数量应该均衡

这样算法就知道每一个类都同等重要我们构建的模型才能对所有类有均衡的表现

其次你需要很多图片我建议每个类中你希望模型识别的带标注的图片至少为 30 张如果性能不够好或者识别对象特别复杂就进一步增加数量比如对象不同面的外观不一样

我们之前遇到的骰子颜色不同的问题怎么解决图像中的区别不止这一种

我们建议你考虑你的 App 在现实中是如何运用的你的用户可能不会有工作室光照标准骰子也没有一张精美的木质书桌

你或许可以找朋友在不同情境下收集额外数据例如室内灯光室外自然光不同的背景还可以添加一些你的模型用不到的物体这可以帮助模型适应普遍情况

如果你之前用过物体分类器有一件事情你可能意想不到那就是一个标签足矣

这是因为既然你将图片的一部分解释为狗也就意味着其余部分不是模型也会照此训练

所以比方说你要编写一款 App 用它识别你冰箱里泡菜罐的数量你就不需要把其他调味品都标记出来模型自动就能归纳出那些不是咸菜罐

模型构建完成后你如果想把这一功能加入你的 App 我们建议你使用 Vision 框架 Vision 框架能够将实时相机和视频无缝整合进你的模型工作流

这就是训练物体检测器需要知道的事项

[掌声]

在 Create ML 中训练对象检测模型

资源

相关视频

Tech Talks

WWDC20

WWDC19