探索 Apple 平台上的机器学习和 AI 框架

返回 WWDC25

探索 Apple 平台上的机器学习和 AI 框架

浏览 Apple 平台上机器学习和 AI 框架的最新更新。无论你是准备利用 Apple 智能功能的 App 开发者、希望为设备端部署优化模型的 ML 工程师，还是想要探索无限可能的 AI 爱好者，我们都会提供应你所需的指导，帮你选择适合自己的工具。

章节
- 0:00 - Introduction
- 1:18 - Platform intelligence
- 8:20 - ML-powered APIs
- 11:15 - ML models
- 14:54 - Exploration
资源
大家好我叫 Jaimin Upadhyay 是 Apple 的工程经理来自 On-Device Machine Learning 团队今天我想谈谈如何在 App 和个人项目中利用 Apple 智能功能和机器学习技术无论你是准备通过 UI 组件或直接在代码中利用 Apple 智能功能的 App 开发者、希望为设备端部署转换和优化模型的 ML 工程师还是想要探索 Mac 无限可能的 AI 爱好者我们都为你提供了合适的工具我将简要介绍这些工具重点讲解新增功能并在这个过程中为你提供一些可用的资源首先我们会简要了解操作系统内置的智能功能以及这些功能与 App 之间关系然后我们将探索如何通过系统框架以编程方式运用智能功能接下来我们还将讨论 Apple 工具和 API 如何帮助你优化和部署任意机器学习模型以实现设备端执行最后我们会探讨如何掌握 Apple 硬件在 ML 和 AI 方面的前沿创新动态
要讨论的内容很多我们这就开始吧我们先来了解平台智能功能机器学习和人工智能是我们操作系统中很多内置 App 和功能的核心所在无论是 Apple Vision Pro 上用于身份验证的视控 ID 还是 iPad 上帮助计算的手写文字识别功能亦或是 FaceTime 通话上用于提升音质的背景杂音去除功能机器学习都发挥着至关重要的作用支持这些功能的 ML 模型已经过训练和优化可提高设备端效率去年我们开启了智能技术新篇章将生成式智能功能融入到操作系统的核心之中其中的 Apple 智能功能由大型基础模型提供支持系统中新增了书写工具、智绘表情和图乐园等功能你可轻松将它们集成到 App 中如果你正在使用系统文本控件你就会自动获得智绘表情支持你甚至可以使用 API 让这些内容直接显示在文本中 Image Playground 框架提供 SwiftUI 扩展可在 App 中弹出 imagePlaygroundSheet 一般而言你可以使用标准 UI 框架来显示文本视图你的 App 已进行相关设置可支持写作工具就是那么简单你可以使用标准视图也可以在自定义视图中添加几行代码这样一来你的用户就可以使用一致且熟悉的 UI 轻松访问 App 中的 Apple 智能功能当然如果你不想使用默认 UI 或者需要更多控制那就可以用到基于 ML 的 API 通过这些 API 你将以编程方式访问系统模型和功能我们提供各种这类 API 有些能够访问具备重要实用工具的核心系统模型另一些则提供了面向专项 ML 任务的便捷 API 要了解相关内容我们先来回顾一下如何将图像生成功能集成到 App 中 iOS 18.4 在 ImagePlayground 框架中引入了 ImageCreator 类让你能够以编程方式创建图像只需实例化 ImageCreator 即可根据需要请求图像在这里我们使用文本提示和已选样式然后你可以根据自己的偏好在 App 中显示或使用它们同样在 iOS 18.4 中我们引入了 Smart Reply API 你可以通过将上下文数据提供给键盘让用户选择为消息和电子邮件生成的智能回复让我们来快速了解一下设置步骤要提供对话上下文请使用你的数据配置 UIMessage 或 UIMailConversationContext 然后在请求键盘之前在录入视图上进行设置如果用户从键盘上为即时消息选择智能回复智能回复将直接插入到文档中不过在邮件对话中选择将被委托回视图对应的 insertInputSuggestion 委托方法然后你就可以生成并插入电子邮件对应的更长回复要了解更多信息请查看“在消息和电子邮件 App 中应用智能回复” 文档页面请注意所有这些均在设备上运行并使用 Apple 的基础模型在 iOS 26 中我们进一步引入了 Foundation Models 框架它能够以编程方式访问针对日常任务高度优化的设备端语言模型现在所有 App 都支持这些功能了这个框架非常适合用于总结、提取、分类等工作你可以用它来提升 App 中的现有功能比如提供个性化搜索建议也可以创建全新的功能如在旅游 App 中生成行程
你甚至可以用它来为游戏中的角色生成实时对话这个功能是我最喜欢的！
提示模型只需三行代码非常简单导入框架、创建会话、将提示发送给模型由于这个框架处于设备端无需将数据发送到其他位置因而可保障用户数据的私密性 AI 功能随时可用且支持离线工作因此无需设置账户或获取 API 密钥并且所有这些都是免费的也不需要用户提出任何请求 Foundation Models 框架非常强大可不止提示文本响应这么简单有时你需要借助 LLM 来生成可直接在 App 中使用的结构化响应 Foundation Models 框架让这一操作变得很简单你可以将 App 中的现有类型标记为可生成类型还要为每个属性添加一些自然语言指南以及控制已生成值的可选控件这样你就可以通过简单的提示使用引导式生成当你指示响应生成类型时
这个框架将自定义语言模型解码循环并防止模型出现结构错误你的数据结构已填入正确的信息因此你不必处理 JSON 架构只需关注提示剩下的交给框架就行 Swift、框架和自定义类型相互协同让你能够轻松地实现快速迭代并在 App 中探索新可能
在开发用例时请务必考虑基础模型的相关知识除了通过提示提供的信息以及可生成的类型描述外这个模型还拥有一套核心知识这些知识源自模型训练的数据这些数据会及时修复且不包含最近的事件虽然这个模型对于设备级模型来说非常强大但它的知识覆盖范围仍不及大型服务器级模型对于需要从 App 或通过网络获取更多知识的用例支持工具调用的 Foundation Models 框架可提供帮助通过工具调用你不仅能生成文本和执行一些操作还可访问实时或个人数据比如天气和日历日程而不仅限于数月前的训练数据它甚至可以让模型引用数据源从而支持用户对输出结果进行事实核查最后工具可以在 App 中、系统上或真实用例中采取实际操作
以上只是这个框架出色功能的简要介绍还有更多内容有待探索如需进一步了解相关内容请观看“了解 Foundation Models 框架”讲座这个讲座还为你介绍了流媒体响应、状态会话以及框架与 Xcode 的深度集成如果你倾向于边学边操作我们在讲座期间会提供代码让你能够使用新的 API 构建首个智能 App 我们还提供一个专门的讲座针对个人用例设计注意事项这个讲座主要介绍帮助你编写反思提示的最佳实践、 AI 安全注意事项、设备级语言模型可实现的功能、以及评估和测试质量和安全性的一些有效策略请务必观看 “探索设备端基础模型的提示设计和安全”讲座了解更多内容
新的 Foundation Models 框架已加入其他基于机器学习的 API 和工具套件中你可以利用这些套件将设备端智能运用于 App 功能这些框架各有所专均针对特定领域采用高度优化的专用模型有 Vision 框架用于理解图像和视频内容 Natural Language 框架用于在自然语言文本中识别语言、词性和已命名实体 Translation 框架用于在多种语言之间执行文本翻译 Sound Analysis 框架用于识别不同类别声音以及 Speech 框架用于识别和转录语音所有框架只需执行几行代码现在我将重点介绍这些框架今年新增的一些功能
首先来看 Vision 框架 Vision 框架有 30 多个 API 可用于不同类型的图像分析现在 Vision 新添加了两个 API 对文本识别进行了优化 Vision 现在不仅能读取文本行还支持文档识别它会对不同的文档结构进行分组从而让文档处理和理解变得更加简单
Vision 还提供新的镜头污渍检测模式帮助你识别相机镜头上可能会损坏图像的污渍如需详细了解镜头污渍检测模式和其他新增的 Vision 炫酷功能请观看 “使用 Vision 框架读取文档”讲座
接下来我们来了解 Speech 框架 Speech 框架中的 SFSpeechRecognizer 类让你可以访问语音转文本模型这个模型为 Siri 提供支持非常适合听写简短音频现在 iOS26 系统引入了一个新的 SpeechAnalyzer API 它支持很多用例并融入 Swift 的功能这个新的 API 完全在设备端运行只需少量代码即可执行语音转文本处理
除了这个新的 API 我们还提供新的语音转文本模型这比先前的模型更快也更灵活
将音频缓冲区传递给分析器实例随后将它们路由到新的语音转文本模型这个模型会预测与语音音频相匹配的文本并将文本返回到 App 中这个新模型尤其适合远场长音频例如演讲、会议和对话请观看“借助 SpeechAnalyzer 将先进的语音转文本功能引入 App” 了解更多内容
Apple 基于机器学习的 API 提供了海量功能你的 App 可以随时加以利用！很多这些 API 可以进行扩展或针对特定的用例进行定制
Create ML App 和框架让你能够使用自己的数据微调系统模型、创建可与 Vision 框架结合使用的专属图像分类器、或创建可与 Natural Language 框架结合使用的定制文字标记你甚至可以扩展 Apple Vision Pro 的功能以识别和追踪具有六个自由度的特定对象从而打造沉浸式空间体验
到目前为止我们已经讨论过如何利用或扩展系统内置的基于 ML 和 AI 的功能接下来我们来谈谈如何将模型引入设备在选择模型以及将模型整合到 App 中时我们要考虑很多因素但是借助 Core ML 情况就会变得很简单你只需要一个 Core ML 格式的模型这些模型资产包含对模型输入、输出和架构的描述以及模型的学习参数
你可以在 developer.apple.com 上找到各种可用的 Core ML 格式开放模型
这些模型按类别整理而成其中包含每个模型功能的描述、不同变体列表以及不同设备上性能表现的简要信息
同样地你可能想要查看 Hugging Face 上的 Apple 空间除了已采用 Core ML 格式的模型你还可以找到源模型定义的链接
这些模型定义通常以 PyTorch 表示并与训练和微调管道集成
Core ML 工具提供实用工具和工作流程可用于将训练模型转换为 Core ML 模型格式这些工作流程不仅能直接翻译模型表示还能将优化应用于设备端执行其中一些优化是自动进行的例如融合操作和消除冗余计算不过 coremltools 还提供一套基于微调和后训练模型的压缩技术可帮助你缩小模型大小并提高内存、功耗和延迟方面的推理性能
运用这些技术你可以均衡性能和模型准确性并做出不同的调整
请观看 WWDC24 的 “将模型移植到 Apple 芯片”讲座了解更多信息此外请务必查看最新发布说明以及使用手册中的示例
获得 Core ML 格式的模型后你就可以轻松将模型集成到 Xcode 你可以检查模型的关键特征或探索模型在任意关联设备上的性能你可以深入了解预测延迟、载入时间并查找 Xcode 中支持和执行特定操作的位置今年还有一项新增功能你可以直观地看到完整的模型架构并深入了解操作的细节这个全新的视图有助于你更深入地理解你正在使用的模型让调试和性能情况一目了然
需要进行编码时 Xcode 会在 Swift 中生成一个模型特定的类型安全界面只需几行代码即可进行集成
运行时 Core ML 会利用所有可用计算优化 CPU、GPU 和神经网络引擎中的执行
虽然 Core ML 是部署设备端模型的理想框架但是有时你可能需要进行更精细的控制例如如果你需要对具有图形工作负载的 ML 进行排序或集成你就可以结合使用 Core ML 模型及 MPS Graph 和 Metal 或者在 CPU 上运行实时信号处理时 Accelerate 的 BNNS Graph API 可为 ML 任务提供严格的延迟和内存管理控制
这些都属于 Core ML 的基础框架可供你直接取用
今年 BNNSGraph 中增加了一些新功能包括新的 Graph Builder 开发人员可使用这项功能创建操作图这意味着你可以编写预处理和后处理例程甚至是编写在 CPU 上实时运行的小型机器学习模型要了解所有细节请观看 “BNNS Graph 的新功能”讲座
最后我们来谈谈如何跟上机器学习领域的快节奏发展以及 Apple 平台如何助你一臂之力 ML 研究正在迅速发展每天都有改进和优化我们正以前所未有的速度探索和构建新模型和技术需要探索和学习的地方还很多缺乏合适的工具和资源将变得举步维艰为了跟上当前的发展趋势我们需要具备运行大模型、修改特定架构、并向开放社区学习的能力我们拥有精密工具和资源可帮助你探索前沿技术 MLX 就是这样一个强大的工具
它是一个用于数值计算和机器学习的阵列框架由 Apple 的机器学习研究人员设计并通过完全开源方式进行开发借助 MLX 你可以访问最新的模型还能在搭载 Apple 芯片的设备上高效执行微调、训练和分布式学习任务
MLX 可以在 Mistral 等大型语言模型上运行高级 ML 推理只需调用一个命令行即可例如这里正在生成快速排序的代码令牌的长度限制为 1024
这让你可以实时掌握前沿研究的信息得益于开源社区的优势探索这些模型可通过 MLX 实现
Hugging Face 上的 MLX 社区提供数百个前沿模型供你使用只需执行一行代码请观看“借助 MLX 在 Apple 芯片上探索大语言模型”讲座了解如何在搭载 Apple 芯片的设备上运行 Deep-Sea Car 1
MLX 旨在充分发挥 Apple 芯片的优势这包括特定于统一内存的新编程模型
大多数常用的机器学习系统都拥有一个采用单独内存的独立 GPU 数据通常驻留并绑定到特定设备操作一般都在数据所处的位置运行你无法高效地运行使用多个内存池数据的操作它们需要一份内存副本另一方面 Apple 芯片具有统一的内存架构这意味着 CPU 和 GPU 共享相同的物理内存 MLX 中的数组并未绑定设备但操作会绑定这样你甚至可以在同一缓冲区的 CPU 和 GPU 上并行运行不同的操作
请观看“开始使用适用于 Apple 芯片的 MLX”讲座了解这个特定的编程模型以及其他 MLX 功能你甚至能只使用一行代码微调模型并根据需要轻松放大以实现分布式训练
这个模型提供 Python、Swift、C++ 或 C 语言还有其他语言供你选择通过开源社区创建的多个绑定提供
除了 MLX 如果你正在使用 PyTorch 和 JAX 等常用训练框架我们的 Metal 可满足你的需求你大可使用 ML 社区多年来一直采用的标准工具来探索前沿技术最后如果你是 AI 爱好者和研究人员可访问 developer.apple.com 查看 Apple 的最新机器学习资源
以上就是我们本次讲座的所有内容了让我们简单回顾一下今天讨论的所有内容
你可以根据自身需求和模型使用经验选择相应的框架和工具以支持项目的机器学习和 AI 功能无论你是想要微调 Mac 上的 LLM 需要优化计算机视觉模型以部署 Apple Vision Pro 还是希望使用基于 ML 的 API 为 App 快速添加实用功能我们都能应你所需所有功能都针对 Apple 芯片进行了优化为机器学习和 AI 工作负载提供高效强大的执行表现
我们相信今天介绍的这些资源都非常实用你肯定迫不及待想要尝试 Apple 智能带来的全新体验趁此机会即刻尝试并探索 Apple 平台上蕴藏的机器学习和 AI 技术新功能今天我们只简单介绍了一些功能强烈建议你查看我们开发者 App 和开发者论坛上的机器学习和 AI 类别了解更多信息
你可以尽情提问并与开发者社区成员展开热烈探讨
这体验非常有趣希望你能乐在其中！感谢观看！
- 0:00 - Introduction
- Apple's On-Device Machine Learning team offers tools for developers and enthusiasts to integrate Apple Intelligence and machine learning into apps and personal projects. Learn more about platform intelligence, system frameworks, model optimization and deployment, and staying updated on the latest ML and AI innovations on Apple hardware.
- 1:18 - Platform intelligence
- Machine Learning and artificial intelligence are at the core of our operating system, powering various built-in apps and features. These technologies enable seamless user experiences, such as secure authentication, handwriting recognition, and noise reduction during calls. Last year brought generative intelligence into the core of our operating system with Writing Tools, Genmoji, and Image Playground. These features are designed to be easily integrated into existing apps, allowing you to enhance your user interfaces with minimal effort. A wide range of ML-powered APIs are available. These APIs provide programmatic access to system models and capabilities, enabling tasks like image generation with ImageCreator, and smart reply suggestions. The introduction of the Foundation Models framework in iOS 26 further simplifies this process. This framework provides access to a highly optimized on-device language model specialized for everyday tasks. It can be used for summarization, extraction, classification, and more, all while ensuring user data privacy as the model operates entirely offline. You can easily prompt the model, generate structured responses, and even integrate it with live or personal data using tool calling, enabling the model to perform actions and cite sources of truth.
- 8:20 - ML-powered APIs
- Updated Machine Learning-powered APIs provide you with a comprehensive suite of tools for enhancing app intelligence. The frameworks include Vision for image and video analysis, Natural Language for text processing, Translation for languages, Sound Analysis for recognizing sounds, and Speech for recognition and transcription. Notable new additions include document recognition and lens-smudge detection in Vision, and the SpeechAnalyzer API in Speech, which enables faster and more flexible speech-to-text processing, particularly for long-form and distant audio. Developers can also customize these models using the CreateML app and framework.
- 11:15 - ML models
- Core ML simplifies the process of integrating machine learning models into apps for Apple devices. You can utilize models already in CoreML format, available on developer.apple.com and the Apple space on Hugging Face, or convert trained models from other formats using CoreML Tools. CoreML Tools optimizes these models for on-device execution, reducing size and improving performance through automatic and manual techniques. You can then easily integrate these models into Xcode, where you can inspect performance, visualize the model architecture, and generate type-safe Swift interfaces. At runtime, CoreML leverages the CPU, GPU, and Neural Engine for efficient execution. For more advanced control, combine CoreML models with MPSGraph, Metal compute, or Accelerate’s BNNS Graph API, which has new capabilities this year, including a BNNSGraphBuilder for real-time CPU-based ML tasks.
- 14:54 - Exploration
- The rapid pace of machine learning research demands sophisticated tools and resources to keep up. Apple's MLX, an open-source array framework for numerical computing and machine learning, is designed to leverage the power of Apple Silicon. MLX enables efficient fine-tuning, training, and distributed learning of state-of-the-art models on Apple devices. It can run large language models with a single command line call and takes advantage of Apple Silicon's unified memory architecture, allowing parallel CPU and GPU operations on the same buffer. You can access MLX in Python, Swift, C++, and other languages. Additionally, Apple supports popular training frameworks like PyTorch and Jax through Metal. The developer.apple.com website and Apple Github repositories are valuable resources for AI enthusiasts and researchers, providing access to the latest machine learning resources from Apple.

章节

资源