大多数浏览器和
Developer App 均支持流媒体播放。
-
探索 Apple 平台上的机器学习和 AI 框架
浏览 Apple 平台上机器学习和 AI 框架的最新更新。无论你是准备利用 Apple 智能功能的 App 开发者、希望为设备端部署优化模型的 ML 工程师,还是想要探索无限可能的 AI 爱好者,我们都会提供应你所需的指导,帮你选择适合自己的工具。
章节
- 0:00 - Introduction
- 1:18 - Platform intelligence
- 8:20 - ML-powered APIs
- 11:15 - ML models
- 14:54 - Exploration
资源
-
搜索此视频…
大家好 我叫 Jaimin Upadhyay 是 Apple 的工程经理 来自 On-Device Machine Learning 团队 今天 我想谈谈如何在 App 和个人项目中 利用 Apple 智能功能 和机器学习技术 无论你是准备通过 UI 组件 或直接在代码中 利用 Apple 智能功能的 App 开发者、 希望为设备端部署 转换和优化模型的 ML 工程师 还是想要探索 Mac 无限可能的 AI 爱好者 我们都为你提供了合适的工具 我将简要介绍这些工具 重点讲解新增功能 并在这个过程中 为你提供一些可用的资源 首先 我们会简要了解操作系统 内置的智能功能 以及这些功能与 App 之间关系 然后 我们将探索如何通过系统框架 以编程方式运用智能功能 接下来 我们还将讨论 Apple 工具 和 API 如何帮助你优化和部署 任意机器学习模型以实现设备端执行 最后 我们会探讨 如何掌握 Apple 硬件 在 ML 和 AI 方面的 前沿创新动态
要讨论的内容很多 我们这就开始吧 我们先来了解平台智能功能 机器学习和人工智能 是我们操作系统中 很多内置 App 和功能的核心所在 无论是 Apple Vision Pro 上 用于身份验证的视控 ID 还是 iPad 上帮助计算的 手写文字识别功能 亦或是 FaceTime 通话上用于 提升音质的背景杂音去除功能 机器学习都发挥着至关重要的作用 支持这些功能的 ML 模型 已经过训练和优化 可提高设备端效率 去年 我们开启了智能技术新篇章 将生成式智能功能融入到 操作系统的核心之中 其中的 Apple 智能功能 由大型基础模型提供支持 系统中新增了书写工具、 智绘表情和图乐园等功能 你可轻松将它们集成到 App 中 如果你正在使用系统文本控件 你就会自动获得智绘表情支持 你甚至可以使用 API 让这些内容直接显示在文本中 Image Playground 框架 提供 SwiftUI 扩展 可在 App 中弹出 imagePlaygroundSheet 一般而言 你可以使用标准 UI 框架 来显示文本视图 你的 App 已进行相关设置 可支持写作工具 就是那么简单 你可以使用标准视图 也可以 在自定义视图中添加几行代码 这样一来 你的用户就可以 使用一致且熟悉的 UI 轻松访问 App 中的 Apple 智能功能 当然 如果你不想使用默认 UI 或者需要更多控制 那就可以用到基于 ML 的 API 通过这些 API 你将以编程方式 访问系统模型和功能 我们提供各种这类 API 有些能够访问具备重要实用工具的 核心系统模型 另一些则提供了 面向专项 ML 任务的便捷 API 要了解相关内容 我们先来回顾一下 如何将图像生成功能集成到 App 中 iOS 18.4 在 ImagePlayground 框架中引入了 ImageCreator 类 让你能够以编程方式创建图像 只需实例化 ImageCreator 即可 根据需要请求图像 在这里 我们使用文本提示 和已选样式 然后 你可以根据自己的偏好 在 App 中显示或使用它们 同样在 iOS 18.4 中 我们引入了 Smart Reply API 你可以通过将上下文数据提供给键盘 让用户选择为消息和电子邮件 生成的智能回复 让我们来快速了解一下设置步骤 要提供对话上下文 请使用你的数据配置 UIMessage 或 UIMailConversationContext 然后在请求键盘之前 在录入视图上进行设置 如果用户从键盘上 为即时消息选择智能回复 智能回复将直接插入到文档中 不过 在邮件对话中 选择将被委托回视图对应的 insertInputSuggestion 委托方法 然后 你就可以生成并插入 电子邮件对应的更长回复 要了解更多信息 请查看“在消息和电子邮件 App 中 应用智能回复” 文档页面 请注意 所有这些均在设备上运行 并使用 Apple 的基础模型 在 iOS 26 中 我们进一步引入了 Foundation Models 框架 它能够以编程方式访问 针对日常任务高度优化的 设备端语言模型 现在 所有 App 都支持这些功能了 这个框架非常适合用于 总结、提取、分类等工作 你可以用它来提升 App 中的 现有功能 比如 提供个性化搜索建议 也可以创建全新的功能 如在旅游 App 中生成行程
你甚至可以用它来 为游戏中的角色生成实时对话 这个功能是我最喜欢的!
提示模型只需三行代码 非常简单 导入框架、创建会话、 将提示发送给模型 由于这个框架处于设备端 无需将数据发送到其他位置 因而可保障用户数据的私密性 AI 功能随时可用且支持离线工作 因此 无需设置账户或获取 API 密钥 并且所有这些都是免费的 也不需要用户提出任何请求 Foundation Models 框架非常强大 可不止提示文本响应 这么简单 有时 你需要借助 LLM 来生成 可直接在 App 中使用的 结构化响应 Foundation Models 框架 让这一操作变得很简单 你可以将 App 中的现有类型 标记为可生成类型 还要为每个属性 添加一些自然语言指南 以及控制已生成值的可选控件 这样 你就可以通过简单的提示 使用引导式生成 当你指示响应生成类型时
这个框架将自定义 语言模型解码循环 并防止模型出现结构错误 你的数据结构已填入正确的信息 因此 你不必处理 JSON 架构 只需关注提示 剩下的交给框架就行 Swift、框架和自定义类型相互协同 让你能够轻松地实现快速迭代 并在 App 中探索新可能
在开发用例时 请务必考虑基础模型的相关知识 除了通过提示提供的信息 以及可生成的类型描述外 这个模型还拥有一套核心知识 这些知识源自模型训练的数据 这些数据会及时修复 且不包含最近的事件 虽然这个模型对于设备级模型来说 非常强大 但它的知识覆盖范围仍不及 大型服务器级模型 对于需要从 App 或通过网络 获取更多知识的 用例 支持工具调用的 Foundation Models 框架可提供帮助 通过工具调用 你不仅能生成文本 和执行一些操作 还可访问实时或个人数据 比如天气和日历日程 而不仅限于数月前的训练数据 它甚至可以让模型引用数据源 从而支持用户对输出结果 进行事实核查 最后 工具可以在 App 中、 系统上或真实用例中采取实际操作
以上只是这个框架出色功能的 简要介绍 还有更多内容有待探索 如需进一步了解相关内容 请观看“了解 Foundation Models 框架”讲座 这个讲座还为你介绍了流媒体响应、 状态会话以及框架与 Xcode 的 深度集成 如果你倾向于边学边操作 我们在讲座期间会提供代码 让你能够使用新的 API 构建首个智能 App 我们还提供一个专门的讲座 针对个人用例设计注意事项 这个讲座主要介绍 帮助你编写反思提示的最佳实践、 AI 安全注意事项、 设备级语言模型可实现的功能、 以及评估和测试质量和安全性的 一些有效策略 请务必观看 “探索设备端基础模型的 提示设计和安全”讲座 了解更多内容
新的 Foundation Models 框架 已加入 其他基于机器学习的 API 和 工具套件中 你可以利用这些套件将设备端智能 运用于 App 功能 这些框架各有所专 均针对特定领域 采用高度优化的专用模型 有 Vision 框架 用于理解图像和视频内容 Natural Language 框架 用于在自然语言文本中 识别语言、词性和已命名实体 Translation 框架 用于在多种语言之间执行文本翻译 Sound Analysis 框架 用于识别不同类别声音 以及 Speech 框架 用于识别和转录语音 所有框架只需执行几行代码 现在 我将重点介绍这些框架 今年新增的 一些功能
首先来看 Vision 框架 Vision 框架有 30 多个 API 可用于不同类型的图像分析 现在 Vision 新添加了两个 API 对文本识别进行了优化 Vision 现在不仅能读取文本行 还支持文档识别 它会对不同的文档结构进行分组 从而让文档处理和理解变得更加简单
Vision 还提供 新的镜头污渍检测模式 帮助你识别相机镜头上 可能会损坏图像的污渍 如需详细了解镜头污渍检测模式 和其他新增的 Vision 炫酷功能 请观看 “使用 Vision 框架读取文档”讲座
接下来 我们来了解 Speech 框架 Speech 框架中的 SFSpeechRecognizer 类 让你可以访问语音转文本模型 这个模型为 Siri 提供支持 非常适合听写简短音频 现在 iOS26 系统引入了一个新的 SpeechAnalyzer API 它支持很多用例 并融入 Swift 的功能 这个新的 API 完全在设备端运行 只需少量代码 即可执行语音转文本处理
除了这个新的 API 我们还提供新的语音转文本模型 这比先前的模型更快 也更灵活
将音频缓冲区传递给分析器实例 随后将它们路由到 新的语音转文本模型 这个模型会预测 与语音音频相匹配的文本 并将文本返回到 App 中 这个新模型尤其适合远场长音频 例如演讲、会议和对话 请观看“借助 SpeechAnalyzer 将先进的语音转文本功能引入 App” 了解更多内容
Apple 基于机器学习的 API 提供了海量功能 你的 App 可以随时加以利用! 很多这些 API 可以进行扩展 或针对特定的用例进行定制
Create ML App 和框架让你能够 使用自己的数据微调系统模型、 创建可与 Vision 框架结合使用的 专属图像分类器、 或创建可与 Natural Language 框架 结合使用的定制文字标记 你甚至可以扩展 Apple Vision Pro 的功能 以识别和追踪具有六个自由度的 特定对象 从而打造沉浸式空间体验
到目前为止 我们已经讨论过 如何利用或扩展 系统内置的基于 ML 和 AI 的功能 接下来 我们来谈谈 如何将模型引入设备 在选择模型 以及将模型整合到 App 中时 我们要考虑很多因素 但是借助 Core ML 情况就会变得很简单 你只需要一个 Core ML 格式的模型 这些模型资产包含对模型输入、 输出和架构的描述 以及模型的学习参数
你可以在 developer.apple.com 上找到 各种可用的 Core ML 格式开放模型
这些模型按类别整理而成 其中包含每个模型功能的描述、 不同变体列表 以及不同设备上性能表现的简要信息
同样地 你可能想要查看 Hugging Face 上的 Apple 空间 除了已采用 Core ML 格式的模型 你还可以找到源模型定义的链接
这些模型定义通常以 PyTorch 表示 并与训练和微调管道集成
Core ML 工具提供实用工具 和工作流程 可用于将训练模型转换为 Core ML 模型格式 这些工作流程不仅能 直接翻译模型表示 还能将优化应用于设备端执行 其中一些优化是自动进行的 例如融合操作和消除冗余计算 不过 coremltools 还提供 一套基于微调和后训练模型的 压缩技术 可帮助你缩小模型大小 并提高内存、功耗和延迟方面的 推理性能
运用这些技术 你可以均衡性能和模型准确性 并做出不同的调整
请观看 WWDC24 的 “将模型移植到 Apple 芯片”讲座 了解更多信息 此外 请务必查看最新发布说明 以及使用手册中的示例
获得 Core ML 格式的模型后 你就可以轻松将模型集成到 Xcode 你可以检查模型的关键特征 或探索模型在任意关联设备上的 性能 你可以深入了解预测延迟、载入时间 并查找 Xcode 中支持 和执行特定操作的 位置 今年还有一项新增功能 你可以直观地看到 完整的模型架构 并深入了解操作的细节 这个全新的视图 有助于你更深入地理解 你正在使用的模型 让调试和性能情况 一目了然
需要进行编码时 Xcode 会在 Swift 中 生成一个模型特定的类型安全界面 只需几行代码即可进行集成
运行时 Core ML 会利用所有可用计算 优化 CPU、GPU 和神经网络引擎中的 执行
虽然 Core ML 是部署设备端模型的 理想框架 但是 有时你可能需要 进行更精细的控制 例如 如果你需要对具有 图形工作负载的 ML 进行排序或集成 你就可以结合使用 Core ML 模型及 MPS Graph 和 Metal 或者 在 CPU 上运行实时信号处理时 Accelerate 的 BNNS Graph API 可为 ML 任务 提供严格的延迟和内存管理控制
这些都属于 Core ML 的基础框架 可供你直接取用
今年 BNNSGraph 中增加了 一些新功能 包括新的 Graph Builder 开发人员可使用这项功能 创建操作图 这意味着你可以编写预处理 和后处理例程 甚至是编写在 CPU 上实时运行的 小型机器学习模型 要了解所有细节 请观看 “BNNS Graph 的新功能”讲座
最后 我们来谈谈如何跟上 机器学习领域的 快节奏发展以及 Apple 平台 如何助你一臂之力 ML 研究正在迅速发展 每天都有改进和优化 我们正以前所未有的速度 探索和构建新模型和技术 需要探索和学习的地方还很多 缺乏合适的工具和资源 将变得举步维艰 为了跟上当前的发展趋势 我们需要具备运行大模型、 修改特定架构、 并向开放社区学习的能力 我们拥有精密工具和资源 可帮助你探索前沿技术 MLX 就是这样一个强大的工具
它是一个用于数值计算 和机器学习的阵列框架 由 Apple 的机器学习研究人员设计 并通过完全开源方式进行开发 借助 MLX 你可以访问最新的模型 还能在搭载 Apple 芯片的设备上 高效执行微调、训练 和分布式学习任务
MLX 可以在 Mistral 等 大型语言模型上运行高级 ML 推理 只需调用一个命令行即可 例如 这里正在生成快速排序的代码 令牌的长度限制为 1024
这让你可以实时掌握前沿研究的信息 得益于开源社区的优势 探索这些模型可通过 MLX 实现
Hugging Face 上的 MLX 社区 提供数百个前沿模型供你使用 只需执行一行代码 请观看“借助 MLX 在 Apple 芯片上探索大语言模型”讲座 了解如何在搭载 Apple 芯片的 设备上 运行 Deep-Sea Car 1
MLX 旨在充分发挥 Apple 芯片的优势 这包括特定于统一内存的 新编程模型
大多数常用的机器学习系统 都拥有一个采用单独内存的独立 GPU 数据通常驻留并绑定到特定设备 操作一般都在数据所处的位置运行 你无法高效地运行 使用多个内存池数据的操作 它们需要一份内存副本 另一方面 Apple 芯片具有统一的 内存架构 这意味着 CPU 和 GPU 共享相同的物理内存 MLX 中的数组并未绑定设备 但操作会绑定 这样 你甚至可以在同一缓冲区的 CPU 和 GPU 上 并行运行不同的操作
请观看“开始使用适用于 Apple 芯片的 MLX”讲座 了解这个特定的编程模型 以及其他 MLX 功能 你甚至能只使用一行代码微调模型 并根据需要轻松放大 以实现分布式训练
这个模型提供 Python、Swift、C++ 或 C 语言 还有其他语言供你选择 通过开源社区创建的多个绑定提供
除了 MLX 如果你正在使用 PyTorch 和 JAX 等 常用训练框架 我们的 Metal 可满足你的需求 你大可使用 ML 社区 多年来一直采用的标准工具 来探索前沿技术 最后 如果你是 AI 爱好者 和研究人员 可访问 developer.apple.com 查看 Apple 的最新机器学习资源
以上就是我们本次讲座的所有内容了 让我们简单回顾一下 今天讨论的所有内容
你可以根据自身需求和模型使用经验 选择相应的框架和工具 以支持项目的机器学习和 AI 功能 无论你是想要微调 Mac 上的 LLM 需要优化计算机视觉模型 以部署 Apple Vision Pro 还是希望使用基于 ML 的 API 为 App 快速添加实用功能 我们都能应你所需 所有功能都针对 Apple 芯片 进行了优化 为机器学习和 AI 工作负载 提供高效强大的执行表现
我们相信 今天介绍的这些资源都非常实用 你肯定迫不及待想要尝试 Apple 智能带来的全新体验 趁此机会 即刻尝试并探索 Apple 平台上蕴藏的机器学习 和 AI 技术新功能 今天 我们只简单介绍了一些功能 强烈建议你查看我们开发者 App 和 开发者论坛上的机器学习和 AI 类别 了解更多信息
你可以尽情提问并与开发者社区成员 展开热烈探讨
这体验非常有趣 希望你能乐在其中! 感谢观看!
-
-
- 0:00 - Introduction
Apple's On-Device Machine Learning team offers tools for developers and enthusiasts to integrate Apple Intelligence and machine learning into apps and personal projects. Learn more about platform intelligence, system frameworks, model optimization and deployment, and staying updated on the latest ML and AI innovations on Apple hardware.
- 1:18 - Platform intelligence
Machine Learning and artificial intelligence are at the core of our operating system, powering various built-in apps and features. These technologies enable seamless user experiences, such as secure authentication, handwriting recognition, and noise reduction during calls. Last year brought generative intelligence into the core of our operating system with Writing Tools, Genmoji, and Image Playground. These features are designed to be easily integrated into existing apps, allowing you to enhance your user interfaces with minimal effort. A wide range of ML-powered APIs are available. These APIs provide programmatic access to system models and capabilities, enabling tasks like image generation with ImageCreator, and smart reply suggestions. The introduction of the Foundation Models framework in iOS 26 further simplifies this process. This framework provides access to a highly optimized on-device language model specialized for everyday tasks. It can be used for summarization, extraction, classification, and more, all while ensuring user data privacy as the model operates entirely offline. You can easily prompt the model, generate structured responses, and even integrate it with live or personal data using tool calling, enabling the model to perform actions and cite sources of truth.
- 8:20 - ML-powered APIs
Updated Machine Learning-powered APIs provide you with a comprehensive suite of tools for enhancing app intelligence. The frameworks include Vision for image and video analysis, Natural Language for text processing, Translation for languages, Sound Analysis for recognizing sounds, and Speech for recognition and transcription. Notable new additions include document recognition and lens-smudge detection in Vision, and the SpeechAnalyzer API in Speech, which enables faster and more flexible speech-to-text processing, particularly for long-form and distant audio. Developers can also customize these models using the CreateML app and framework.
- 11:15 - ML models
Core ML simplifies the process of integrating machine learning models into apps for Apple devices. You can utilize models already in CoreML format, available on developer.apple.com and the Apple space on Hugging Face, or convert trained models from other formats using CoreML Tools. CoreML Tools optimizes these models for on-device execution, reducing size and improving performance through automatic and manual techniques. You can then easily integrate these models into Xcode, where you can inspect performance, visualize the model architecture, and generate type-safe Swift interfaces. At runtime, CoreML leverages the CPU, GPU, and Neural Engine for efficient execution. For more advanced control, combine CoreML models with MPSGraph, Metal compute, or Accelerate’s BNNS Graph API, which has new capabilities this year, including a BNNSGraphBuilder for real-time CPU-based ML tasks.
- 14:54 - Exploration
The rapid pace of machine learning research demands sophisticated tools and resources to keep up. Apple's MLX, an open-source array framework for numerical computing and machine learning, is designed to leverage the power of Apple Silicon. MLX enables efficient fine-tuning, training, and distributed learning of state-of-the-art models on Apple devices. It can run large language models with a single command line call and takes advantage of Apple Silicon's unified memory architecture, allowing parallel CPU and GPU operations on the same buffer. You can access MLX in Python, Swift, C++, and other languages. Additionally, Apple supports popular training frameworks like PyTorch and Jax through Metal. The developer.apple.com website and Apple Github repositories are valuable resources for AI enthusiasts and researchers, providing access to the latest machine learning resources from Apple.