语音处理的新功能

了解如何使用 Apple 语音处理 API 在 IP 语音应用中实现最佳的音频体验。我们将向你展示如何检测某人在静音状态下说话、如何调整其他音频的抑制行为等等。

章节

0:00 - Introduction
3:19 - Other audio ducking
7:55 - Muted talker detection
11:37 - Muted talker detection for macOS

资源

- 高清视频
- 标清视频

相关视频

WWDC23

♪ ♪

Julian：大家好欢迎收看 “语音处理的新功能” 我是 Core Audio 团队的 Julian VoIP App 已经变得比以往任何时候都重要它帮助人们与同事朋友和家人保持联系语音聊天的音频质量在提供良好的用户体验方面起着关键作用要实现在任何情况下都把音频处理地很清晰非常重要也非常具有挑战性这就是 Apple 提供语音处理 API 的原因这样当任何人使用你的 App 聊天时无论他们处于什么样的声环境无论使用什么 Apple 产品无论连接了什么音频配件他们始终都可以享受到绝佳的音频体验 Apple 的语音处理 API 被广泛应用在很多 App 中包括我们自己的 FaceTime 通话和电话 App 它提供了一流的音频信号处理包括回声消除噪音抑制自动增益控制以增强语音聊天音频质量它的表现是由声学工程师针对每种 Apple 产品型号结合每种类型的音频设备进行调整的以应对它们不同的声学特性使用 Apple 的语音处理 API 还可以让用户完全控制 App 的麦克风模式设置包括标准语音突显和宽谱我们强烈建议你在 VoIP App 中使用 Apple 的语音处理 API Apple 的语音处理 API 有两种选择第一个选择是叫作 AUVoiceIO 的 I/O 音频单元也叫作 AUVoiceProcessingIO 这个选择适用于需要与 I/O 音频单元直接互动的 App

第二个选择是 AVAudioEngine 更确切地说是启用 AVAudioEngine 的“语音处理”模式

AVAudioEngine 是更高级的 API 一般来说它更容易使用它会减少你在处理音频时要写的代码量两个选择都会提供相同的语音处理能力那有什么新功能呢？我们将首次在 Apple tvOS 上提供语音处理 API 想了解更多细节请查看讲座 “了解 Apple tvOS 的连续互通相机” 我们还为 AUVoiceIO 和 AVAudioEngine 添加了几个新的 API 为你提供更多的语音处理控制帮助你实现新的功能

第一个 API 是帮助你控制对其他音频的抑制行为我等下为你解释这是什么意思第二个 API 是帮助你为 App 实现静音发音检测功能在本次讲座中我将重点介绍这两个新 API 的细节我想谈的第一个 API 是 “抑制其它音频” 在我们深入讨论这个 API 之前让我解释一下什么是其它音频以及为什么抑制很重要当你使用 Apple 的语音处理 API 时我们看一下播放音频发生了什么你的 App 提供了一个经过 Apple 语音处理的语音聊天音频流并播放到输出设备上不过可能还有其他音频流在同时播放例如你的 App 可能在播放另一个没有经过语音处理 API 渲染的音频流

也可能有其它 App 和你的 App 同时在播放音频所以来自你的 App 之外的音频流都会被 Apple 语音处理视为“其它音频” 你的语音音频在被播放到输出设备之前会与其它音频混合在一起对于语音聊天 App 播放音频通常会优先考虑语音聊天音频因此我们要抑制其它音频的音量以提高语音音频的清晰度过去我们对其它音频应用了固定量的抑制这对大多数 App 来说效果很好如果你的 App 满意现有的抑制行为那么你不需要做任何改动不过我们了解到一些 App 希望对抑制行为拥有更多的控制这个 API 将帮助你实现这一目标

让我们先来看看 AUVoiceIO 中的这个 API 等下再看 AVAudioEngine 对 AUVoiceIO 来说这是其它音频抑制配置的结构它提供了对抑制的两个方面的控制：抑制的模式即 mEnableAdvancedDucking 和抑制的量即 mDuckingLevel 对于 mEnableAdvancedDucking 默认情况下它是禁用的一旦启用它将根据聊天参与者中任何一方的语音活动动态地调整抑制等级换句话说当任何一方用户说话时它会应用更多的抑制而当没有用户说话时它就会降低抑制这和 FaceTime 通话同播共享中的抑制非常类似 FaceTime 通话双方都不说话时媒体播放音量很高一旦有人开始说话媒体播放音量就会降低

接下来是 mDuckingLevel 它有四个级别的控件：默认 (Default)、最小 (Min)、中等 (Mid) 和最大 (Max) 默认 (Default) 抑制等级的抑制量和我们一直应用的相同我们将继续使用它为默认设置最小 (Min) 抑制等级会最小化我们应用的抑制量换句话说如果你想让其他音频的音量尽可能大你就可以使用这一设置相反最大 (Max) 抑制等级会最大化我们应用的抑制量一般来说选择较高的抑制等级会帮助提升语音聊天的清晰度

这两个控件可以单独使用当结合使用时你可以灵活地控制抑制行为

我们已经介绍了抑制配置的作用现在你可以创建适合你的 App 的配置了例如在这里我将启用高级抑制选择抑制等级为最小

然后我将通过 kAUVoiceIOProperty_OtherAudioDuckingConfiguration 把这个抑制配置设置为 AUVoiceIO

对 AVAudioEngine 用户来说 API 看起来非常相似这是其他音频抑制配置的结构定义这是抑制等级的枚举定义

要在 AVAudioEngine 中使用这个 API 你首先要在引擎的输入节点上启用语音处理

然后设置抑制配置

最后在输入节点上设置配置接下来让我们谈谈另一个API 它可以帮助你在你的 App 中实现一个非常有用的功能你是否在线上会议中遇到过这种情况你以为你在和同事或朋友聊天但没过多久你发现你在静音状态没有人听到你的精彩观点或有趣的故事？是的这很尴尬在你的 App 中添加静音发言检测功能是非常有用的就像这里的 FaceTime 通话一样

这就是为什么我们要为你提供一个 API 来检测静音状态下是否有人说话它最初是在 iOS 15 中引入的现在我们要将它引入到 macOS 14 和 Apple tvOS 17 以下是如何使用该 API 的高级概述首先你需要向 AUVoiceIO 或 AVAudioEngine 提供一个侦听代码块以在检测到静音状态有人说话时接收通知你提供的侦听代码块会在静音时有人开始说话或停止说话时被调用然后实现此类通知的处理代码例如如果通知显示用户在静音状态下开始说话你可能会想提示其取消静音最后需要通过 AUVoiceIO 或 AVAudioEngine 的静音 API 才能实现静音

让我带你看看 AUVoiceIO 的一些代码示例我们稍后会讲到 AVAudioEngine 的例子首先准备一个处理通知的侦听代码块

该块有一个 AUVoiceIOSpeechActivityEvent 类型的参数它可以是以下两个值之一： SpeechActivityHasStarted 或 SpeechActivityHasEnded

每当语音活动事件在静音期间发生变化时侦听代码块就会被调用

该块中就是你实现如何处理该事件的地方例如当收到 SpeechActivityHasStarted 事件时你可能会想提示用户取消静音一旦你准备好了该侦听代码块通过 kAUVoiceIOProperty_MutedSpeechActivityEventListener 向 AUVoiceIO 注册这个块

当用户要静音时通过静音 API kAUVoiceIOProperty_MuteOutput 实现静音

你的侦听代码块只有在以下情况才会被调用一：用户被静音二：语音活动状态改变时

语音活动的持续存在或持续不存在都不会导致多余的通知

对 AVAudioEngine 用户来说实例非常相似在引擎的输入节点上启用语音处理后准备一个用于处理通知的侦听代码块

然后在输入节点上注册该侦听代码块

当用户需要静音时使用 AVAudioEngine 的语音处理 API 来静音

现在我们已经讨论了用 AUVoiceIO 和 AVAudioEngine 实现检测静音状态下是否有人说话的功能对于那些还没有准备好采用 Apple 的语音处理 API 的人来说我们会提供一个替代方案来帮助你实现这个功能

这一替代方案只能通过 CoreAudio HAL API 在 macOS 上使用即 Hardware Abstraction Layer API 有两个新的 HAL 属性你可以结合使用它们以帮助你检测语音活动首先通过 kAudioDevicePropertyVoiceActivityDetectionEnable 在输入设备上启用语音活动检测然后在 kAudioDevicePropertyVoiceActivityDetectionState 上注册一个 HAL 属性侦听器只要语音活动状态有变化这个 HAL 属性侦听器就会被调用当你的 App 被属性侦听器通知时查询该属性以获得其当前值

现在让我用一些代码例子来带你了解这些

要在输入设备上启用语音活动检测首先要构建 HAL 属性地址

然后在输入设备上设置该属性以启用它

接下来若要在语音活动检测状态属性上注册一个侦听器就要构建 HAL 属性地址然后提供你的属性侦听器

这里的“listener_callback” 是你的侦听器函数的名称

这是一个关于如何实现属性侦听器的例子

侦听器符合此函数签名

在这个例子中我们假设这个侦听器只注册了一个 HAL 属性这意味着当它被调用时对于哪个 HAL 属性有变化是没有歧义的

如果你将同一个侦听器注册到了有多个 HAL 属性的通知上那么你必须首先通过 inAddresses 数组来查看到底是什么发生了变化

在处理这个通知时查询 VoiceActivityDetectionState 属性以获得其当前值

然后在处理该值时实现你自己的逻辑

关于这些语音活动检测 HAL API 有一些重要的细节首先它是从被回声消除的麦克风输入中检测语音活动的所以它是语音聊天 App 的理想选择

其次这种检测工作不受进程的静音状态的影响为了用它来实现静音检测功能你的 App 需要实现额外的逻辑将语音活动状态和静音状态结合起来如果 HAL API 用户要实现静音我们强烈建议使用 HAL 的进程静音 API 它可以抑制菜单栏中的录音指示灯让用户相信他们的隐私在静音状态下得到了保护让我们来回顾一下今天所谈到的内容我们谈到了 Apple 的语音处理 API 以及我们推荐将它用于 VoIP App 的原因我们谈到了抑制其他音频以及控制抑制行为的 API 并用代码举例说明了如何通过 AUVoiceIO 和 AVAudioEngine 使用它我们还用 AUVoiceIO 和 AVAudioEngine 的代码例子讲了如何实现检测静音状态下是否有人说话对于还没有采用 Apple 的语音处理 API 的用户我们还展示了在 macOS 上使用 Core Audio HAL API 的替代方案我们期待你利用 Apple 的语音处理 API 构建出色的 App 感谢观看！ ♪ ♪

5:50 - Other audio ducking

// Insert code snipp297struct AUVoiceIOOtherAudioDuckingConfiguration {
	Boolean mEnableAdvancedDucking;
	AUVoiceIOOtherAudioDuckingLevel  mDuckingLevel;
};et.
typedef CF_ENUM(UInt32, AUVoiceIOOtherAudioDuckingLevel) {
	kAUVoiceIOOtherAudioDuckingLevelDefault = 0,
	kAUVoiceIOOtherAudioDuckingLevelMin = 10,
	kAUVoiceIOOtherAudioDuckingLevelMid = 20,
	kAUVoiceIOOtherAudioDuckingLevelMax = 30
};

6:48 - Other audio ducking

const AUVoiceIOOtherAudioDuckingConfiguration duckingConfig = {
	.mEnableAdvancedDucking = true,
	.mDuckingLevel = AUVoiceIOOtherAudioDuckingLevel::kAUVoiceIOOtherAudioDuckingLevelMin
};
// AUVoiceIO creation code omitted
OSStatus err = AudioUnitSetProperty(auVoiceIO, kAUVoiceIOProperty_OtherAudioDuckingConfiguration, kAudioUnitScope_Global, 0, &duckingConfig, sizeof(duckingConfig));

6:50 - Other audio ducking

const AUVoiceIOOtherAudioDuckingConfiguration duckingConfig = {
	.mEnableAdvancedDucking = true,
	.mDuckingLevel = AUVoiceIOOtherAudioDuckingLevel::kAUVoiceIOOtherAudioDuckingLevelMin
};
// AUVoiceIO creation code omitted
OSStatus err = AudioUnitSetProperty(auVoiceIO, kAUVoiceIOProperty_OtherAudioDuckingConfiguration, kAudioUnitScope_Global, 0, &duckingConfig, sizeof(duckingConfig));

7:20 - Other audio ducking

public struct AVAudioVoiceProcessingOtherAudioDuckingConfiguration {
	public var enableAdvancedDucking: ObjCBool 
	public var duckingLevel: AVAudioVoiceProcessingOtherAudioDuckingConfiguration.Level
}
extension AVAudioVoiceProcessingOtherAudioDuckingConfiguration {
	public enum Level : Int, @unchecked Sendable {
		case `default` = 0
		case min = 10
		case mid = 20
		case max = 30
	}
}

7:31 - Other audio ducking

let engine = AVAudioEngine()
let inputNode = engine.inputNode
do {
	try inputNode.setVoiceProcessingEnabled(true)
} catch {
	print("Could not enable voice processing \(error)")
}
let duckingConfig = AVAudioVoiceProcessingOtherAudioDuckingConfiguration(mEnableAdvancedDucking: false, mDuckingLevel: .max)
inputNode.voiceProcessingOtherAudioDuckingConfiguration = duckingConfig

7:32 - Muted talker detection AUVoiceIO

AUVoiceIOMutedSpeechActivityEventListener listener =  ^(AUVoiceIOMutedSpeechActivityEvent event) {		
    if (event == kAUVoiceIOSpeechActivityHasStarted) {
		// User has started talking while muted. Prompt the user to un-mute
	} else if (event == kAUVoiceIOSpeechActivityHasEnded) {
		// User has stopped talking while muted
	}
};
OSStatus err = AudioUnitSetProperty(auVoiceIO, kAUVoiceIOProperty_MutedSpeechActivityEventListener, kAudioUnitScope_Global, 0, &listener,  sizeof(AUVoiceIOMutedSpeechActivityEventListener));
// When user mutes
UInt32 muteUplinkOutput = 1;
result = AudioUnitSetProperty(auVoiceIO, kAUVoiceIOProperty_MuteOutput, kAudioUnitScope_Global, 0, &muteUplinkOutput, sizeof(muteUplinkOutput));

11:08 - Muted talker detection AVAudioEngine

let listener =  { (event : AVAudioVoiceProcessingSpeechActivityEvent) in
	if (event == AVAudioVoiceProcessingSpeechActivityEvent.started) {
		// User has started talking while muted. Prompt the user to un-mute
	} else if (event == AVAudioVoiceProcessingSpeechActivityEvent.ended) {
		// User has stopped talking while muted
	}
}
inputNode.setMutedSpeechActivityEventListener(listener)
// When user mutes
inputNode.isVoiceProcessingInputMuted = true

12:31 - Voice activity detection - implementation with HAL APIs

// Enable Voice Activity Detection on the input device
const AudioObjectPropertyAddress kVoiceActivityDetectionEnable{
        kAudioDevicePropertyVoiceActivityDetectionEnable,
        kAudioDevicePropertyScopeInput,
        kAudioObjectPropertyElementMain };
OSStatus status = kAudioHardwareNoError;
UInt32 shouldEnable = 1;
status = AudioObjectSetPropertyData(deviceID, &kVoiceActivityDetectionEnable, 0, NULL, sizeof(UInt32), &shouldEnable);
// Register a listener on the Voice Activity Detection State property
const AudioObjectPropertyAddress kVoiceActivityDetectionState{
        kAudioDevicePropertyVoiceActivityDetectionState,
        kAudioDevicePropertyScopeInput,
        kAudioObjectPropertyElementMain };
status = AudioObjectAddPropertyListener(deviceID, &kVoiceActivityDetectionState, (AudioObjectPropertyListenerProc)listener_callback, NULL); // “listener_callback” is the name of your listener function

13:13 - Voice activity detection - listener_callback implementation

OSStatus listener_callback(
    AudioObjectID                 inObjectID,
    UInt32                        inNumberAddresses,
    const AudioObjectPropertyAddress*   __nullable inAddresses,
    void* __nullable              inClientData)
{
  // Assuming this is the only property we are listening for, therefore no need to go through inAddresses
       UInt32 voiceDetected = 0;
     UInt32 propertySize = sizeof(UInt32);
     OSStatus status = AudioObjectGetPropertyData(inObjectID, &kVoiceActivityState, 0, NULL, &propertySize, &voiceDetected);
  
       if (kAudioHardwareNoError == status) {
 if (voiceDetected == 1) {
    // voice activity detected
	} else if (voiceDetected == 0) {
		    // voice activity not detected
	}
 }
 return status;
};