神经⽹络 HAL 1.2 引⼊了突发执⾏的概念。突发执⾏是同⼀个预编译模型的⼀系列快速连续执⾏,例如对相机捕获帧或连续音频样本进⾏操作的执⾏。突发对象⽤于控制⼀组突发执⾏,并在执⾏之间保留资源,从⽽降低执⾏开销。突发对象⽀持以下三种优化:
- 突发对象在执⾏序列开始之前创建,并在序列结束时释放。因此,突发对象的⽣命周期向驱动程序暗示了其应保持⾼性能状态的时⻓。
- 突发对象可以在执⾏之间保留资源。例如,驱动程序可以在⾸次执⾏时映射内存对象,并将映射缓存到突发对象中,以便在后续执⾏中重复使⽤。任何缓存的资源都可以在突发对象销毁时或 NNAPI 运⾏时通知突发对象资源不再需要时释放。
- 突发对象使⽤快速消息队列 (FMQ) 在应用和驱动程序进程之间进行通信。这可以减少延迟,因为 FMQ 会绕过 HIDL,并通过共享内存中的原子循环 FIFO 将数据直接传递到另一个进程。消费者进程通过轮询 FIFO 中元素的数量或等待 FMQ 的事件标志来获知何时将项目出队并开始处理,事件标志由生产者发出信号。此事件标志是快速用户空间互斥锁 (futex)。
FMQ 是一种底层数据结构,不提供跨进程的生命周期保证,也没有内置机制来确定 FMQ 另一端的进程是否按预期运行。因此,如果 FMQ 的生产者进程崩溃,消费者进程可能会卡住,一直等待永远不会到达的数据。解决此问题的一种方案是让驱动程序将 FMQ 与更高级别的 burst 对象关联,以检测 burst 执行何时结束。
由于 burst 执行操作的参数与其他执行路径相同,并且返回的结果也相同,因此底层的 FMQ 必须向 NNAPI 服务驱动程序传递相同的数据。但是,FMQ 只能传输普通数据类型 (plain-old-data types)。传输复杂数据的方法是在 FMQ 中直接序列化和反序列化嵌套缓冲区(向量类型),并使用 HIDL 回调对象按需传输内存池句柄。FMQ 的生产者端必须使用 MessageQueue::writeBlocking
(如果队列是阻塞的)或使用 MessageQueue::write
(如果队列是非阻塞的)以原子方式将请求或结果消息发送给消费者端。
Burst 接口
Neural Networks HAL 的 burst 接口位于 hardware/interfaces/neuralnetworks/1.2/
中,如下所述。有关 NDK 层 burst 接口的更多信息,请参阅 frameworks/ml/nn/runtime/include/NeuralNetworks.h
。
types.hal
types.hal
定义了通过 FMQ 发送的数据类型。
FmqRequestDatum
:执行Request
对象和MeasureTiming
值的序列化表示的单个元素,通过快速消息队列发送。FmqResultDatum
:从执行返回的值(ErrorStatus
、OutputShapes
和Timing
)的序列化表示的单个元素,通过快速消息队列返回。
IBurstContext.hal
IBurstContext.hal
定义了驻留在 Neural Networks 服务中的 HIDL 接口对象。
IBurstContext
:用于管理 burst 资源的上下文对象。
IBurstCallback.hal
IBurstCallback.hal
定义了由 Neural Networks 运行时创建的回调的 HIDL 接口对象,Neural Networks 服务使用该对象来检索与槽标识符对应的 hidl_memory
对象。
- IBurstCallback:服务用于检索内存对象的回调对象。
IPreparedModel.hal
IPreparedModel.hal
在 HAL 1.2 中进行了扩展,增加了一个从预编译模型创建 IBurstContext
对象的方法。
configureExecutionBurst
:配置 burst 对象,用于在预编译模型上快速连续地执行多次推理。
在驱动程序中支持 burst 执行
在 HIDL NNAPI 服务中支持 burst 对象的最简单方法是使用 burst 实用程序函数 ::android::nn::ExecutionBurstServer::create
,该函数位于 ExecutionBurstServer.h
中,并打包在 libneuralnetworks_common
和 libneuralnetworks_util
静态库中。此工厂函数有两个重载
- 其中一个重载接受指向
IPreparedModel
对象的指针。此实用程序函数使用IPreparedModel
对象中的executeSynchronously
方法来执行模型。 - 另一个重载接受可自定义的
IBurstExecutorWithCache
对象,该对象可用于缓存跨多次执行持久存在的资源(例如hidl_memory
映射)。
每个重载都返回一个 IBurstContext
对象(表示 burst 对象),其中包含并管理其自己的专用侦听器线程。此线程从 requestChannel
FMQ 接收请求,执行推理,然后通过 resultChannel
FMQ 返回结果。当 burst 的客户端丢失对 IBurstContext
的引用时,此线程和 IBurstContext
对象中包含的所有其他资源将自动释放。
或者,您可以创建自己的 IBurstContext
实现,该实现了解如何通过传递给 IPreparedModel::configureExecutionBurst
的 requestChannel
和 resultChannel
FMQ 发送和接收消息。
burst 实用程序函数位于 ExecutionBurstServer.h
中。
/**
* Create automated context to manage FMQ-based executions.
*
* This function is intended to be used by a service to automatically:
* 1) Receive data from a provided FMQ
* 2) Execute a model with the given information
* 3) Send the result to the created FMQ
*
* @param callback Callback used to retrieve memories corresponding to
* unrecognized slots.
* @param requestChannel Input FMQ channel through which the client passes the
* request to the service.
* @param resultChannel Output FMQ channel from which the client can retrieve
* the result of the execution.
* @param executorWithCache Object which maintains a local cache of the
* memory pools and executes using the cached memory pools.
* @result IBurstContext Handle to the burst context.
*/
static sp<ExecutionBurstServer> create(
const sp<IBurstCallback>& callback, const FmqRequestDescriptor& requestChannel,
const FmqResultDescriptor& resultChannel,
std::shared_ptr<IBurstExecutorWithCache> executorWithCache);
/**
* Create automated context to manage FMQ-based executions.
*
* This function is intended to be used by a service to automatically:
* 1) Receive data from a provided FMQ
* 2) Execute a model with the given information
* 3) Send the result to the created FMQ
*
* @param callback Callback used to retrieve memories corresponding to
* unrecognized slots.
* @param requestChannel Input FMQ channel through which the client passes the
* request to the service.
* @param resultChannel Output FMQ channel from which the client can retrieve
* the result of the execution.
* @param preparedModel PreparedModel that the burst object was created from.
* IPreparedModel::executeSynchronously will be used to perform the
* execution.
* @result IBurstContext Handle to the burst context.
*/
static sp<ExecutionBurstServer> create(const sp<IBurstCallback>& callback,
const FmqRequestDescriptor& requestChannel,
const FmqResultDescriptor& resultChannel,
IPreparedModel* preparedModel);
以下是在 Neural Networks 示例驱动程序 frameworks/ml/nn/driver/sample/SampleDriver.cpp
中找到的 burst 接口的参考实现。
Return<void> SamplePreparedModel::configureExecutionBurst(
const sp<V1_2::IBurstCallback>& callback,
const MQDescriptorSync<V1_2::FmqRequestDatum>& requestChannel,
const MQDescriptorSync<V1_2::FmqResultDatum>& resultChannel,
configureExecutionBurst_cb cb) {
NNTRACE_FULL(NNTRACE_LAYER_DRIVER, NNTRACE_PHASE_EXECUTION,
"SampleDriver::configureExecutionBurst");
// Alternatively, the burst could be configured via:
// const sp<V1_2::IBurstContext> burst =
// ExecutionBurstServer::create(callback, requestChannel,
// resultChannel, this);
//
// However, this alternative representation does not include a memory map
// caching optimization, and adds overhead.
const std::shared_ptr<BurstExecutorWithCache> executorWithCache =
std::make_shared<BurstExecutorWithCache>(mModel, mDriver, mPoolInfos);
const sp<V1_2::IBurstContext> burst = ExecutionBurstServer::create(
callback, requestChannel, resultChannel, executorWithCache);
if (burst == nullptr) {
cb(ErrorStatus::GENERAL_FAILURE, {});
} else {
cb(ErrorStatus::NONE, burst);
}
return Void();
}