突发执行和快速消息队列

神经⽹络 HAL 1.2 引⼊了突发执⾏的概念。突发执⾏是同⼀个预编译模型的⼀系列快速连续执⾏,例如对相机捕获帧或连续音频样本进⾏操作的执⾏。突发对象⽤于控制⼀组突发执⾏,并在执⾏之间保留资源,从⽽降低执⾏开销。突发对象⽀持以下三种优化:

  1. 突发对象在执⾏序列开始之前创建,并在序列结束时释放。因此,突发对象的⽣命周期向驱动程序暗示了其应保持⾼性能状态的时⻓。
  2. 突发对象可以在执⾏之间保留资源。例如,驱动程序可以在⾸次执⾏时映射内存对象,并将映射缓存到突发对象中,以便在后续执⾏中重复使⽤。任何缓存的资源都可以在突发对象销毁时或 NNAPI 运⾏时通知突发对象资源不再需要时释放。
  3. 突发对象使⽤快速消息队列 (FMQ) 在应用和驱动程序进程之间进行通信。这可以减少延迟,因为 FMQ 会绕过 HIDL,并通过共享内存中的原子循环 FIFO 将数据直接传递到另一个进程。消费者进程通过轮询 FIFO 中元素的数量或等待 FMQ 的事件标志来获知何时将项目出队并开始处理,事件标志由生产者发出信号。此事件标志是快速用户空间互斥锁 (futex)。

FMQ 是一种底层数据结构,不提供跨进程的生命周期保证,也没有内置机制来确定 FMQ 另一端的进程是否按预期运行。因此,如果 FMQ 的生产者进程崩溃,消费者进程可能会卡住,一直等待永远不会到达的数据。解决此问题的一种方案是让驱动程序将 FMQ 与更高级别的 burst 对象关联,以检测 burst 执行何时结束。

由于 burst 执行操作的参数与其他执行路径相同,并且返回的结果也相同,因此底层的 FMQ 必须向 NNAPI 服务驱动程序传递相同的数据。但是,FMQ 只能传输普通数据类型 (plain-old-data types)。传输复杂数据的方法是在 FMQ 中直接序列化和反序列化嵌套缓冲区(向量类型),并使用 HIDL 回调对象按需传输内存池句柄。FMQ 的生产者端必须使用 MessageQueue::writeBlocking(如果队列是阻塞的)或使用 MessageQueue::write(如果队列是非阻塞的)以原子方式将请求或结果消息发送给消费者端。

Burst 接口

Neural Networks HAL 的 burst 接口位于 hardware/interfaces/neuralnetworks/1.2/ 中,如下所述。有关 NDK 层 burst 接口的更多信息,请参阅 frameworks/ml/nn/runtime/include/NeuralNetworks.h

types.hal

types.hal 定义了通过 FMQ 发送的数据类型。

  • FmqRequestDatum:执行 Request 对象和 MeasureTiming 值的序列化表示的单个元素,通过快速消息队列发送。
  • FmqResultDatum:从执行返回的值(ErrorStatusOutputShapesTiming)的序列化表示的单个元素,通过快速消息队列返回。

IBurstContext.hal

IBurstContext.hal 定义了驻留在 Neural Networks 服务中的 HIDL 接口对象。

IBurstCallback.hal

IBurstCallback.hal 定义了由 Neural Networks 运行时创建的回调的 HIDL 接口对象,Neural Networks 服务使用该对象来检索与槽标识符对应的 hidl_memory 对象。

IPreparedModel.hal

IPreparedModel.hal 在 HAL 1.2 中进行了扩展,增加了一个从预编译模型创建 IBurstContext 对象的方法。

在驱动程序中支持 burst 执行

在 HIDL NNAPI 服务中支持 burst 对象的最简单方法是使用 burst 实用程序函数 ::android::nn::ExecutionBurstServer::create,该函数位于 ExecutionBurstServer.h 中,并打包在 libneuralnetworks_commonlibneuralnetworks_util 静态库中。此工厂函数有两个重载

  • 其中一个重载接受指向 IPreparedModel 对象的指针。此实用程序函数使用 IPreparedModel 对象中的 executeSynchronously 方法来执行模型。
  • 另一个重载接受可自定义的 IBurstExecutorWithCache 对象,该对象可用于缓存跨多次执行持久存在的资源(例如 hidl_memory 映射)。

每个重载都返回一个 IBurstContext 对象(表示 burst 对象),其中包含并管理其自己的专用侦听器线程。此线程从 requestChannel FMQ 接收请求,执行推理,然后通过 resultChannel FMQ 返回结果。当 burst 的客户端丢失对 IBurstContext 的引用时,此线程和 IBurstContext 对象中包含的所有其他资源将自动释放。

或者,您可以创建自己的 IBurstContext 实现,该实现了解如何通过传递给 IPreparedModel::configureExecutionBurstrequestChannelresultChannel FMQ 发送和接收消息。

burst 实用程序函数位于 ExecutionBurstServer.h 中。

/**
 * Create automated context to manage FMQ-based executions.
 *
 * This function is intended to be used by a service to automatically:
 * 1) Receive data from a provided FMQ
 * 2) Execute a model with the given information
 * 3) Send the result to the created FMQ
 *
 * @param callback Callback used to retrieve memories corresponding to
 *     unrecognized slots.
 * @param requestChannel Input FMQ channel through which the client passes the
 *     request to the service.
 * @param resultChannel Output FMQ channel from which the client can retrieve
 *     the result of the execution.
 * @param executorWithCache Object which maintains a local cache of the
 *     memory pools and executes using the cached memory pools.
 * @result IBurstContext Handle to the burst context.
 */
static sp<ExecutionBurstServer> create(
        const sp<IBurstCallback>& callback, const FmqRequestDescriptor& requestChannel,
        const FmqResultDescriptor& resultChannel,
        std::shared_ptr<IBurstExecutorWithCache> executorWithCache);

/**
 * Create automated context to manage FMQ-based executions.
 *
 * This function is intended to be used by a service to automatically:
 * 1) Receive data from a provided FMQ
 * 2) Execute a model with the given information
 * 3) Send the result to the created FMQ
 *
 * @param callback Callback used to retrieve memories corresponding to
 *     unrecognized slots.
 * @param requestChannel Input FMQ channel through which the client passes the
 *     request to the service.
 * @param resultChannel Output FMQ channel from which the client can retrieve
 *     the result of the execution.
 * @param preparedModel PreparedModel that the burst object was created from.
 *     IPreparedModel::executeSynchronously will be used to perform the
 *     execution.
 * @result IBurstContext Handle to the burst context.
 */
  static sp<ExecutionBurstServer> create(const sp<IBurstCallback>& callback,
                                         const FmqRequestDescriptor& requestChannel,
                                         const FmqResultDescriptor& resultChannel,
                                         IPreparedModel* preparedModel);

以下是在 Neural Networks 示例驱动程序 frameworks/ml/nn/driver/sample/SampleDriver.cpp 中找到的 burst 接口的参考实现。

Return<void> SamplePreparedModel::configureExecutionBurst(
        const sp<V1_2::IBurstCallback>& callback,
        const MQDescriptorSync<V1_2::FmqRequestDatum>& requestChannel,
        const MQDescriptorSync<V1_2::FmqResultDatum>& resultChannel,
        configureExecutionBurst_cb cb) {
    NNTRACE_FULL(NNTRACE_LAYER_DRIVER, NNTRACE_PHASE_EXECUTION,
                 "SampleDriver::configureExecutionBurst");
    // Alternatively, the burst could be configured via:
    // const sp<V1_2::IBurstContext> burst =
    //         ExecutionBurstServer::create(callback, requestChannel,
    //                                      resultChannel, this);
    //
    // However, this alternative representation does not include a memory map
    // caching optimization, and adds overhead.
    const std::shared_ptr<BurstExecutorWithCache> executorWithCache =
            std::make_shared<BurstExecutorWithCache>(mModel, mDriver, mPoolInfos);
    const sp<V1_2::IBurstContext> burst = ExecutionBurstServer::create(
            callback, requestChannel, resultChannel, executorWithCache);
    if (burst == nullptr) {
        cb(ErrorStatus::GENERAL_FAILURE, {});
    } else {
        cb(ErrorStatus::NONE, burst);
    }
    return Void();
}