In-place depth-wise Convolution
depth wise convolutionは2N(入力N,出力N)のPeak Memoryを使用する。
しかしdepth wise convolutionはchannel間の依存関係が無いため、計算が終わったChannelはデータを書き換えても問題ない。
そこでtemporally bufferを用意する事で、N+1のPeak Memory Usageに抑える事が出来る。
interpretation to code generation
ほとんどのinference libraries(e.g., TF-Lite)はinterpreter-baseである。使わないfunctionなども準備して置く必要があり、MemoryのOverheadが生じてしまう。runtimeにoperationを呼ぶのではなく、compilation時にコードを生成する事で必要最低限のfunctionで動くためMemoryを節約出来る。