これを書いている時点(TensorFlow 1.0)での情報です。マルチGPUなコードでXLAを有効にするとGPUを交互に使用するような(片方0%片方100%を繰り返す)挙動になります。
参考 : TensorFlow XLA with multiple gpu does not use GPU at the same time
現状マルチGPUなマシンを使っていると「XLAは諦める」「マルチGPUは諦める」「一つのマシンでマルチノードをやる」のいずれかの選択肢になるのかなと思います。自分はXLAを諦めてマルチGPUでやってます。XLA自体TensorFlow 1.0であってもexperimentalなのでまあ暖かく見守っていきます。
TensorFLow 1.0発表時にGoogleリサーチブログで出ていた「 including a 7.3x speedup on 8 GPUs for Inception v3 and 58x speedup for distributed Inception v3 training on 64 GPUs!」というのはシングルGPUのマルチノードの話だったのかなと推測しています。