個人的な意見を言うと気にしなくていいと思います。
訓練データの精度は「学習が進んでるなー」くらいの数字であって、それを評価データの精度と比較してもわかることは少ないです。
なぜなら、どんなデータにおいても常に
訓練データの精度>評価データの精度
の関係が成り立っており、どれくらい乖離しているかなどは定量的に意味があることはほぼありません。
過学習、少なくとも「訓練データの精度>評価データの精度」は必ず起きますので、悪いことではありません。
との前置きを言った上ですが、例えばこんなことが考えられます
・前半のepochでは、大きくロスを下げるために訓練データ全体に適合した学習をする必要があります。見たことある訓練データの精度はおよそ高くなりますが、学習自体は大雑把とも言えます
・後半のepochでは、十分にロスが下がっているため学習データ内の小さなミスを潰していく必要があります。データ全体をみた正確な予測ができるようになります。
この辺が評価データと噛み合ったのではないでしょうか。