Deep Learning において学習率などのハイパーパラメータは性能に大きな影響を与えるが、その最適値はモデルアーキテクチャに依存すると考えられており、現在も人手による調整が主流である。近年、Deep Linear Networks では、幅や深さが異なるモデル間でハイパーパラメータが転移可能な条件が示されている。一方で、ReLU などの非線形活性化関数を含む Deep Nonlinear Networks への転移については、十分な検証がなされていない。
本テーマでは、Deep Linear Networks と Deep Nonlinear Networks の関連性を、ハイパーパラメータの転移可能性の観点から分析する。さらに、その結果を踏まえ、ハイパーパラメータの転移が成立しやすいモデル構造を提案することを目指す。