论文阅读:《Generalization Guarantees for Neural Architecture Search with Train-Validation Split》


pdf

相当长,69页,体量相当于一篇综述了。

标题释义:具有训练-验证拆分的神经架构搜索的泛化保证

介绍

HPO:Hyperparameter optimization,超参数优化。
NAS:Neural Architecture Search,神经架构搜索。
NAS是一种特殊的HPO。
NAS/HPO问题通常被建模成二级优化问题。低层级优化负责优化权重,高层级优化负责优化超参数-即架构。
这种方式非常依赖数据集的训练-验证划分。

主流研究对可微HPO方法(differentiable HPO method)比较感兴趣。
类似的(可微)方法也被用在数据增强策略(data-augmentation policy)和元学习(meta-learning)上。
然而,这么大的搜索空间下,HPO/NAS方法的泛化性能尚不明确,训练-验证划分对此泛化性能的好处也尚不明确。

Training loss通常并不能说明模型的性能,因为较大的网络很容易对数据集发生过拟合,从而导致loss归零。
用数学语言来说明,用\(n_{T}\)\(n_{V}\)表示训练集和测试集的大小,p和h表示参数(parameter)和超参数(hyperparameter)的数目。那么在深度学习NAS问题中,典型的情形如下:

\[p\ge n_T \ge n_V \ge h \]

本文的主要问题:(原文说得不太对劲,我自己照自己的理解说了一遍)
在深度学习优化问题本身就容易导致参数臃肿的情况下,在NAS中应用train-val分割是如何能避免这一点的?

(然后是篇章介绍)
第三节内容:使用train-val拆分,达到泛化。我们意在证明,像risk、hyper-gradient这种validation loss的精心挑选的变体,是测试时的好指标。