论文阅读：《Generalization Guarantees for Neural Architecture Search with Train-Validation Split》

pdf

相当长，69页，体量相当于一篇综述了。

标题释义：具有训练-验证拆分的神经架构搜索的泛化保证

介绍

HPO：Hyperparameter optimization，超参数优化。
NAS：Neural Architecture Search，神经架构搜索。
NAS是一种特殊的HPO。
NAS/HPO问题通常被建模成二级优化问题。低层级优化负责优化权重，高层级优化负责优化超参数-即架构。
这种方式非常依赖数据集的训练-验证划分。

主流研究对可微HPO方法（differentiable HPO method）比较感兴趣。
类似的（可微）方法也被用在数据增强策略（data-augmentation policy）和元学习（meta-learning）上。
然而，这么大的搜索空间下，HPO/NAS方法的泛化性能尚不明确，训练-验证划分对此泛化性能的好处也尚不明确。

Training loss通常并不能说明模型的性能，因为较大的网络很容易对数据集发生过拟合，从而导致loss归零。
用数学语言来说明，用\(n_{T}\)和\(n_{V}\)表示训练集和测试集的大小，p和h表示参数（parameter）和超参数（hyperparameter）的数目。那么在深度学习NAS问题中，典型的情形如下：

\[p\ge n_T \ge n_V \ge h \]

本文的主要问题：（原文说得不太对劲，我自己照自己的理解说了一遍）
在深度学习优化问题本身就容易导致参数臃肿的情况下，在NAS中应用train-val分割是如何能避免这一点的？

（然后是篇章介绍）
第三节内容：使用train-val拆分，达到泛化。我们意在证明，像risk、hyper-gradient这种validation loss的精心挑选的变体，是测试时的好指标。

论文阅读

论文阅读：《Generalization Guarantees for Neural Architecture Search with Train-Validation Split》

介绍

相关

【论文阅读】End to End Learning for Self-Driving Cars

【论文阅读】End to End Learning for Self-Driving Cars

【论文阅读】FLAT: Chinese NER Using Flat-Lattice Transformer[ACL2020]

论文阅读_时序模型Shapelet

【论文阅读】Exploring the Limitations of Behavior Cloning for Autonomous Driving

【论文阅读】Design and Evaluation of Affective Virtual Reality System Based on M

【论文阅读】Emotion Recognition Using a Glasses-Type Wearable Device via Multi-C

【论文阅读】Validation of dynamic virtual faces for facial affect recognition

【论文阅读】Artificial Neural Networks to Assess Emotional States from Brain-Com

论文阅读 SelectiveTaint: Efficient Data Flow Tracking With Static Binary Rewriti

论文阅读 SelectiveTaint: Efficient Data Flow Tracking With Static Binary Rewriti

论文阅读 SelectiveTaint: Efficient Data Flow Tracking With Static Binary Rewriti

标签