**背景:**需要把這些模型,用在 Resource-constrained 的、在資源比較有限的環境下(智能手表、无人机)⇒Latency、Private
把碩大無朋的模型縮小、简化,讓它有比較少量的參數,但是跟原來有差不多的的效能。
“樹大必有枯枝”,一個這麼大的 Network,裡面有很多很多的參數,很多參數什麼事也沒有做,放在那邊就只是佔空間、浪費運算資源而已。
Network Pruning 的基本概念,就是把一個大的 Network中沒有用的那些參數把找出來删除掉。
训练一个大的模型
评估重要性
移除不重要的参数/神经元,减小模型大小
此时,模型性能会下降
微调剩余的参数,重新训练
循环进行
一次智能剪掉一点参数,若剪得过多,则性能可能无法回复
难以实现、难以使用矩阵加速
使用0来代替被剪掉的权重⇒模型实际上没有变小