当已知未来的移动轨迹等信息时,面向视频点播业务的预测资源分配可以在保证移动用户体验的前提下降低基站能耗或提高网络吞吐量。 传统的预测资源分配方法采用先预测用户轨迹等信息再优化功率等资源分配的方法,在预测窗较长时预测误差大,导致预测所带来的增益降低。为了解决这个问题,近期已有文献把预测资源分配建模为马尔科夫决策过程、采用深度强化学习进行在线决策。 然而,对于这类适于采用强化学习的马尔科夫决策过程,现有文献往往以试错的方式对状态进行设计。此外,对于有约束的优化问题,现有利用强化学习解决无线问题的方法大多通过在奖励函数上加入包含需要手动调节超参数的惩罚项满足约束。本文以移动用户视频播放不卡顿约束下使基站发射能耗最小的目标为例,提出了端到端在线求解预测资源分配的无监督深度学习方法对信息预测和资源分配进行联合优化,能以系统化的方式设计状态且满足约束,建立了这种方法与深度强化学习的联系。仿真结果表明,所提出的在线无监督深度学习与深度强化学习所达到的发射能耗相近,但能够简化状态的设计,验证了理论分析结果。