浅析激活函数之Relu函数,relu函数
如何更好地调试神经网络?
声明:本文适用于神经网络初学者。神经网络的调试要比绝大多数程序更困难,因为大多数bug不会导致运行错误,只会导致不良的收敛。也许还会有许多看似模棱两可的错误信息:性能错误:你的神经网络没有训练好(Performance Error: your neural net did not train well.)。
如果你经验丰富,就应该知道这表示代码还需要大改动。一、处理NaN?多数情况下,NaN错误在前100次迭代中出现,原因很简单:你的学习率过高了。当学习率非常高的时候,就会在前100次迭代的时候出现NaN错误。用因子为3来降低学习率,直到前100次迭代不再出现NaN错误。这么做一旦有效,你就有了一个非常好的学习率作为开端。
根据我的经验,最好的学习率是你得到NaN错误的范围的一到十分之一。如果你在100次迭代之后碰到了NaN错误,又有两种常见原因。如果你使用的是RNN,确保你使用了梯度下降,并对梯度使用L2正则化。RNN似乎在训练早期会产生梯度,10%或更少的批次有学习峰值,此时的梯度幅值是相当高的。没有对梯度削减,这些峰值会产生NaN。
如果写的是自定义的网络层,那么很有可能因为除以0而引发NaN。另一个众所周知会产生Nan错误的层是Softmax层。Softmax计算包括分子分母的exp(x)操作,它可以用无穷大除以无穷大,会产生NaN。确保你使用了稳定的Softmax实现。 二、神经网络无法学习?一旦你没有了NaN错误,那么你的神经网络就可以在上千次迭代中平稳运行,而且不会在前几百次迭代后减少训练损失。
当你第一次构建代码库的时候,最好别使用2000次迭代。这并不是因为所有的网络可以从低于2000次迭代开始学习。相反,从开头开始编码网络很可能出现bug,在达到高迭代次数之前,你会想要过早进行调试。现在的目的是一次又一次地缩小问题范围,直到你得到了一个在2000次迭代以下训练出来的网络。幸运地是,有两种方式来降低复杂性。
将训练集大小减小到10个实例。在几百次的迭代中,在这10个实例上,神经网络通常会出现过度拟合的情况。许多编码错误不会导致过拟合的出现。如果你的网络在10个实例的训练集上没有出现过度拟合,那么确保你使用的数据挂上了正确的标签。将批次大小减小到1来检查批次计算错误。在代码中添加打印语句确保输出与你期望的一致。
通常情况下,你可以通过上面介绍的纯粹蛮力来找出错误。一旦网络可以在10个实例上训练,你可以试着让它在100个实例上训练。如果这种方式运行正常,但效果不是很好,你可以试试下面的方法。解决你感兴趣的最简单的问题。如果你想翻译句子,首先可以建立一个针对特定语言的语言模型。如果你完成了,那么试着在给出3个词语的情况下预测翻译出来的第一个词。
如果你想检测图像中的物体,那么在训练回归网络之前,你可以对图像中物体数目进行分类。在网络能够解决的棘手问题和使用最少的时间让代码得到合适的数据之间需要权衡。这个时候就要发挥你的创造能力了。将神经网络运用于其他新场景的技巧是合理使用上面介绍的两个步骤。这是一种协调机制,并且效果不错。首先,你表明这个神经网络至少可以记住几个例子。
然后这个神经网络可以泛化到更简单问题的验证集中。你慢慢在取得稳步进展时提升难度。这并没有高手第一次使用的Karpathy风格那么有趣,但至少它起作用。有时候你会碰到棘手的问题,你会发现它在2000次迭代中不会继续学习了。那很棒!但它的迭代次数很少会是这个问题之前复杂度下迭代次数的10倍。如果你发现是这种情况,尝试搜索中等水平的复杂度。
三、调整超参数现在你的网络可以学习东西了,你可能会得意忘形。你还可能发现你训练的网络并不能够解决大多数复杂的问题。超参数调整就是解决问题的关键。有些人直接下载一个CNN的包然后在他们的数据集上运行,然后告诉你说使用超参数调整并没有带来什么不同。这是因为它们使用已经存在的架构来解决已经存在的问题。如果你要解决的问题需要新的架构呢,通过超参数调整来得到良好的设置就是必须的了。
你最好确保针对你要解决的问题阅读了超参数教程,不过我还是会在下面列出一些基本思想。可视化:不要怕在训练过程中花时间编写自定义可视化工具。如果你的可视化方法效果不行,那么考虑换另一种方法。权重初始化:一般情况下,较大的初始化权重是个不错的选择,但是太大又会导致NaN。确保权重看起来“健康”。要了解这是什么意思,我建议在IPython的notebook中查看现有网络的权重值。
花些时间来观察在诸如ImageNet或Penn Tree Bank这些标准的数据集上训练的成熟的网络中成分的权重的直方图应该是什么样的。神经网络的w.r.t.输入不是不变的,特别是在使用SGD而不是其他方法训练的时候,因为SGD不是尺度不变的方法。花时间用与扩展其他方面的方式来扩展输入数据和输出标签。
在训练过程中降低学习速率几乎总会给你带来提升。最好的衰减策略通常是:在k次迭代后,每n次迭代就用学习率除以1.5,k
本文地址:http://vio62.55jiaoyu.com/show-735920.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
推荐文档
- 11.廊坊燕京职业技术学院怎么样好不好,附排名简介校友评价(10条)
- 12.10画的字有哪些(十笔画的字适合取名字男孩)
- 13.吉林工程技术师范学院一年学费多少钱?附各专业的收费标准(往年参考)
- 14.山西财经大学华商学院教务管理系统登录入口、成绩查询网上选课查分
- 15.仰恩大学是几本怎么样,是一本吗
- 16.iPhone11和iPhoneX哪个好-iPhone11和iPhoneX测评
- 17.科技学校(科技学校和职业学校有什么区别)
- 18.以“严格要求自己”为话题作文600字最新2篇
- 19.大大世界歌词谐音大大世界歌词中文歌词(大大世界歌词英文歌词翻译)
- 20.夸奖一个男人工作能力强的句子
- 21.have用法(英语吃eat、have用法)
- 22.硁硁然小人哉什么意思
- 23.苹果13信号不好什么原因,为什么我的iPhone的信号总是不满格移动的
- 24.郑州树青医学院(郑州树青医学院中等专业学校怎么样)
- 25.中国四大医学院是哪几个(中国最好的四个医院)
- 26.合川太和(合川太和医院属于什么医院)
- 27.华东理工大学是985吗,有哪些优势专业
- 28.加拿大女王大学世界排名往年(加拿大女王大学排名参考)
- 29.食品安全专业(食品安全专业技术人员和食品安全管理人员)
- 30.育才集团(育才集团山海学校怎么样)
- 31.高中艺术学校排名(艺术高中学校有哪些)
- 32.水寨中学(水寨中学录取分数线预测2023小升初)
- 33.11131(1113151719找规律计算)
- 34.西南交通大学排名往年最新排名全国第37名
- 35.武皇开边意未已全句及释义
- 36.沈阳理工大学排名(沈阳理工大学排名为什么很低)
- 37.往年湖南高考试卷及参考答案(各科完整汇总)
- 38.抚顺人口总数,抚顺最新常住人口和外来人数数量统计
- 39.浙江科技学院更名失败?浙江科技学院升大学?
- 40.词语解释:韵事的意思是什么
- 41.tumble dry是什么意思
- 42.技术经济与管理为啥冷门,好不好就业
- 43.防灾减灾工作开展情况汇报材料(精选两篇)
- 44.临水是哪个省的城市(临水是哪个省的城市-,本地宝)
- 45.唐传奇中的女性形象分析
- 46.生长痛究竟是单腿还是双腿呢分析
- 47.贯彻落实八项规定实施细则全文
- 48.大连普兰店招聘网,大连普兰店人才就业网
- 49.true和truly的区别
- 50.2023沧州正业涉外旅游职业技术学校简介(学校简介/学校怎么样)
- 51.鸡兔同笼题10道及答案
- 52.武汉体育学院体育科技学院排名(最新)
- 53.fairy是什么意思
- 54.土耳其是那里(土耳其那里打仗了吗去的话安全吗)
- 55.吴江宾馆(吴江宾馆是几星级酒店)
- 56.沸石为什么能防止暴沸
- 57.中公教育专升本培训班价格表(中公教育专升本好不好)
- 58.井冈山大学教务处,jwc.jgsu.edu.cn
- 59.握手的作文600字10篇(握手***作文600字初中)
- 60.C2H6O:C2H6O2是什么,结构简式是什么,有哪些性质
- 51.京州市规划图是哪里,含京州国际产业园等
- 52.欢迎登录丨前程无忧,51招聘网
- 53.国家政策查询上白鹿,白鹿智库
- 54.野草诗社五院《百花园集》,百花香手机铃声免费下载
- 55.中广核待遇,中广核待遇怎么样
- 56.联发科MT8127刷机包,8寸IPS屏导航四核酷比魔方U27GT
- 57.黄骅第四中学电话号码是多少,走进黄骅市第四中学
- 58.华电邵武电厂工资多少,福建华电邵武电厂工资
- 59.高尔夫6手刹开关怎么拆(高尔夫6手刹开关怎么拆开)
- 60.4月1号天津限行尾号
- 61.辅机间是什么意思,汽机各辅机的作用
- 62.设备计划检修必须得到什么的批准,特种设备安全及操作人员相关问题
- 63.麻窝水电站附近有什么好处,及时了解火灾灾情
- 64.莱芜城发广场建什么,城发广场开幕在即
- 65.?负忧?三官计生办在哪里,三官街道扎实开展人口计生工作
- 66.破碎物资一天能捐多少钱,到底要砸多少钱
- 67.多少目能过滤蓝藻,做好这些杜绝蓝藻
- 68.北张家园怎么样,小区隔离封闭怎么办
- 69.万源大唐在哪里,大唐盛世的爱情之道
- 70.漳浦哪里纳入圆山新城,构建创新经济中心

