👁️ 📬 👩‍🎓 安德鲁·安（Andrew Un）的书《机器学习的激情》第38和39章的翻译 🚋 🗞️ 🤴🏿

38.如何确定是否添加具有不同分布的数据

假设我们想学习如何预测纽约的房价。根据房屋的大小（输入符号x），有必要预测其价格（目标值y）。

纽约的房屋价格很高。假设您有密歇根州底特律的第二个房价数据集，那里的房地产便宜得多。该数据是否应包括在训练集中？

如果x的大小相同，则y房屋的价格会有所不同，具体取决于它是在纽约还是在底特律。如果有必要预测纽约的房价，则将这两个数据集合并会降低结果。在这种情况下，最好不要将底特律属性数据添加到训练集中。

* 作者的注释解决底特律数据与纽约数据不兼容问题的一种方法是在每个指示城市的样本数据中添加一个附加参数。给定参数x指示城市，y的目标值将变为唯一。但是，这种方法在实践中很少见。

纽约和底特律房地产价格数据的这种情况与从移动应用程序和互联网获取的猫的图像的情况有何不同？

主要区别在于，通过查看图像，您始终可以放心地说出它属于哪个类别（有或没有猫）。该图像是来自移动应用程序还是在Internet上找到都没有关系。因此，在猫检测器中存在一个函数f（x），该函数可靠地将输入数据x显示到输出类别（标签y），无论图片的来源如何。因此，Internet上图像识别的任务与从移动应用程序识别图像的任务“兼容”（一致）。因此，在将所有数据包括在训练集中时（不算增加计算能力的需要），应该不会有任何特殊问题，而有机会从所有数据的训练中获得重大收益。

相反，纽约和密歇根州底特律的房屋数据及其价格不兼容（一致）。房屋大小相同x时，其价格根据所在州的不同而有很大差异。

39.使用参数来平衡来自不同分布的数据

, 200 000 5000 . 40:1. , 205 000 , , -, .

, 40 "-", , 40 ( ) , 5000 .

, .

, ( , ). , :

5000 , 200 000. β:

β = 1/40, 5000 200 000 -. β , , .

通过减少从Internet获得的图像中的错误的权重，对算法应对两种数据分布所必需的大型神经网络的需求就消失了。仅当怀疑附加数据（来自Internet的图像）的分布与验证和测试样本有很大差异，或者如果附加数据量远远超过与验证相对应的分布数据量时，才需要使用这种重新分配误差函数权重的方法。和测试样本（来自移动应用程序的图像）。

延续

安德鲁·安（Andrew Un）的书《机器学习的激情》第38和39章的翻译

38.如何确定是否添加具有不同分布的数据

39.使用参数来平衡来自不同分布的数据

More articles: