9. k-近邻的k的影响有多大?

源码 2024-9-27 18:16:50 104 0 来自 中国
k-近邻涉及到的参数不多,也容易玩,因此我们来看下最为关键的参数k,对结果的影响。
之前我们都是把结果设置成了3,如数字识别,3的结果是1.06%的错误率。
我们来看看其他的:
1:最靠近哪个就是哪个,1.37%的错误率,也很不错嘛!看来你和闺蜜/兄弟的性格很接近啊。
2:1.37%,也挺好;
5:1.79%,开始下滑了;
10:2%        20:2.75%        50:5.18%        100:7.18%
至此可以看出,k大到一定程度(在这个数据集里,5就开始有点下滑了),结果就会变差。所以,k并非是越大越好。你可能要多次跑数据后,才能找到最合适的值。像这个数据集里,3这样小的数字,反而是最佳的设置。


如上是手写数字识别的数据集,我们来看看之前约会的数据集(90%的数据)。
3:8.11%,有点差,但用在约会判断上也还可以了;
1:9.6%,一票否决,也还好,能接受;
5:7.67%,看,比3还好,所以对于不同的数据集,并不是3是最好的;
7:7.78%,也差不多;
11:9.33%,变差了;
21:12.89%,又差了;后面就不测了;
所以呢,对于约会数据集,5-7是最佳的(我试了下6,和5的结果是一样的)。


由两个数据集的测试可得:
1)k不是越大越好,但至少要达到3;
2)要经过实测,确定最佳的k,而3可以作为初始值(不要认为3就一定是最佳值);
好了,这篇比较简短。但是观点是比较明确的。希望大家喜欢。
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-18 16:51, Processed in 0.155890 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表