本站所有资源均为高质量资源,各种姿势下载。
在这个过程中,我们采用了一种称为“一对一”的方法,其中每次选取一个类别的样本作为正类样本,而将其他类别的样本作为负类样本。这样做的好处是避免了数据集的偏斜问题。因此,在训练阶段我们需要算出多个分类器,第一个分类器只回答“是第1类还是第2类”,第二个分类器只回答“是第1类还是第3类”,以此类推。根据通式,如果我们有k个类别,那么总共会有k(k-1)/2个分类器。因此,在这种方法下,我们需要算出10个分类器(假设有4个类别)。虽然分类器的数量增加了,但是在训练阶段所需的时间却比“一类对其余”方法少得多。
在真正用这些分类器进行分类时,我们将一篇文章输入到每个分类器中。第一个分类器会投票说这篇文章属于“1”类还是“2”类,第二个分类器会投票说这篇文章属于“1”类还是“3”类,以此类推。我们让每个分类器都投上自己的一票,最后统计票数。如果“1”类得票最多,那么我们就判定这篇文章属于第1类。虽然这种方法可能会导致分类重叠的情况发生,但是不会出现无法分类的情况,因为不可能所有类别的票数都是0。