第二章 模型评估与选择
现实任务中通常是利用有限个测试样例来绘制ROC图,此时仅能获得有限个(真正例率,假正例率)坐标对,无法产生图2.4(a)中的光滑ROC曲线,只能基于有限个测试样例篆绘制出如图2.4(b)所示的近似ROC曲线.绘图过程很简单:给定m+个正例和制P-R图时有同样问题本书到这里才介绍近似曲 m一个反例,根据学习器预测结果对样例进行排序,然后把分类阈值设为最大,线的绘制.是为了便于下 即把所有样例均预测为反例,此时真正例率和假正例率均为0,在坐标(0,0)处面介绍AUC的计算,标记一个点.然后,将分类阈值依次设为每个样例的预测值,即依次将每个样例划分为正例.设前一个标记点坐标为(z,可),当前若为真正例,则对应标记点的坐标为(z,可十嘉);当前若为假正例,则对应标记点的坐标为(茁+ml-,可),然后用线段连接相邻点即得,进行学习器的比较时,与P-R图相似,若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣.此时如果一定要进行比较,则较为合理的判据是比较ROC曲线下的面积,即AUC (Area UnderROC Curve),如图2.4所示.从定义可知,AUC可通过对ROC曲线下各部分的面积求和而得.假定ROC曲线是由坐标为{(Xl,可1),(X2,Y2),…,(Xm,Ym)].的点按序连接而形成(Xl=0,Xm=1)。