La pregunta supone que existe un clasificador que alcanza el 100%. Este no es el caso para muchas tareas.
- A veces, los datos son ruidosos: tomados de instrumentos con precisión limitada, tomados de fuentes que no son puramente objetivas (por ejemplo, expertos humanos), o incluso corrompidos en el dispositivo de almacenamiento debido al mal funcionamiento del hardware o los rayos cósmicos.
- A veces, la función objetivo es ruidosa: predecir el clima con una semana de anticipación a partir de una entrada limitada nunca conducirá a un clasificador 100% preciso.
- Incluso teniendo en cuenta lo anterior, hay un problema más crucial con cualquier enfoque de aprendizaje automático: cualquier algoritmo solo podrá aprender modelos de una clase específica. Hacer que los modelos sean más complejos es más probable que conduzca a un ajuste excesivo de los datos de entrenamiento, lo que implica que probablemente deberíamos usar alguna técnica de detención temprana, lo que significa que ni siquiera podríamos alcanzar el 100% en el conjunto de entrenamiento en sí.
- Incluso cuando conocemos la clase correcta de clasificadores, puede haber datos cercanos al límite de decisión que nunca hemos visto antes (por ejemplo, en el margen de un SVM). Para tales puntos, el modelo no puede saber con certeza cuál es la clase correcta.