La selección de características es más un arte que una ciencia, especialmente en dominios complejos. El éxito de un esfuerzo de aprendizaje automático puede depender críticamente de encontrar buenas características. En algunos casos, las características pueden ser explícitas en la entrada, como en el ejemplo que da Thomas C. Mueller. Otras veces necesita idear un método de extracción de características para llegar a ellos.
Considere, por ejemplo, tratar de aprender un clasificador para correo no deseado versus correo electrónico legítimo. Puede considerar una variedad de características: presencia de temas particulares, longitud, presencia de URL, estructura de la URL, número de signos de exclamación, número de errores ortográficos, información extraída del encabezado, etc. Dado un conjunto de características candidatas, el proceso de selección de características ayuda a identificar las que son más efectivas para la tarea particular de aprendizaje automático. Las mejores características para correos electrónicos no deseados podrían no ser las mejores para páginas web de spam o publicaciones de spam en las redes sociales.
Para algunos dominios, como el reconocimiento de imágenes, el desarrollo de buenas características es un área de investigación en sí misma.
- ¿Qué tecnología utiliza Netflix (y otros servicios de transmisión) para evitar que alguien capture una película o incluso tome una captura de pantalla? Soy estudiante de informática, y me molesta que no pueda entender cómo funciona.
- ¿Qué es la virtualización de E / S?
- ¿Existe una definición matemática o algorítmica de sobreajuste? ¿Hay documentos detallados que definan primero el sobreajuste?
- ¿Por qué RTCP es un protocolo "hermano" de RTP?
- ¿Las computadoras se volverán limitadas en conocimiento y complejidad?