¿Cuáles son algunos tipos de ‘características’ para el aprendizaje automático?

La selección de características es más un arte que una ciencia, especialmente en dominios complejos. El éxito de un esfuerzo de aprendizaje automático puede depender críticamente de encontrar buenas características. En algunos casos, las características pueden ser explícitas en la entrada, como en el ejemplo que da Thomas C. Mueller. Otras veces necesita idear un método de extracción de características para llegar a ellos.

Considere, por ejemplo, tratar de aprender un clasificador para correo no deseado versus correo electrónico legítimo. Puede considerar una variedad de características: presencia de temas particulares, longitud, presencia de URL, estructura de la URL, número de signos de exclamación, número de errores ortográficos, información extraída del encabezado, etc. Dado un conjunto de características candidatas, el proceso de selección de características ayuda a identificar las que son más efectivas para la tarea particular de aprendizaje automático. Las mejores características para correos electrónicos no deseados podrían no ser las mejores para páginas web de spam o publicaciones de spam en las redes sociales.

Para algunos dominios, como el reconocimiento de imágenes, el desarrollo de buenas características es un área de investigación en sí misma.

Las características son simplemente variables , fenómenos observables que pueden cuantificarse y registrarse. Desea seleccionar características independientes y, en ocasiones, obtener nuevas características de las existentes.

Por ejemplo, tome una aplicación ML tratando de determinar la probabilidad de enfermedad cardíaca en pacientes. ¿Cuáles son algunas características posibles?

  • Género
  • Años
  • Altura
  • Peso
  • Presión sanguínea
  • Frecuencia cardíaca en reposo
  • Historial médico pasado

Veamos algunas de las características en detalle. Una cosa que queremos hacer a veces es clasificar las características con muchos valores y colocarlas en un número menor de categorías. La edad, la presión arterial y la frecuencia cardíaca en reposo tienen un rango válido de valores de 0 a algún número entero con un límite superior. ¿Pero queremos 120 valores posibles diferentes para la edad? Para hacerlo más fácil, ¿por qué no categorizar las edades como 0 a 18, 19 a 29, 30 a 39, y así sucesivamente? Del mismo modo, coloque los signos vitales en tres a siete categorías.

En cuanto a la derivación de valores, la altura y el peso se pueden combinar en una característica estándar: IMC. Por lo tanto, calcule el IMC y divídalo en un pequeño número de categorías.

El historial médico pasado se puede convertir en múltiples características binarias. ¿Ha sufrido el paciente un derrame cerebral? Si o no. ¿Ha sido diagnosticado el paciente con presión arterial alta?

Eso es solo el comienzo, pero es un buen ejemplo básico de identificación, clasificación y derivación de características útiles para aplicaciones de aprendizaje automático.