¿Cuáles son algunos tipos de ‘características’ para el aprendizaje automático?

La selección de características es más un arte que una ciencia, especialmente en dominios complejos. El éxito de un esfuerzo de aprendizaje automático puede depender críticamente de encontrar buenas características. En algunos casos, las características pueden ser explícitas en la entrada, como en el ejemplo que da Thomas C. Mueller. Otras veces necesita idear un método de extracción de características para llegar a ellos.

Considere, por ejemplo, tratar de aprender un clasificador para correo no deseado versus correo electrónico legítimo. Puede considerar una variedad de características: presencia de temas particulares, longitud, presencia de URL, estructura de la URL, número de signos de exclamación, número de errores ortográficos, información extraída del encabezado, etc. Dado un conjunto de características candidatas, el proceso de selección de características ayuda a identificar las que son más efectivas para la tarea particular de aprendizaje automático. Las mejores características para correos electrónicos no deseados podrían no ser las mejores para páginas web de spam o publicaciones de spam en las redes sociales.

Para algunos dominios, como el reconocimiento de imágenes, el desarrollo de buenas características es un área de investigación en sí misma.

Related Content

¿Qué es un servidor de computadora?

¿Cómo puedo procesar grandes conjuntos de datos con mi computadora portátil? En una competencia de minería de datos, hay un CSV de 1GB de información del cliente para procesar. ¿Hay alguna manera de procesarlo sin cargarlo todo en la RAM, o podría procesar solo una parte a la vez?

Procesamiento de lenguaje natural: ¿Cómo procesan los sistemas de PNL términos de negación como no, nunca, apenas en texto?

¿Es útil hacer computación en la nube después de BCA?

Elon Musk afirma que el mundo podría ser una simulación. ¿Alguien puede explicarme cómo sería posible pi en un mundo simulado, o cualquier otro número irracional como e?

Estoy empezando con un proyecto y quiero ponerme al día con los últimos avances. A veces termino pasando horas con un periódico y no lo entiendo. ¿Cuáles son algunos buenos métodos para leer un trabajo de investigación en informática?

En Python, ¿cómo reemplazo una cadena en el texto sin reemplazar las subcadenas?

Las características son simplemente variables , fenómenos observables que pueden cuantificarse y registrarse. Desea seleccionar características independientes y, en ocasiones, obtener nuevas características de las existentes.

Por ejemplo, tome una aplicación ML tratando de determinar la probabilidad de enfermedad cardíaca en pacientes. ¿Cuáles son algunas características posibles?

Género
Años
Altura
Peso
Presión sanguínea
Frecuencia cardíaca en reposo
Historial médico pasado

Veamos algunas de las características en detalle. Una cosa que queremos hacer a veces es clasificar las características con muchos valores y colocarlas en un número menor de categorías. La edad, la presión arterial y la frecuencia cardíaca en reposo tienen un rango válido de valores de 0 a algún número entero con un límite superior. ¿Pero queremos 120 valores posibles diferentes para la edad? Para hacerlo más fácil, ¿por qué no categorizar las edades como 0 a 18, 19 a 29, 30 a 39, y así sucesivamente? Del mismo modo, coloque los signos vitales en tres a siete categorías.

En cuanto a la derivación de valores, la altura y el peso se pueden combinar en una característica estándar: IMC. Por lo tanto, calcule el IMC y divídalo en un pequeño número de categorías.

El historial médico pasado se puede convertir en múltiples características binarias. ¿Ha sufrido el paciente un derrame cerebral? Si o no. ¿Ha sido diagnosticado el paciente con presión arterial alta?

Eso es solo el comienzo, pero es un buen ejemplo básico de identificación, clasificación y derivación de características útiles para aplicaciones de aprendizaje automático.

David Maier

More Interesting

¿Cuál es una explicación simple para el filtrado anisotrópico?

¿Qué le gusta a Thomas Cormen de Dartmouth College?

¿Es posible tener un terabyte de RAM?

¿Es todo el almacenamiento analógico necesariamente con pérdida?

¿Qué hace slock.it?

¿Puede la nueva memoria 3D Xpoint reemplazar la RAM que usamos hoy?

¿Cuál es la diferencia entre IT y CS?

¿Cómo se empieza a hacer una investigación que valga la pena en informática a nivel de pregrado? ¿Cómo definir un posible problema de investigación?

¿Cómo deberíamos pensar en el aprendizaje automático y la IA? ¿Qué tan útil es la prueba de Turing?

¿Hay alguna manera de establecer un problema equivalente al problema P vs. NP pero para una máquina de Von Neumann finita fija?