¿Qué es un buen libro que discute los principios de la ingeniería de características, en el contexto del aprendizaje automático?

Como la mayoría de los libros de Machine Learning discuten muy poca ingeniería de características, es mejor que leas libros que sean específicos del dominio y estén más o menos relacionados con el problema que estás tratando de resolver.

Si está buscando una forma interesante de abordar un problema de Aprendizaje automático que no puede clasificarse fácilmente en Regresión o Clasificación, le recomiendo leer el libro Modern AI de Norvig, que es un clásico en este ámbito.

Si está buscando aplicaciones relacionadas con el habla o la PNL, debe leer el procesamiento de lenguaje y habla de Jurafsky y Martin.

Si está buscando usar un enfoque de aprendizaje profundo para un problema relacionado con el habla o la PNL, debe consultar los métodos de la Red Neural de Yoav Goldberg para Lenguaje.

Para el discurso, también se referiría a un libro que discute la ingeniería de señales de audio en general, no estoy muy versado para recomendar un libro en este ámbito.

Para la visión, recomendaría leer Practical OpenCV por Adrian Rosenbrock (también siga su blog / sitio pyimagesearch.com).

Si quieres profundizar en la visión por computadora, está el libro de visión por computadora de Richard Szeliski. Este libro está disponible gratuitamente en línea.

También hay otros libros en dominios como Time Series Analysis y Econometrics que debe buscar si tiene la tarea de modelar un problema del dominio financiero.

TLDR; Para resolver problemas, el conocimiento del aprendizaje automático en sí es a menudo inadecuado. Es mejor leer publicaciones o libros sobre el dominio de interés para obtener ideas sobre cómo se resolvieron estos problemas antes de usar conjuntos de características e ideas algorítmicas e inyectar ideas del aprendizaje automático en ellas.

También buscar en Google la mayoría de estos nombres debería darle enlaces para comprar los libros.

Sugeriría leer las publicaciones del blog de Kaggle No Free Hunch y su foro para analizar las soluciones de los ganadores (publicaciones y código). Encontrará muchos ejemplos de buenas características.

Sería bueno si participas en algunas competiciones de Kaggle sin un objetivo para ganar:

  1. Intenta crear tu propia solución lo más simple posible. Su objetivo es poder enviar resultados a una tabla de clasificación.
  2. Después de eso, puedes crear tus características. Es posible obtener ideas en la rama del foro de Kaggle dedicada a su competencia específica o desde el enlace publicado anteriormente. Tu objetivo es subir en la clasificación.

Desafortunadamente, es difícil aprender cómo crear funciones sin experiencia, pero Kaggle me ayudó a hacer muchas funciones diferentes en mi lugar actual.

A2A, gracias.

Me temo, no sé si existen “principios generales” para esto. Las características, como dijiste, son específicas del dominio, por lo que una buena comprensión intuitiva en el dominio específico, respaldada por un conocimiento de hechos experimentales, no puede ser reemplazada por nada.

Es de gran ayuda conocer la maquinaria matemática y, también, para cualquier algoritmo, saber no solo dónde funciona ese algoritmo, sino también dónde falla. (Por ejemplo, la teoría del proceso estocástico falla en las predicciones del clima a largo plazo (varios días)).

Recomendaría buscar en “Árboles de clasificación y regresión”, pero no sé nada más allá de eso.

Algunos libros que leí y recomendaría

  • Extracción de características y procesamiento de imágenes (2a edición) (2002) por Elsiver
  • Extracción de características – Fundamentos y aplicaciones (2006) por Springer
  • Selección de funciones para el reconocimiento de datos y patrones (2015) por Springer

Estos libros describen algunos enfoques sobre cómo construir y evaluar características. Sin embargo, no hay dónde ser exhaustivos, pero debería darte un punto de partida.

Este no es un libro sobre ingeniería de características en particular, pero el “Modelo predictivo aplicado” de Max Kuhn contiene una buena discusión sobre el tema.

Ingeniería de características de dominio: principios y técnicas para científicos de datos

Todavía no está disponible, pero se ve sólido.