Cómo automatizar la selección de características en un conjunto de datos que involucra muchos datos no numéricos

Creo que hay 2 preguntas:

  1. ¿Cómo convertir características no numéricas en características numéricas?
    1. algunos algoritmos de ML solo requieren funciones numéricas
    2. Hay más formas de seleccionar características numéricas automáticamente (creo)
  2. ¿Cómo seleccionar funciones automáticamente?
    1. ¿Hay más métodos para seleccionar automáticamente las funciones numéricas?
    2. ¿Cuáles son los algoritmos de selección de características para mi problema de ML específico?
    3. ¿Debo seleccionar automáticamente y luego manualmente con expertos en dominios?
    4. ¿Debo ejecutar múltiples selecciones para generar múltiples modelos y compararlos, es decir, hacer una hiper parametrización en la selección?

Para probar algunas respuestas:

  1. Si la cadena es de hecho una etiqueta repetitiva, es decir, una categoría, marque “Codificación de características categóricas” en 4.3. Preprocesamiento de datos. Ese debería ser el caso. No use hashing porque rompe la continuidad e induce distancias falsas.
  2. Si bien hay formas automáticas de seleccionar características (y algunos algoritmos de ML tienen esto incorporado), se necesita una fase de selección manual en muchas fases para aplicar la experiencia del dominio (quizás después de una reducción automática inicial de cientos / miles a decenas de características). Más detalles sobre 3 categorías de algoritmos de selección de características y heurística para diferentes problemas de LD en Selección de características y Introducción a la selección de características: dominio del aprendizaje automático