Cómo determinar lo que es difícil sobre un problema de aprendizaje automático / conjunto de datos

En una fase de diseño , primero dedicaría más esfuerzo a la pregunta , para informar el análisis de los datos.

Primero una categorización básica (descriptiva / exploratoria / inferencial / predictiva / causal o mecanicista), luego obtenga una comprensión profunda del problema a resolver. Lo que es difícil puede no ser la elección del algoritmo, sino analizar los flujos y los datos juntos.

Esa es la parte del “deporte de equipo” de ML, cuando el conocimiento del dominio y la comunicación son esenciales.

Ejemplo: un hospital realizó un estudio para averiguar qué pacientes con neumonía tienen riesgo de complicaciones. Problema complejo, muchas características, muchos datos. Se utilizan muchos enfoques, incluidas las redes neuronales de aprendizaje profundo. El rendimiento predictivo se evalúa con métricas. Las métricas de aprendizaje profundo son las mejores. Hasta que alguien note que la máquina está enviando pacientes a casa con asma. Estos pacientes corren un alto riesgo y siempre se envían a cuidados intensivos, por lo que no informaron complicaciones. Una situación manejable, excepto por las capas de redes neuronales que seguían aprendiendo una señal en estos pacientes “en algún lugar”. El algoritmo de mejor desempeño desde una perspectiva de métrica también fue defectuoso.

En la fase de implementación , más que métricas, ejecutaría una lista de verificación: por ejemplo, para la agrupación, ¿se sabe k? ¿Las formas de mis grupos parecen simples? ¿son del mismo tamaño ?, ¿tengo muchos valores atípicos ?, ¿mis datos son nítidos o confusos ?, etc.

Los algoritmos tienen suposiciones y un “punto óptimo”. Puede comenzar con las soluciones más simples, ver dónde está con los supuestos, y solo si tiene problemas, busque algo más exótico.

Creo que una de las cosas difíciles del aprendizaje automático es limpiar el conjunto de datos. Es frecuente que tenga datos desordenados con muchos valores faltantes. Debe corregir esos datos desordenados y faltantes para poder ingresar datos para el programa de aprendizaje automático.

Después de eso, debe reconocer el propósito de sus datos. ¿Te gusta clasificar los datos a cierta etiqueta? ¿Te gusta predecir usando regresión? ¿Te gusta encontrar grupos de datos? Dependiendo de su propósito, el modelo ML a usar difiere.

  • ¿Te gusta clasificar los datos a cierta etiqueta?
    Usualmente usas regresión logística, máquina de vectores de soporte, árbol de decisión, bosque aleatorio, xgboosting, red neuronal o modelo de conjunto.
  • ¿Te gusta predecir usando regresión?
    Por lo general, utiliza regresión lineal, regresión de vectores de soporte, división de árboles, regresión forestal aleatoria o modelo de regresor de conjunto.
  • ¿Te gusta encontrar grupos de datos?
    Por lo general, utiliza KMeans, GMM o agrupación espectral.

Creo que el truco scikit-learn puede ayudarlo a determinar qué usar según su propósito.

More Interesting

Inteligencia Artificial: ¿Existe algún método para overclockear el cerebro humano al igual que overclockear la CPU de una computadora?

¿Cuál es la diferencia entre el aprendizaje automático, el aprendizaje profundo y la IA?

Cuando la Inteligencia Artificial alcanza la capacidad para hacerlo, ¿debería permitirse enseñar a los niños humanos?

¿Por qué el futuro de la IA parece cada vez más distópico ahora, a diferencia de los años 90?

¿Cuál es el mejor libro o recurso para aprender sobre las redes neuronales y las redes neuronales profundas?

¿Cuándo reemplazarán los robots los trabajos?

¿Cómo manejan los investigadores de redes neuronales los largos tiempos de entrenamiento? ¿Qué haces mientras esperas?

¿Qué tan probable es que, como en la película "Terminator", las computadoras del sistema de defensa interconectado se vuelvan conscientes de sí mismas y ataquen a la humanidad?

¿Cuál es la diferencia más esencial entre humanos y máquinas? ¿Dónde trazamos la línea entre humanos y máquinas? ¿Qué habilidades necesita una máquina para ser considerada tan inteligente como un ser humano?

¿Qué tan efectivo y fácil es usar Octave para el aprendizaje automático?

¿Por qué todavía existen controladores aéreos?

Un robot no puede escribir un programa. ¿Es lo contrario de esto también cierto?

¿Qué tan importante es la inteligencia general de un presidente cuando dirige el país?

¿Hay algún recurso sobre cómo integrar la inteligencia artificial en los complementos de WordPress?

¿No habrá futuro para los humanos en ciberseguridad cuando la IA se haga cargo? ¿Cuándo va a pasar esto?