¿Cómo calificaría un buen algoritmo, buenos datos, buena ingeniería de características en términos de efectividad para el aprendizaje automático?

Esto es difícil porque realmente necesitas los tres, y casi siento que estoy perjudicando a mis lectores al implicar lo contrario, pero aún así lo intentaré.

Lo siguiente asume problemas de regresión y clasificación de estilo kaggle. Tome una lista de características básicas y calcule una asignación de clase o prediga un valor. Esa clase de cosas.

  1. Buenos datos. Esto es fundamental Si no tiene suficientes datos, o los datos correctos, o datos que reflejen con precisión el problema tal como aparecerá, entonces nada más importa y también podría ver qué tan bien puede hacerlo con una heurística inteligente y renunciar al aprendizaje automático enteramente. Además, con suficientes datos, puede hacer bastante para compensar características o algoritmos simplistas, pero lo contrario solo es cierto si encuentra alguna forma inteligente de simplificar el problema.
  2. Buenas características. Las características bien pensadas pueden hacer que sea mucho más fácil capturar detalles interesantes de un problema. Características mal elegidas, o el número incorrecto, o el conjunto incorrecto, y el problema se vuelve imposible.
  3. Buenos algoritmos Estos también son de vital importancia, al menos para muchos problemas más interesantes. Sin embargo, si su problema parece una clasificación bastante estándar o un problema de regresión, la mayor parte del tiempo la diferencia entre los algoritmos de vanguardia cuidadosamente ajustados y lo primero que alguien pensaría intentar resulta ser mucho menos que diferencias entre diferentes conjuntos de características, por ejemplo.

Sin embargo, cuando se trata de problemas del tipo que a menudo se llama “reconocimiento de patrones” y casi nunca se llama “ciencia de datos”, me inclinaría a cambiar los números 2 y 3. Las características siguen siendo importantes, pero en esos problemas el El algoritmo correcto hace una diferencia mucho más drástica.

Los clasificaría en este orden:

  1. Datos . Si los datos son incorrectos, están etiquetados incorrectamente, faltan valores, cubren mal el espacio de funciones, etc., entonces ninguna cantidad de extracción de funciones o algoritmo inteligente de ML puede compensar estas deficiencias. De hecho, si no tiene suficientes datos de validación, ni siquiera puede estar seguro de tener un modelo significativo.
  2. Ingeniería de características . Hasta cierto punto, muchos datos combinados con buenos algoritmos de ML pueden compensar las características que faltan (o podrían construirse a partir de una combinación inteligente de características). Pero es mejor si puede encontrar o crear características que puedan ayudar a separar las clases (si está haciendo una clasificación) o cubrir el rango de Regresión.
  3. Algoritmos de ML . Son el motor elegante que no te llevará a ninguna parte sin combustible.

La belleza y la sofisticación de los algoritmos de ML llaman toda la atención, pero sin excelentes datos y características, faltará el modelo resultante.

Un buen algoritmo, una buena información y una buena ingeniería de características son igualmente importantes para un aprendizaje automático efectivo, al igual que los tres lados de un aprendiz son igualmente importantes para que el triángulo siga siendo un triángulo, y al igual que la mente, el cerebro y el cuerpo son igualmente importante para el ser humano para mantenerse saludable.

Si ya tiene buenos datos y si es bueno en ingeniería de características, elegir un algoritmo incorrecto arruinará todos sus esfuerzos. Y lo mismo para los otros dos.