¿Cómo calificaría un buen algoritmo, buenos datos, buena ingeniería de características en términos de efectividad para el aprendizaje automático?

Esto es difícil porque realmente necesitas los tres, y casi siento que estoy perjudicando a mis lectores al implicar lo contrario, pero aún así lo intentaré.

Lo siguiente asume problemas de regresión y clasificación de estilo kaggle. Tome una lista de características básicas y calcule una asignación de clase o prediga un valor. Esa clase de cosas.

Buenos datos. Esto es fundamental Si no tiene suficientes datos, o los datos correctos, o datos que reflejen con precisión el problema tal como aparecerá, entonces nada más importa y también podría ver qué tan bien puede hacerlo con una heurística inteligente y renunciar al aprendizaje automático enteramente. Además, con suficientes datos, puede hacer bastante para compensar características o algoritmos simplistas, pero lo contrario solo es cierto si encuentra alguna forma inteligente de simplificar el problema.
Buenas características. Las características bien pensadas pueden hacer que sea mucho más fácil capturar detalles interesantes de un problema. Características mal elegidas, o el número incorrecto, o el conjunto incorrecto, y el problema se vuelve imposible.
Buenos algoritmos Estos también son de vital importancia, al menos para muchos problemas más interesantes. Sin embargo, si su problema parece una clasificación bastante estándar o un problema de regresión, la mayor parte del tiempo la diferencia entre los algoritmos de vanguardia cuidadosamente ajustados y lo primero que alguien pensaría intentar resulta ser mucho menos que diferencias entre diferentes conjuntos de características, por ejemplo.

Sin embargo, cuando se trata de problemas del tipo que a menudo se llama “reconocimiento de patrones” y casi nunca se llama “ciencia de datos”, me inclinaría a cambiar los números 2 y 3. Las características siguen siendo importantes, pero en esos problemas el El algoritmo correcto hace una diferencia mucho más drástica.

AlgoritmosAprendizaje automáticodatosPreguntas prácticas

Related Content

¿Por qué es que los RNN con conexiones desde la salida al estado oculto pueden expresar menos máquinas de turing?

¿Cuál es una explicación intuitiva del algoritmo wake-sleep?

¿El aprendizaje automático no supervisado basado en la agrupación de datos también determina automáticamente la cantidad de agrupaciones?

¿Por qué las RVM no son tan populares como las SVM?

¿Con qué facilidad pueden los actuarios cambiar a carreras relacionadas con TI como la ciencia de datos, el aprendizaje automático y el desarrollo de software?

¿Son el aprendizaje automático / aprendizaje profundo / ciencia de datos, realmente ciencia espacial para que un tipo promedio entienda e implemente?

¿Por qué siempre ponemos log () en la estimación de máxima verosimilitud antes de estimar el parámetro?

Los clasificaría en este orden:

Datos . Si los datos son incorrectos, están etiquetados incorrectamente, faltan valores, cubren mal el espacio de funciones, etc., entonces ninguna cantidad de extracción de funciones o algoritmo inteligente de ML puede compensar estas deficiencias. De hecho, si no tiene suficientes datos de validación, ni siquiera puede estar seguro de tener un modelo significativo.
Ingeniería de características . Hasta cierto punto, muchos datos combinados con buenos algoritmos de ML pueden compensar las características que faltan (o podrían construirse a partir de una combinación inteligente de características). Pero es mejor si puede encontrar o crear características que puedan ayudar a separar las clases (si está haciendo una clasificación) o cubrir el rango de Regresión.
Algoritmos de ML . Son el motor elegante que no te llevará a ninguna parte sin combustible.

La belleza y la sofisticación de los algoritmos de ML llaman toda la atención, pero sin excelentes datos y características, faltará el modelo resultante.

Clem Wang

Un buen algoritmo, una buena información y una buena ingeniería de características son igualmente importantes para un aprendizaje automático efectivo, al igual que los tres lados de un aprendiz son igualmente importantes para que el triángulo siga siendo un triángulo, y al igual que la mente, el cerebro y el cuerpo son igualmente importante para el ser humano para mantenerse saludable.

Si ya tiene buenos datos y si es bueno en ingeniería de características, elegir un algoritmo incorrecto arruinará todos sus esfuerzos. Y lo mismo para los otros dos.

Ben Miller-Jacobson

More Interesting

¿Cuáles son los problemas interesantes en la 'automatización de big data'?

¿El recocido simulado y la optimización de colonias de hormigas cuentan como aprendizaje automático?

¿Cómo podemos suprimir el ruido de fondo en un teléfono durante una llamada telefónica?

¿Qué es una red neuronal bayesiana?

¿El aprendizaje por refuerzo con redes neuronales profundas implica descenso de gradiente y propagación hacia atrás?

¿Qué recomendarías, Machine Learning o DevOps?

¿Qué es un perceptrón?

¿Por qué Microsoft decidió usar bosques aleatorios en el Kinect?

¿Por qué aprendiste Machine Learning?

¿Cuáles son los algoritmos disponibles para diseñar un detector de actividad de habla hablada cercana?

¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?

¿Cuáles son las principales innovaciones y hallazgos del documento 'Diseño químico automático utilizando una representación continua de moléculas basada en datos'?

Cómo diseñar una red neuronal para predecir la rutina diaria de un usuario

Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering

¿El rendimiento de la regresión logística se ve afectado negativamente por características altamente correlacionadas?

Web Analytics