¿Hay algún lugar donde los métodos tradicionales de aprendizaje automático puedan vencer el aprendizaje profundo o las redes neuronales?

La mayoría de las competencias de Kaggle ‘actualmente’ no se ganan utilizando técnicas de aprendizaje profundo. Esto significa que los métodos tradicionales superan a las redes neuronales profundas todo el tiempo . Hay un aumento en el uso de aprendizaje profundo con la proliferación de GPU domésticas más baratas, acceso a cómputo en la nube más barato y mejores modelos pre-entrenados.

Hay 3 casos en los que el canal de aprendizaje profundo funciona mal en comparación con los métodos tradicionales:

  1. Si los datos son estructurados o limitados , los datos estructurados permiten que un humano extraiga buenas características en relativamente poco tiempo en comparación con una red profunda y con muchos menos datos. Combinado con modelos suficientemente buenos (por ejemplo, árboles impulsados ​​por gradiente), esto puede permitirle lograr una precisión satisfactoria. Cuando hablamos de datos no estructurados: imágenes, audio, video, etc. Una red profunda combinada con amplios datos y suficiente tiempo y potencia informática: la red presentará mejores características que un ser humano.
  2. Limitaciones de tiempo y escala: el trabajo serio de aprendizaje profundo se realiza a escala y es difícil. Considere entrenar algo como imagenet o discurso profundo 2. Esto no es algo que el estudiante promedio de investigación con un Titan X pueda hacer en un marco de tiempo práctico. Necesita HPC y los ingenieros de datos lo configuran con toda la infraestructura de big data que necesita, luego prepara y alimenta tediosamente toda su tubería de big data en su algoritmo de entrenamiento distribuido. Luego, espere días (¡o más!) Antes de que su modelo alcance un rendimiento aceptable. Su ejemplo de confrontación es un científico de datos experimentado que selecciona algunas características extravagantes y proporciona una precisión ‘suficientemente buena’ con algo como XGBoost en pocos días de trabajo.
  3. Limitación de hardware (generalmente memoria) : el aprendizaje profundo hoy en día es muy limitado en memoria. Por ejemplo, en el procesamiento de imágenes, la mayoría de las redes funcionan en tamaños de 224 × 224 ~ 300 × 300. El trabajo en video se ve extremadamente obstaculizado por las limitaciones de memoria. Un algoritmo ‘tradicional’ que realiza la extracción de características de ingeniería humana sabiendo que puede hacer zoom en las características correctas puede brindarle una gran ventaja sobre un algoritmo profundo. Usando mi ejemplo de procesamiento de imágenes, el enfoque común es reducir la imagen y perder resolución o trabajar en un solo parche local a la vez y perder el contexto. Por lo tanto, no ve que los algoritmos de aprendizaje profundo clasifiquen muchas imágenes de megapíxeles en el corto plazo. La excepción a la regla es la disponibilidad de supercomputadoras y técnicas de capacitación distribuidas más novedosas. Pero, nuevamente, esto no es algo que esté ampliamente disponible.

No creo que los modelos de aprendizaje automático “tradicionales” vayan a ninguna parte.

Se ha demostrado que el aprendizaje profundo funciona extremadamente bien en algunas áreas, principalmente el procesamiento de imágenes y el procesamiento de texto, entre otras áreas. En mi opinión, no hay razón para suponer que funcionarán tan bien en cualquier otra área.

Además, las redes neuronales generalmente requieren muchos datos, como en al menos miles, si no millones, de muestras etiquetadas. Esto no es algo fácil de encontrar, y muchos problemas pueden resolverse bien con muchos menos ejemplos.

Otro problema con las redes neuronales es la interpretación y explicación del modelo. Cuando una red neuronal se alimenta con una imagen de un gato y predice que será un avión, es muy difícil entender qué salió mal. Cuando tiene una característica que puede ser interpretada por un humano, es mucho más fácil comprender la causa de la clasificación errónea. Además, es más fácil entender lo que llevó a clasificar un ejemplo específico en una clase específica. Esto puede ser muy valioso cuando los resultados deben transmitirse a otras personas.

Por ejemplo, si un sitio, como Quora, decide cerrar una cuenta de usuario porque algún modelo de aprendizaje automático lo clasificó como un usuario falso o algo por el estilo, sería bueno que el usuario supiera qué características causaron que su cuenta ser clasificado como falso En otro caso, puede esperar que los ejecutivos tomen decisiones por valor de millones de dólares en función de las predicciones de un modelo, y es justo suponer que querrán saber más sobre la forma en que funciona el modelo y qué causó que emitiera sus predicciones. Dudo que estén satisfechos con una respuesta como “eso es lo que dijo la computadora”.

En conclusión, no creo que la ingeniería de características vaya a ningún lado pronto. Las redes neuronales son excelentes para algunas tareas, pero no tanto para otras.

Deep Learning es muy poderoso pero también requiere mucha información. Entonces, una victoria para otros métodos de Machine Learning sería si no tiene grandes cantidades de datos. Entonces, otros métodos podrían funcionar mucho mejor.

En realidad, lo creas o no, la regresión logística se usa comúnmente en las principales empresas de tecnología. Algunas personas dirían mucho más que Deep Learning, por ejemplo.

Conjuntos de datos más pequeños, donde el aprendizaje de transferencia no es posible

El aprendizaje profundo requiere grandes conjuntos de datos y / o alguna forma de aprendizaje de transferencia

¡Todo es muy dependiente! En general, los hackatones son una bestia muy diferente a la programación tradicional de I + D, ya que la creación rápida de prototipos no siempre se presta para usar las últimas y mejores versiones de las pilas tecnológicas disponibles.

OrchestrAI: AI como aumento cognitivo para la creatividad

More Interesting

Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características

¿Cuáles son algunos buenos documentos sobre la extracción de sinónimos de los registros de consultas?

¿Hay tutoriales o trabajos de investigación sobre la presentación de problemas matemáticos como pseudolenguaje al algoritmo de PNL?

¿Qué debo elegir, asociado de desarrollo de negocios en Think and Learn o analista de investigación en Edureka?

¿Cuánta experiencia ML necesita uno para las competiciones ML de Kaggle?

¿Cuál es la forma estándar de ordenar contenidos en función de la función o consulta del usuario?

¿Qué tipo de proyectos de aprendizaje automático puedo hacer? ¿Qué libros me recomiendan aprender? Estoy interesado en usar Python.

El lenguaje de máquina se ha mencionado en todas partes. ¿Qué es en realidad?

¿Es posible comenzar a aprender y trabajar en el aprendizaje por refuerzo y el aprendizaje profundo sin un conocimiento previo sólido de otras clases de ML?

Cómo guardar un modelo de red neuronal de convolución después del entrenamiento

Cómo usar el codificador automático de Geoffrey Hinton para datos MNIST para clasificar dígitos

Si quiero implementar un filtro de spam, ¿cuál es el algoritmo más simple y eficiente que debo usar?

¿Qué es una red cortical recurrente?

Cómo cuantificar la cantidad de ruido en un conjunto de datos

¿Cuáles son algunas habilidades matemáticas altamente relevantes que se requieren si quiero comenzar a investigar en algoritmos de Machine Learning?