En términos de rendimiento de clasificación en conjuntos de datos grandes y dispersos, ¿cómo se compara el aprendizaje profundo con la regresión logística en la práctica?

Estrictamente hablando, depende del conjunto de datos.

Como guía práctica:

  • Los clasificadores lineales (como LR) pueden funcionar muy bien en conjuntos de datos extremadamente dispersos [1].
  • La red neuronal es un superconjunto de regresión logística (es decir, una red neuronal con 0 capas ocultas es esencialmente un modelo de regresión logística). Por lo tanto, si está utilizando una biblioteca NN bien escrita y está familiarizado con NN, no tiene que elegir. Simplemente barre la cantidad de capas ocultas y la arquitectura de red.
  • Como regla general, siempre realice un barrido automático de parámetros (incluida la arquitectura de capa). Si la herramienta que está utilizando aún no tiene esta característica, puede escribir un pequeño script para usted.

Entonces, incluso en esta guía práctica, aún depende de su familiaridad con las herramientas / bibliotecas que está utilizando y su voluntad (o la de su equipo) de hacer un esfuerzo adicional para obtener (ligeramente) mejores resultados.

Dicho esto, es totalmente posible que algunos grupos usen el aprendizaje profundo y obtengan ganancias significativas de rendimiento. Hay muchas variables que pueden jugar aquí:

  • Su conjunto de datos, aunque disperso, aún puede contener características complejas que requieren un modelo no lineal para funcionar bien.
  • No invirtieron o no hicieron un buen trabajo ajustando los hiperparámetros para aumentar el rendimiento de su modelo de regresión logística. Como enfaticé, la sintonización de hiperparámetros es muy importante y todavía se considera un arte oscuro en ML.
  • * Deep learning * ahora está de moda. Decir que el aprendizaje profundo mejoró sus resultados ciertamente impresionaría a sus gerentes y la comunidad mucho más que decir que ajustar ciertos parámetros les ayudó a obtener mejores resultados. [2]

Notas:
[1] La sección 3.1 de este artículo de ICML 2008 muestra que los clasificadores lineales tienden a funcionar mejor (que ellos mismos) a medida que aumenta la dimensionalidad. No explicaron, pero lo que sucede es que * en muchos casos *, los datos dispersos (grandes) están bien linealizados, es decir, la dispersión expande implícitamente características complejas (por ejemplo, texto o categóricas) en características más simples que pueden ser capturadas por un modelo lineal.

[2] He visto muchas relaciones públicas de aprendizaje profundo, tanto en investigación como en práctica. Cualquier cosa que sea una red neuronal simple o superficial hoy en día se puede afirmar como aprendizaje profundo.

More Interesting

¿Qué algoritmo de recomendaciones es más efectivo para desarrollar un entorno de crowdsourcing y qué lenguaje de programación sugiere?

¿Cuáles son algunos métodos de clasificación de series temporales?

¿Qué es el aprendizaje supervisado?

¿Cuáles son algunas de las ventajas de usar modelos de proceso gaussianos frente a SVM?

Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo

¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

¿La red neuronal convolucional (CNN) tiene que ver con la arquitectura de red y factores como la tasa de aprendizaje, la función de pérdida utilizada, etc.

¿Qué proyectos principales puedo hacer en R después de aprender minería de datos, análisis de sentimientos de limpieza, regresión y técnicas de agrupamiento?

¿Cómo podemos estimar múltiples parámetros de un clasificador?

Cómo usar SVM para clasificar imágenes normales y anormales si se conocen las características

¿Qué papel jugará la ciencia de datos en las elecciones presidenciales de 2012?

¿Dónde se puede usar la visión computacional en el aprendizaje profundo?

¿Qué pasos de procesamiento previo recomendaría para un aprendizaje automático exitoso en un conjunto de datos MNIST?

¿Cuáles son las cosas tecnológicas que más impactarán en el futuro de los trabajos (aprendizaje automático, aprendizaje profundo, redes neuronales, etc.)?

¿Qué algoritmo de aprendizaje automático puede dar la mejor solución para la clasificación no lineal?