En términos de rendimiento de clasificación en conjuntos de datos grandes y dispersos, ¿cómo se compara el aprendizaje profundo con la regresión logística en la práctica? La tecnología cambia la vida futura

Estrictamente hablando, depende del conjunto de datos.

Como guía práctica:

Los clasificadores lineales (como LR) pueden funcionar muy bien en conjuntos de datos extremadamente dispersos [1].
La red neuronal es un superconjunto de regresión logística (es decir, una red neuronal con 0 capas ocultas es esencialmente un modelo de regresión logística). Por lo tanto, si está utilizando una biblioteca NN bien escrita y está familiarizado con NN, no tiene que elegir. Simplemente barre la cantidad de capas ocultas y la arquitectura de red.
Como regla general, siempre realice un barrido automático de parámetros (incluida la arquitectura de capa). Si la herramienta que está utilizando aún no tiene esta característica, puede escribir un pequeño script para usted.

Entonces, incluso en esta guía práctica, aún depende de su familiaridad con las herramientas / bibliotecas que está utilizando y su voluntad (o la de su equipo) de hacer un esfuerzo adicional para obtener (ligeramente) mejores resultados.

Dicho esto, es totalmente posible que algunos grupos usen el aprendizaje profundo y obtengan ganancias significativas de rendimiento. Hay muchas variables que pueden jugar aquí:

Su conjunto de datos, aunque disperso, aún puede contener características complejas que requieren un modelo no lineal para funcionar bien.
No invirtieron o no hicieron un buen trabajo ajustando los hiperparámetros para aumentar el rendimiento de su modelo de regresión logística. Como enfaticé, la sintonización de hiperparámetros es muy importante y todavía se considera un arte oscuro en ML.
* Deep learning * ahora está de moda. Decir que el aprendizaje profundo mejoró sus resultados ciertamente impresionaría a sus gerentes y la comunidad mucho más que decir que ajustar ciertos parámetros les ayudó a obtener mejores resultados. [2]

Notas:
[1] La sección 3.1 de este artículo de ICML 2008 muestra que los clasificadores lineales tienden a funcionar mejor (que ellos mismos) a medida que aumenta la dimensionalidad. No explicaron, pero lo que sucede es que * en muchos casos *, los datos dispersos (grandes) están bien linealizados, es decir, la dispersión expande implícitamente características complejas (por ejemplo, texto o categóricas) en características más simples que pueden ser capturadas por un modelo lineal.

[2] He visto muchas relaciones públicas de aprendizaje profundo, tanto en investigación como en práctica. Cualquier cosa que sea una red neuronal simple o superficial hoy en día se puede afirmar como aprendizaje profundo.