¿Cuál es el algoritmo más interesante / difícil que ha encontrado en ciencia de datos y aprendizaje automático?

No sé sobre algoritmos … los algoritmos pueden o no ser difíciles de entender, y dónde son útiles depende del contexto del problema. La dificultad también reside en el ojo del espectador. Tengo un amigo que es topólogo. Ella entiende los métodos de análisis de datos topológicos mucho mejor que yo. Sin embargo, en cuanto a los algoritmos de aprendizaje automático, entiendo mucho más que ella.

Además, el mejor algoritmo para resolver cualquier problema de datos depende de la pregunta y los datos, y como tal, el mejor algoritmo puede ser personalizado … un pequeño ajuste aquí y allá.

Creo que esta pregunta podría hacerse mejor sobre aplicaciones o problemas a los que se puede aplicar el aprendizaje automático. Como dijo Box, “los estadísticos (léase: científicos de datos o aprendices de máquinas aquí) son como artistas. Tienen la mala costumbre de enamorarse de sus modelos (es decir, algoritmos)”. Si nos centramos en los algoritmos, tendemos a perder de vista lo que es realmente importante: el problema que estamos tratando de resolver.

También nos permite decir con seguridad qué tipo de problemas de datos realmente nos gusta resolver y encontrar interesantes.

Soy, en el fondo, alguien que ama resolver problemas temporales. Hice mi doctorado en modelos de series temporales, y aunque no lo disfruté al principio, ese no es el caso ahora. Tengo páginas en páginas de matemáticas sobre cómo podemos adaptar los algoritmos de ML para ajustar la autocorrelación. Estoy trabajando en algo diferente ahora, pero todavía tiendo a ver cómo lo que voy a medir (cambiará) con el tiempo.

Porque más cosas cambian con el tiempo de lo que cabría esperar. Sentimiento, por ejemplo. Hay muchas cosas que se pueden ver desde una perspectiva temporal, muchas cosas que actualmente no lo son. Y si eso cambia, algunas predicciones serán más difíciles de hacer, pero eventualmente, creo, más precisas.

Cada algoritmo de ML que he encontrado es interesante; algunos de ellos son más difíciles que otros. Un algoritmo puede ser difícil de entender si es más matemático, menos intuitivo y no trivial O si no tengo los antecedentes suficientes para entender lo que dicen resolver.

Hace algún tiempo, un entusiasta de ML se me acercó para discutir el algoritmo K-means, que creo que es bastante simple, directo e intuitivo. Cuando se lo expliqué en papel, lo noté bostezar, después de un tiempo se fue. Nunca volvió a aparecer para aclarar cualquier duda sobre K-means y después de ese incidente nunca discutimos al respecto 🙂

Para mí, resolver un ‘problema de ML’ es más difícil que decir que un algoritmo es difícil.