¿Qué tan importante es el conocimiento de las bases de datos en Machine Learning?

Depende de lo que quieras hacer con el aprendizaje automático y de dónde quieras aplicarlo. Pero, en términos generales, no es más importante que el conocimiento de, por ejemplo, las secuencias de comandos de shell.

En la investigación académica de aprendizaje automático, puede escapar sin saber nada sobre bases de datos, y mucho menos usarlas. La mayoría de los conjuntos de datos tendrán pocos puntos de datos, que probablemente descargará desde algún lugar, almacenará y manipulará como archivos de texto, normalmente archivos separados por comas o tabulaciones. Por supuesto, hay excepciones a esto. Si trabaja en el aprendizaje automático escalable, o aplica el aprendizaje automático a conjuntos de datos muy grandes, o colabora con una empresa con acceso directo a sus datos, entonces es posible que necesite conocer bases de datos, pero en general no es una parte esencial del aprendizaje automático.

Si trabaja en la industria, especialmente en el sector de big data, es muy probable que use bases de datos de algún tipo, posiblemente más de una y de otro tipo. Pero el nivel de conocimiento de las bases de datos requerido aquí no es ciencia espacial. A veces es posible que tenga que profundizar en los detalles de una plataforma en particular para poder acelerar su código, pero la mayoría de las veces, realizará consultas simples utilizando API convenientes, lo recogerá rápidamente cuando sea necesario.
Muy a menudo las operaciones de la base de datos no son parte del aprendizaje automático en sí. Obtiene datos de una base de datos, aplica un algoritmo de aprendizaje automático en los datos y luego puede guardar los resultados en una base de datos. La principal excepción a esto es map-reduce y Mahout, donde los algoritmos de aprendizaje automático se formulan esencialmente en términos de operaciones de base de datos.
Además, tenga en cuenta que un curso o libro de bases de datos típico le enseñará sobre bases de datos relacionales y SQL, mientras que actualmente muchas aplicaciones no usan SQL y usan tecnología de código abierto relativamente joven, por lo que gran parte del conocimiento que obtuve de mi curso en la universidad es irrelevante ya.

Entonces, si tuviera que elegir si pasar el tiempo aprendiendo bases de datos o, por ejemplo, estadísticas y álgebra lineal con una carrera en aprendizaje automático en el horizonte, iría con las matemáticas.

More Interesting

¿Cuáles son algunas buenas estructuras de datos y algoritmos de hojas de trucos?

Cómo cambiar entre diferentes IP de diferentes ISP

¿Cómo debo comenzar mi preparación para el GATE 2018 en mecánica desde hoy sin entrenamiento?

Cómo escribir una gramática libre de contexto para esto

¿Cómo difiere el proceso de solicitud para los Premios de Investigación de Google del proceso de solicitud de subvención académica estándar?

¿Cuáles son los diversos tipos de semáforos disponibles en el kernel de Linux?

¿Cuál es la diferencia entre el cambio de contexto y el manejo de interrupciones?

¿Aprende más de los cursos de estudio / proyecto independientes en comparación con los cursos regulares en Stanford? (CS)

¿Cómo realiza una unidad lógica aritmética (ALU) la multiplicación, suma y comparación en enteros sin signo muy grandes (8,000,000 bits o más)?

¿Cuáles son las estrategias de vanguardia para el reconocimiento de intención (plan) relacionadas con la comprensión del lenguaje natural?

Si quiero escribir un compilador y hacer rodar a mano mi propio lexer / parser (sin lex / yacc o antlr), ¿cuál es el enfoque más fácil?

¿Cuál es la ley de las computadoras de Moore?

¿Existe una simulación por computadora para cuestiones económicas y sociales?

¿Hay alguna diferencia entre los simuladores Cadence Specter y Synopsys HSPICE?

Fuera de las buenas calificaciones, ¿cuál es el aspecto más importante cuando se aplica a USC Viterbi para un curso de CS, como una transferencia de universidad comunitaria?