Respuesta corta: SI . Respuesta larga: ¡El consenso general engañoso en la industria es NO !
Aquí es por qué:
En la industria, especialmente para fines de implementación (aquellos con EM y calificación inferior), las personas generalmente quieren personas que puedan codificar e implementar los algoritmos de aprendizaje automático. Para eso, su mayor énfasis está en alguien que conoce una codificación decente y un poco de algos ml tradicionales. Y esto es sobre todo lo que las personas que no son doctoras terminan haciendo la mayor parte de su tiempo. Solo las principales empresas que contratan buenos doctorados les obligan a investigar sobre ml algos. Entonces, la concepción engañosa en la industria es que solo se necesita conocer Coursera o el conocimiento del nivel de aprendizaje automático en línea con muy buenas habilidades de codificación y ella es científica de datos.
- ¿Cuáles son los usos de la minería de datos?
- ¿Menos marcas en IA afectarán mis posibilidades de admisión a un curso de maestría en ciencias de datos en una universidad estadounidense de renombre?
- Soy un desarrollador de mainframe con 4 años de experiencia, aspirando a ser un científico de datos. ¿Donde debería empezar?
- ¿Cuáles son algunos proyectos que un estudiante de ciencias de la computación puede hacer en el semestre final en el campo de big data y análisis de datos?
- ¿Cuál es el mejor libro para aprender Python para la ciencia de datos?
Pero aquí está la parte de captura. La mayoría de ellos nunca pensó que aprender Estadística podría ser útil para comprender ml. Después de todo, para ejecutar una máquina de vectores de soporte, terminas escribiendo tres líneas de código en python scikit-learn. Pero a menos que aprenda estadísticas, nunca entendería cómo y dónde es útil en ciencia de datos y especialmente en aprendizaje automático si alguna vez quiere ser un científico de datos genuino y bueno.
Déjame decirte por qué:
Mito La teoría de distribución de probabilidad y los principios de estimación son inútiles para la ciencia de datos
La mayoría de las personas que nunca se han molestado en estudiar la teoría de distribución estadística, piensan que el aprendizaje automático no requiere el uso de la teoría de distribución. No pueden estar más equivocados. Si no comprende cuál es el principio de Estimación de máxima verosimilitud, entonces realmente no ha entendido ni siquiera el ml básico algo como la regresión logística. ¿Qué te hizo pensar que la Estimación de máxima verosimilitud y otras no son del todo útiles? Si no comprende MLE, ¿podría entender algo de Expectation-Maximation? Pero como ni siquiera piensas que saber Expectativa es importante, definitivamente no podrás comprender EM algo por completo. Ahora diría que no se requiere EM. De Verdad? ¿No necesita EM para hacer la estimación de densidad? No lo usas en análisis discriminante. ¿Para el modelo de mezcla gaussiana o modelos de mezcla infinita como la distribución de Dirichlet latente? Si no comprende el concepto de probabilidad, nunca ha entendido los principios bayesianos. Lo que significa que no entiendes qué es anterior, qué es posterior y qué efecto tiene la función de probabilidad en el Teorema de Bayes.
Entonces, ¿cómo esperas entender Naive Bayes? Y si no comprende la teoría básica de distribución estadística, entonces no comprende la simulación. Entonces, ¿cómo espera comprender técnicas como MCMC y modelos jerárquicos bayesianos? ¿No se usa MCMC también en el aprendizaje profundo ? ¿No es la forma restringida de máquinas de Boltzmann modelos jerárquicos? La gente siente que Deep Learning es puramente una creación de Ciencias de la Computación y, por lo tanto, no contiene estadísticas. Si realmente desea comprender el aprendizaje profundo , debe comprender los Modelos jerárquicos bayesianos, que lamento decir que requiere conocer los principios bayesianos. Lo que se remonta al primer punto con el que comencé.
Déjame hacerte una pregunta simple. Se sabe que los bosques aleatorios tienen un mejor rendimiento que los árboles en saco, que funcionan mejor que los árboles normales. Se puede decir que una razón es que en Random Forests solo tomamos un subconjunto aleatorio de variables bajo consideración en cada nodo en lugar de todas las variables. Ok tiene sentido. Ahora si pregunto ¿por qué eso ayuda? Entonces me dirías que correlaciona los árboles. Ok tiene sentido de nuevo. ¿Cómo ayuda eso? Más lecturas le dirían que, oh, descorrelacionar los árboles ayuda a reducir la varianza del estimador final. Okay. ¿Pero cómo? Si le pregunto cuál es la base matemática de su último enunciado, ¿cómo me lo demostrará a menos que me diga cuál es la fórmula de la varianza de una combinación de variables aleatorias? Diría que si tengo dos variables aleatorias como X e Y, entonces Var (X, Y) = Var (X) + Var (Y) + 2Cov (X, Y) . Esta es una fórmula cruda, la fórmula de variación real de los bosques aleatorios si los árboles están correlacionados es un poco diferente, pero da una idea. Si no hay correlación, cov es cero y, por lo tanto, la varianza es menor y total. Pero incluso para tratar de explicar algo a ese nivel, ¿no necesitaría comprender qué son las variables aleatorias y la teoría de distribución y cómo se relacionan las variables aleatorias en términos de expectativas y variaciones?
¿No te das cuenta de que hablar de reducir la varianza del estimador y todo es inherentemente estadística? ¿Por qué tiene que reducir la varianza de un estimador, por qué no tomar ningún estimador? ¿Cómo funciona tu curva de sesgo-varianza? ¿La descomposición completa del error cuadrático medio de una regresión en sesgo cuadrado + varianza es una teoría fundamentalmente estadística en estimadores? ¿Y cómo crees que entenderías la teoría sobre los estimadores si ni siquiera quieres estudiar qué estimación es en primer lugar?
¿O qué hay de su validación cruzada favorita o de las técnicas LOOCV para la selección y evaluación de modelos? ¿Puedo preguntar por qué funciona la validación cruzada y por qué no usar solo un solo dato de entrenamiento como una estimación del error de prueba? ¿No crees que si alguien entiende la Ley de Grandes no. Según la teoría aquí, sería capaz de entender por qué los métodos de remuestreo como la validación cruzada y LOOCV, etc., son estimaciones cercanas del error de generalización en lugar de utilizar un solo error de entrenamiento. ¿Puedes entender la razón por la cual la validación cruzada funciona más allá de solo decir que se usa para ajustar los hiperparámetros, etc. sin conocer la Ley de Grandes no. teoría etc.
El trabajo de un científico de datos no es solo el aprendizaje automático. Muchas veces tienes que hacer un trabajo basado en inferencia como prueba A / B. Pregunte a compañías como Google, Facebook y MS que hacen toneladas de pruebas A / B todos los días. ¿Cómo se supone que debe hacer una prueba A / B si no comprende la prueba de hipótesis, el diseño experimental, etc.?
La ciencia de datos sin estadísticas es como tener un Ferrari sin frenos. Puedes disfrutar sentado en Ferrari, presumir tu auto recién adquirido a otros, pero no puedes disfrutar el viaje por mucho tiempo porque pronto chocarías contra tierra.