Una lista como esta es suficiente para intimidar a cualquiera que no sea una persona con un título avanzado en matemáticas.
Es desafortunado, porque creo que muchos principiantes se desaniman y se asustan con este consejo.
Si te sientes intimidado por las matemáticas, tengo buenas noticias para ti: para comenzar a construir modelos de aprendizaje automático (a diferencia de la teoría del aprendizaje automático), necesitas menos experiencia matemática de lo que piensas (y casi seguramente menos matemática de lo que te han dicho que necesitas). Si está interesado en ser un profesional del aprendizaje automático, no necesita muchas matemáticas avanzadas para comenzar.
Pero no estás completamente fuera de peligro.
Todavía hay requisitos previos. De hecho, incluso si puede sobrevivir sin tener una comprensión magistral del cálculo y el álgebra lineal, hay otros requisitos previos que absolutamente necesita saber (afortunadamente, los requisitos previos reales son mucho más fáciles de dominar).
Las matemáticas no son el requisito previo principal para el aprendizaje automático
Si es un principiante y su objetivo es trabajar en la industria o los negocios, las matemáticas no son el requisito previo principal para el aprendizaje automático. Eso probablemente se opone a lo que has escuchado en el pasado, así que déjame explicarte.
La mayoría de los consejos sobre aprendizaje automático provienen de personas que aprendieron ciencia de datos en un entorno académico.
Antes de continuar, quiero enfatizar que esto no es un jab. El uso del término “académico” no pretende ser un insulto. Las personas que trabajan en la academia con frecuencia desarrollan las herramientas que usan las personas en la industria. Y a través de la investigación, también impulsan el campo hacia adelante. Admiro a estas personas.
Sin embargo, existen diferentes incentivos en un entorno académico. Esos incentivos configuran la mentalidad y el trabajo de las personas en la academia de manera diferente a los incentivos de las personas que trabajan en la industria. Además, los incentivos configuran la capacitación de las personas que ingresan a la academia: los estudiantes en un entorno académico están capacitados para ser productivos en gran medida como académicos e investigadores.
En un entorno académico, los individuos son recompensados (en gran medida) por producir investigaciones novedosas, y en el contexto de ML, eso realmente requiere una comprensión profunda de las matemáticas que subyacen en el aprendizaje automático y las estadísticas.
Sin embargo, en la industria, en la mayoría de los casos, las recompensas principales no son por la innovación y la novedad. En la industria, eres recompensado por crear valor comercial. En la mayoría de los casos, particularmente en los niveles de entrada, esto significa aplicar las herramientas existentes “disponibles”. El hecho crítico aquí, es que las herramientas existentes casi todas se encargan de las matemáticas por usted.
Las herramientas “listas para usar” se encargan de las matemáticas
Casi todas las bibliotecas y herramientas comunes de aprendizaje automático se encargan de las matemáticas difíciles para usted. Esto incluye el paquete de carets de R, así como el aprendizaje de scikit de Python. Esto significa que no es absolutamente necesario saber álgebra lineal y cálculo para que funcionen.
Hay una buena cita sobre esto de Andrew Gelman en su libro de regresión muy apreciado:
“La mayoría de los libros definen la regresión en términos de operaciones matriciales. Evitamos gran parte de este álgebra matricial por la sencilla razón de que ahora lo hacen automáticamente las computadoras … [los cálculos] son importantes pero pueden hacerse fuera de la vista del usuario “.
Tenga en cuenta que Gelman es un estadístico muy bien considerado. Es profesor de estadística en la Universidad de Columbia (una universidad de la Ivy League) y ha escrito varios de los mejores libros sobre temas como regresión y estadísticas bayesianas. Y si bien esta cita trata específicamente de la regresión, el mismo principio se aplica al aprendizaje automático, en términos generales.
Este punto debe enfatizarse: el software moderno de estadística y aprendizaje automático se ocupa de gran parte de las matemáticas por usted.
Esto significa que es posible construir un buen modelo predictivo sin casi ningún conocimiento de cálculo o álgebra lineal. Si aún no está convencido de esto, eche un vistazo cuidadoso a Introducción al aprendizaje estadístico o Modelado predictivo aplicado . Estos son dos excelentes libros sobre aprendizaje automático (AKA, aprendizaje estadístico; AKA, construcción de modelos). Casi no hay cálculo ni álgebra lineal en ninguno de ellos.
Esta es una gran noticia para un científico de datos principiante que quiere comenzar con el aprendizaje automático. Puede llamar a una función R desde caret o una función desde scikit-learn de Python y se encargará de todas las matemáticas por usted. Saber cómo funcionan todas esas matemáticas “bajo el capó” no es necesario ni suficiente para construir modelos predictivos como principiante.
Para ser claros, no estoy sugiriendo que estas herramientas hagan todo el trabajo por usted. Aún debe tener mucha práctica para aplicarlos . Debe tener una comprensión sólida de la heurística, las mejores prácticas y las reglas generales asociadas con hacer que funcionen bien. Sin embargo, una vez más, gran parte del conocimiento requerido para que estas herramientas funcionen bien no requiere álgebra matricial y cálculo.
La mayoría de los científicos de datos no hacen muchas matemáticas
Creo que muchos principiantes tienen una imagen inexacta en sus mentes de lo que los científicos de datos realmente hacen. Se imaginan que los científicos de datos pasan sus días pensativos parados en una pizarra, garabateando ecuaciones matemáticas entre sorbos de café.
Eso no es exacto.
Entonces, ¿cuántas matemáticas hace realmente un científico de datos?
Si hablamos de científicos de datos de nivel de entrada a científicos de datos de nivel intermedio, estimaría que pasan menos del 5% de su tiempo haciendo matemáticas. Y francamente, el 5% es probablemente un poco generoso.
Incluso si hablamos solo de aprendizaje automático, solo pasará menos del 5% de su tiempo haciendo matemáticas. (Y, francamente, la mayoría de los científicos de datos de nivel de entrada no pasarán gran parte de su tiempo en ML). Cuando construyes un modelo, pasarás muy, muy poco tiempo haciendo matemáticas.
La realidad es que en la industria, los científicos de datos simplemente no hacen matemáticas de nivel mucho más alto.
Pero la mayoría de los científicos de datos pasan una gran cantidad de tiempo obteniendo datos, limpiando datos y explorando datos. Esto se aplica tanto a la ciencia de datos en general, como al aprendizaje automático específicamente; y se aplica particularmente a los principiantes.
Si desea comenzar con el aprendizaje automático, la habilidad de requisito previo real que necesita aprender es el análisis de datos .
El requisito previo principal para el aprendizaje automático es el análisis de datos.
Para los profesionales principiantes (es decir, piratas informáticos, codificadores, ingenieros de software y personas que trabajan como científicos de datos en negocios e industria) no es necesario saber tanto cálculo, álgebra lineal u otras matemáticas de nivel universitario para hacer las cosas.
Pero absolutamente necesita saber el análisis de datos .
El análisis de datos es la primera habilidad que necesita para hacer las cosas.
Es el requisito previo real para comenzar con el aprendizaje automático como profesional.
(Tenga en cuenta que a medida que esta publicación continúe, usaré el término “análisis de datos” como una abreviatura para “obtener datos, limpiar datos, agregar datos, explorar datos y visualizar datos”).
Esto es particularmente cierto para los principiantes. Aunque a niveles altos hay algunos científicos de datos que necesitan una habilidad matemática profunda, en un nivel inicial, repito, no es necesario conocer el cálculo y el álgebra lineal para construir un modelo que haga predicciones precisas.
Pero será casi imposible construir un modelo si no tiene habilidades sólidas con el análisis de datos.
Incluso si usa herramientas “listas para usar” como el Rt caret y el aprendizaje de scikit de Python, herramientas que hacen gran parte de las matemáticas difíciles para usted, no podrá hacer que estas herramientas funcionen sin una sólida comprensión del análisis exploratorio de datos y Visualización de datos. Para aplicar correctamente las herramientas como caret y scikit-learn, deberá poder recopilar, preparar y explorar sus datos. Necesita una comprensión sólida del análisis de datos.