¿Qué conceptos matemáticos o asignaturas debo aprender como principiante en aprendizaje automático o ciencia de datos? La tecnología cambia la vida futura

El requisito previo de aprendizaje automático no es matemática. El requisito previo principal para el aprendizaje automático es el análisis de datos.

Para los profesionales principiantes (es decir, piratas informáticos, codificadores, ingenieros de software y personas que trabajan como científicos de datos en negocios e industria) no es necesario saber tanto cálculo, álgebra lineal u otras matemáticas de nivel universitario para hacer las cosas.

Pero absolutamente necesita saber el análisis de datos .

El análisis de datos es la primera habilidad que necesita para hacer las cosas.

Es el requisito previo real para comenzar con el aprendizaje automático como profesional.

(Tenga en cuenta que a medida que esta publicación continúe, usaré el término “análisis de datos” como una abreviatura para “obtener datos, limpiar datos, agregar datos, explorar datos y visualizar datos”).

Esto es particularmente cierto para los principiantes. Aunque a niveles altos hay algunos científicos de datos que necesitan una habilidad matemática profunda, en un nivel inicial, repito, no es necesario conocer el cálculo y el álgebra lineal para construir un modelo que haga predicciones precisas.

Pero será casi imposible construir un modelo si no tiene habilidades sólidas con el análisis de datos.

Incluso si utiliza herramientas “listas para usar” como el R’s caret y el aprendizaje de scikit de Python, herramientas que hacen gran parte de las matemáticas difíciles para usted, no podrá hacer que estas herramientas funcionen sin una sólida comprensión del análisis exploratorio de datos y Visualización de datos. Para aplicar correctamente las herramientas como caret y scikit-learn, deberá poder recopilar, preparar y explorar sus datos. Necesita una comprensión sólida del análisis de datos.

El 80% de su trabajo será preparación de datos, EDA y visualización.

Es de conocimiento común entre los científicos de datos que “el 80% de su trabajo será la preparación de datos”. Esto es cierto, aunque quiero aclarar lo que esto significa. Cuando la gente dice que “el 80% de su trabajo será la preparación de datos”, es una forma abreviada de decir “el 80% de su trabajo será obtener datos (de bases de datos, hojas de cálculo, archivos planos), realizar análisis de datos exploratorios, remodelar datos, visualización de datos para encontrar ideas y uso de EDA “.

Si bien esta cifra se refiere a la ciencia de datos en general, también se aplica específicamente al aprendizaje automático: cuando construye modelos de aprendizaje automático, el 80% de su tiempo se dedicará a obtener datos, explorarlos, limpiarlos y analizar resultados (utilizando datos visualización).

Para ser un poco más directo al respecto, si no conoce el cálculo y el álgebra lineal, aún puede construir modelos útiles, pero si no es realmente competente con el análisis de datos, está jodido.

Para los profesionales principiantes, la piratería de datos supera las matemáticas

Esto no es solo una declaración simplista. Muchos, si no la mayoría de los mejores científicos de datos y creadores de modelos que conozco en varias compañías de Fortune 500, no son particularmente expertos en cálculo, álgebra lineal o matemáticas avanzadas. Pero son excepcionales en el análisis de datos.

Aquí hay un ejemplo personal: uno de los mejores modeladores predictivos con los que he trabajado sabe muy poco de matemática avanzada.

Para ser claros, ella tiene un doctorado, pero su doctorado es en Psicología Social. Ella no recibió entrenamiento en matemáticas serias. Basado en trabajar con ella y hablar con ella durante varios años, estoy seguro de que su conocimiento sobre cálculo y álgebra lineal fue muy, muy limitado.

Pero, ella definitivamente conocía un conjunto de datos. Sabía cómo explorar y preparar un conjunto de datos para hacer que los algoritmos de aprendizaje automático funcionen en un entorno práctico .

Para ser justos, cualquier persona con un doctorado en aprendizaje automático la habría fumado a la hora de explicar las matemáticas subyacentes. Se habría marchitado al ser cuestionada sobre los profundos fundamentos matemáticos de k-means o máquinas de vectores de soporte. Pero, esas cosas no eran sus puntos fuertes. Ella era una verdadera practicante y le pagaban bastante generosamente porque hacía predicciones precisas. A nadie le importaban sus habilidades matemáticas. Obtuvo resultados y los clientes pagaron.

Quiero enfatizar que este amigo en particular no es un unicornio. Conozco a docenas de personas así (ella es solo un buen ejemplo). Además, estos profesionales no están empleados en empresas de “bajo nivel”. Todos trabajan en lugares como Apple y otras compañías Fortune 500 de primer nivel; empresas que están aplastando sus objetivos y generando enormes ganancias. Estas personas son empleados sólidos en excelentes empresas.

Las matemáticas son importantes, pero no para los practicantes de nivel básico.

Mientras escribo esto, me estoy imaginando el correo de odio y las condenas de la gente que insistiría en que necesitaras muchas matemáticas .

Entonces, antes de exagerar mi caso, y potencialmente alienar a un gran grupo de personas que respeto y admiro, déjenme ser claro: las matemáticas son importantes. Y en particular, hay algunas circunstancias donde las matemáticas son muy importantes.

En primer lugar, las matemáticas son particularmente importantes si estás haciendo investigación de aprendizaje automático en un entorno académico.

En segundo lugar, en la industria, las matemáticas también son importantes para un pequeño subconjunto de científicos de datos más avanzados. Hay personas en la industria de altos niveles que también usan matemáticas avanzadas de manera regular. En particular, hay personas en compañías como Google y Facebook que están empujando los límites del aprendizaje automático: personas que trabajan en herramientas innovadoras. Es casi seguro que estas personas emplean cálculo, álgebra lineal y matemáticas más avanzadas de manera rutinaria en su trabajo.

Pero en este artículo, no estoy hablando de científicos de datos de nivel superior que trabajan en herramientas de vanguardia. Y no estoy hablando de trabajo académico (tanto como admiro a los académicos y teóricos por desarrollar las técnicas que usamos a diario).

Estoy hablando de científicos de datos de nivel de entrada. Estoy hablando de personas que recién están comenzando y están tratando de encontrar un camino en las primeras etapas.

Los principiantes necesitan algunas matemáticas para el aprendizaje automático

También aclararé y diré que incluso para los principiantes a los que me dirijo en este artículo, sí necesitas algo de matemática.

Escribiré mi consejo completo en otra publicación de blog, pero lo resumiré brevemente aquí: para comenzar a aprender el aprendizaje automático práctico, un científico de datos de nivel básico debe tener la comodidad básica de trabajar con números, calcular porcentajes, etc. al menos tanta habilidad matemática como un estudiante de primer año en una buena universidad. También necesitará conocimientos de estadísticas básicas … sobre el conocimiento que obtendría en un curso básico de “Introducción a las estadísticas”. Es decir, debe comprender conceptos como la media, la desviación estándar, la varianza y otras cosas que aprendería en una clase de estadísticas de introducción.

Sin embargo, cuando la gente te dice que necesitas saber absolutamente cálculo, ecuaciones diferenciales, teoría de optimización, álgebra lineal y más para comenzar a construir modelos de aprendizaje automático, esto es completamente incorrecto.

Su primer hito: análisis de datos maestros

¿Qué significa esto para usted, el científico de datos principiante?

La conclusión aquí es que para los científicos de datos principiantes y los profesionales de ML, la experiencia en datos supera a la experiencia en matemáticas. Llegará mucho más lejos si realmente conoce un conjunto de datos, que si conoce el cálculo y las matemáticas de nivel universitario.

Entonces, si su objetivo es conseguir un trabajo en un negocio o industria, su primer hito es dominar el análisis de datos.

No es dominar el cálculo.

No es poder escribir pruebas o resolver problemas matemáticos.

Es análisis de datos.

Debe dominar cómo recopilar datos, explorarlos y prepararlos. Esto significa que necesita dominar la visualización de datos y la discusión de datos (incluida la agregación). Luego, debe poder utilizar la visualización de datos y la discusión de datos juntos para poder realizar análisis de datos exploratorios.

Si está trabajando en R, le recomiendo que aprenda lo siguiente:
– ggplot2 para visualización de datos, incluidas visualizaciones básicas como diagramas de dispersión, histogramas, gráficos de barras
– dplyr para agregar y remodelar un conjunto de datos
– Aprenda a usar ggplot y dplyr juntos para el análisis exploratorio de datos

Si está trabajando en Python, aprenda lo siguiente:
– Base de pitón
– Pandas, para agregar y remodelar sus datos
– Matplotlib para visualización de datos. En particular, aprenda pyplot para visualizaciones básicas y use Seaborn para gráficos estadísticos más avanzados.
– Aprenda a usar pandas y visualizaciones de datos juntas para el análisis exploratorio de datos.

Si es un principiante y desea comenzar con el aprendizaje automático, puede sobrevivir sin conocer el cálculo y el álgebra lineal, pero absolutamente no puede sobrevivir sin el análisis de datos.

Si domina el análisis de datos, estará bien preparado para comenzar a construir modelos de aprendizaje automático que funcionen.

fuente: el requisito previo real para el aprendizaje automático no es matemática, es análisis de datos – SHARP SIGHT LABS

Aprendizaje automáticoCiencia de datosMatemáticas y Aprendizaje automático