¿Qué tan bueno debería ser uno en Python para aprender Data Science?

Antes de leer esta publicación, debo advertirle que no soy un experto en aprendizaje automático. Soy como cualquier otro estudiante que está un poco loco por esta tecnología.

Ahora, sin más preámbulos, entraré directamente en el tema.

Data Science es más un modelo matemático. Básicamente, diseñas varios tipos de algoritmos con la ayuda de estadísticas, álgebra lineal, matemáticas (en general), etc. [Puedes buscar en esta lista en google].

Ahora python es solo otra herramienta (una muy buena, pero es una herramienta). La verdadera magia reside en esos conceptos teóricos y en perfeccionarlos para aumentar la precisión.

Para fines de la industria, python es algo muy útil, al igual que R (esto es específicamente para Data Science).

Python es un lenguaje de programación de propósito general. Con esto quiero decir que puedes usar Python para hacer muchas cosas como desarrollo web, ciencia de datos, reconocimiento de imágenes, desguace web, etc., y para cada una de estas tareas tienes bibliotecas o paquetes.

Además de la codificación normal (saber cómo usar python y desarrollar un programa pequeño y simple), debe aprender a usar estos paquetes.

Para la ciencia de datos, tiene el más famoso, incluso utilizado por los investigadores de Google: TensorFlow. Hay otros paquetes como: Theano, scikit, OpenCV, etc.

Solo saber codificar en Python no ayudará a nadie a desarrollar un programa de vanguardia para aplicaciones de ciencia de datos. Debes saber 2 cosas:

1. Comprensión teórica de conceptos (para aquellos interesados ​​solo en la parte de la aplicación, puede tomar esto a la ligera)

2. Usando estos paquetes y escribiendo un código en Python para la aplicación de ciencia de datos. (Esto es obviamente importante, ya que necesita desarrollar algo después de aprenderlo: p)

Así que prepárate. Espero que disfrutes aprendiendo ciencia de datos 🙂

No tiene que tener un conocimiento íntimo de Python, en su mayor parte, las bibliotecas manejan la mayor parte del trabajo pesado. Además de los fundamentos de programación, las funciones y las estructuras básicas de datos de Python, tendrá que aprender sobre programación orientada a objetos, ya que la mayoría de las bibliotecas como scikit-learn: aprendizaje automático en Python, usan un marco orientado a objetos. Desarrollé un curso gratuito sobre Python Python para Data Science que debería ayudar.

Es muy buena pregunta. Solo tienes que tener buenas habilidades de programación en Python. Si conoce los conceptos básicos, puede aplicarlos fácilmente Learn Data Science. Lea Learn Python de manera fácil: una descripción completa para aprender los conceptos básicos de Python. Hay una descripción completa de Learning Python para el análisis de datos. Puede leerla para obtener una descripción general de Python. Y para los mejores paquetes de Python Data Science a continuación se encuentra el enlace.

La mejor plataforma de ciencia de datos: “Anaconda” es realmente mágica

Probablemente no sea tan bueno cuando comienzas.

Esto solo se aplica a la programación general con Python, por supuesto.

Debe ser competente con la pila de ciencia de datos ( Pandas [1], Numpy [2] y Matplotlib [3], por nombrar algunos).

En algún momento, querrá / necesitará desarrollar herramientas nuevas o ampliar herramientas existentes.

En este punto, necesitarás mejores habilidades de Python. Los aprenderá cuando sea necesario.

Buena suerte.

Notas al pie

[1] Biblioteca de análisis de datos de Python

[2] NumPy – NumPy

[3] Trazado de Python: documentación de Matplotlib 2.0.2

No recomiendo Python para Data Science. Usaría R, que es el software más popular entre los científicos de datos.

More Interesting

¿Cuál es el estándar de JMLR contra documentos en ICML y NIPS?

¿Se pueden combinar blockchain y machine learning?

¿Qué hacen los ingenieros de aprendizaje automático diariamente?

¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?

Como aprender redes neuronales

¿Debemos usar el ajuste fino en redes neuronales profundas? La precisión de la clasificación es del 100%, pero después de un ajuste fino, se convierte en el 95.7%, ¿cómo llega esto?

¿Será el hardware especializado para el aprendizaje profundo un cambio de juego?

Como estudiante universitario de ciencias de la computación, cuál es la mejor opción entre cs o estadísticas Ph.D. para la carrera de ciencia de datos?

¿Puedes explicar el hashing de características de una manera fácil de entender?

Hay muchas distribuciones de probabilidad presentes en las estadísticas, ¿cómo debería uno usarlas? En general, veo personas que usan distribución gaussiana en algoritmos de aprendizaje automático.

¿Debo aprender primero el aprendizaje profundo o de refuerzo? ¿Hay un orden natural? ¿Debería hacerse al mismo tiempo?

¿Con qué empiezo, minería de datos, inteligencia artificial o aprendizaje automático?

¿Es necesario un MS o PhD en Machine Learning para trabajar en este campo en alguna empresa?

¿Qué ha aprendido sobre el aprendizaje automático, la recuperación de información y la minería de datos después de unirse a una empresa de Internet que se ocupa de big data?

¿Cuál es la forma correcta de verificar si mi fórmula de gradiente es correcta o no?