Hola !
Como dijo Mark Meloon, aprender algoritmos es la parte más fácil. Lo más interesante es cómo los pone en práctica con datos reales.
En mi opinión, una gran parte de la ciencia de datos es cómo preparar sus datos primero antes de alimentarlos a su modelado, pero esta es otra pregunta.
- ¿Cuáles son los mejores institutos de capacitación y certificación de Big Data y Hadoop en Bangalore?
- ¿Qué programación es beneficiosa para los científicos de datos?
- ¿Vale la pena hacer ciencia de datos?
- ¿Cómo podemos crecer programadores principiantes como ciencia de datos profesional durante unos meses?
- ¿Son iguales los trabajos de análisis de datos y ciencia de datos?
Okay. Si eres nuevo en ciencia de datos, te sugiero:
- comenzando con un curso introductorio sobre aprendizaje automático. Las conferencias de Andrew Ng sobre el tema son las que ayudaron a obtener una primera visión de los conceptos de aprendizaje automático. Son claros, bien explicados y definitivamente te entusiasmarán con el tema. Hasta donde recuerdo, estos cursos se dividen en categorías. cada uno trata con un algoritmo específico.
Puedes ver el curso completo en youtube. Aquí está el enlace .
Básicamente, primero comenzaría con algoritmos supervisados:
- regresiones lineales
- logístico regresiones
- SVMs,
- Clasificadores ingenuos de Bayes
Luego cambiará a algoritmos no supervisados:
- K-significa
- PCA
- Siguiendo con las video conferencias de Andrew Ng, ensuciarse las manos con implementaciones y simulaciones parece ser la elección correcta. Es por eso que recomendaría descargar e incluso imprimir este libro.
Es, con mucho, uno de los libros más eficientes que leo. Si desea explorar la teoría más profundamente y comenzar a codificar, implementar, ajustar, etc., ¡este libro es para usted!
La parte de codificación está en Python y usa la pila PyData, así como la biblioteca scikit-learn.
- Practicando. Practicando tanto como puedas. Una cosa que encontré, y que aún disfruto hoy, es la gran cantidad de cuadernos y tutoriales de Jupyter sobre estadísticas y aprendizaje automático.
Después de estos cuadernos, aprenderá cómo crear modelos en python, cómo preprocesar, limpiar y visualizar sus datos, cómo administrar el ajuste, el sobreajuste, la validación cruzada, la regularización, etc.
Los cuadernos le brindarán una experiencia de codificación. Te ayudarán a entender el modelado. Incluso te harán comenzar a escribir tus propias tuberías.
Abre este enlace y mira lo que la comunidad tiene para ofrecer.
(Parte de este repositorio también encontrará los cuadernos relacionados con los videos de Andrew Ng)La teoría es buena. Creo que lo que te hace ganar más confianza es la práctica.
- Ve a Kaggling. Crea una cuenta si aún no tienes una, luego comienza jugando con algunas competiciones completadas. (La parte del tutorial también es bastante buena).
Una vez que haya completado su primer envío, coloque el código con orgullo en github y compártalo con la comunidad. Al mismo tiempo, mira lo que otras personas hicieron en la misma competencia y compara las técnicas. créeme, aprenderás en este proceso más que cualquier cosa que hayas hecho antes.
- Si siente que ha ganado más y más confianza en sus habilidades. Esto es lo que sugiero.
Busque un conjunto de datos con el que pueda jugar. Encontrarás una ENORME lista en este repositorio de Github. Elige uno que te interese, comienza a jugar con él. Construye una historia en torno a ella: el modelado predictivo, la visualización de datos siempre son parte del juego.
Escriba su historia en un formato de cuaderno Jupyter y luego publíquela en línea para que otras personas también puedan ver su código.
Así es como pasarías de ser un principiante a un contribuyente increíble.
Buena suerte !