¿Qué algoritmos debe aprender un estudiante interesado en ciencia de datos?

Hola !

Como dijo Mark Meloon, aprender algoritmos es la parte más fácil. Lo más interesante es cómo los pone en práctica con datos reales.

En mi opinión, una gran parte de la ciencia de datos es cómo preparar sus datos primero antes de alimentarlos a su modelado, pero esta es otra pregunta.

Okay. Si eres nuevo en ciencia de datos, te sugiero:

comenzando con un curso introductorio sobre aprendizaje automático. Las conferencias de Andrew Ng sobre el tema son las que ayudaron a obtener una primera visión de los conceptos de aprendizaje automático. Son claros, bien explicados y definitivamente te entusiasmarán con el tema. Hasta donde recuerdo, estos cursos se dividen en categorías. cada uno trata con un algoritmo específico.
Puedes ver el curso completo en youtube. Aquí está el enlace .

Básicamente, primero comenzaría con algoritmos supervisados:

regresiones lineales
logístico regresiones
SVMs,
Clasificadores ingenuos de Bayes

Luego cambiará a algoritmos no supervisados:

K-significa
PCA

Siguiendo con las video conferencias de Andrew Ng, ensuciarse las manos con implementaciones y simulaciones parece ser la elección correcta. Es por eso que recomendaría descargar e incluso imprimir este libro.
Es, con mucho, uno de los libros más eficientes que leo. Si desea explorar la teoría más profundamente y comenzar a codificar, implementar, ajustar, etc., ¡este libro es para usted!

La parte de codificación está en Python y usa la pila PyData, así como la biblioteca scikit-learn.
Practicando. Practicando tanto como puedas. Una cosa que encontré, y que aún disfruto hoy, es la gran cantidad de cuadernos y tutoriales de Jupyter sobre estadísticas y aprendizaje automático.
Después de estos cuadernos, aprenderá cómo crear modelos en python, cómo preprocesar, limpiar y visualizar sus datos, cómo administrar el ajuste, el sobreajuste, la validación cruzada, la regularización, etc.

Los cuadernos le brindarán una experiencia de codificación. Te ayudarán a entender el modelado. Incluso te harán comenzar a escribir tus propias tuberías.

Abre este enlace y mira lo que la comunidad tiene para ofrecer.
(Parte de este repositorio también encontrará los cuadernos relacionados con los videos de Andrew Ng)

La teoría es buena. Creo que lo que te hace ganar más confianza es la práctica.
Ve a Kaggling. Crea una cuenta si aún no tienes una, luego comienza jugando con algunas competiciones completadas. (La parte del tutorial también es bastante buena).
Una vez que haya completado su primer envío, coloque el código con orgullo en github y compártalo con la comunidad. Al mismo tiempo, mira lo que otras personas hicieron en la misma competencia y compara las técnicas. créeme, aprenderás en este proceso más que cualquier cosa que hayas hecho antes.
Si siente que ha ganado más y más confianza en sus habilidades. Esto es lo que sugiero.
Busque un conjunto de datos con el que pueda jugar. Encontrarás una ENORME lista en este repositorio de Github. Elige uno que te interese, comienza a jugar con él. Construye una historia en torno a ella: el modelado predictivo, la visualización de datos siempre son parte del juego.

Escriba su historia en un formato de cuaderno Jupyter y luego publíquela en línea para que otras personas también puedan ver su código.

Así es como pasarías de ser un principiante a un contribuyente increíble.

Buena suerte !

¿Cuáles son los métodos para la agrupación de datos de series temporales aplicables a grandes conjuntos de datos?

¿Qué paquete R es el más utilizado por los científicos de datos para la visualización de datos?

¿Cómo es el programa de MS de ciencia de datos, big data y análisis de datos en Aegis School of Business, Data Science and Telecommunication, Mumbai?

¿Qué es una aplicación de aprendizaje automático y cómo se usa, que no es una de las siguientes: redes sociales, motores de búsqueda, bioinformática, neurociencia, investigación en el CERN, ciencia actuarial y sistemas de recomendación?

¿Qué es un buen software y un sistema de gestión de inventario de productos SaaS?

En términos simples, ¿qué son exactamente Apache y Hadoop, y qué importancia tienen para los grandes datos y la ciencia de datos?

Entiendo tu deseo, pero aprender algoritmos es la parte fácil. Sería mucho mejor aprender el “pensamiento analítico de datos” y obtener una comprensión intuitiva de lo que realmente es la ciencia de datos. Te daré una pista: es mucho más que una colección de algoritmos.

Debe leer el libro Data Science for Business. ¿Por qué? Porque hará lo que quiera, es decir, pasará por los algoritmos básicos que debe saber para ser un científico de datos en ejercicio, pero lo hará desde un enfoque centrado en el concepto , en lugar de uno centrado en el algoritmo . En otras palabras, cada capítulo está dedicado a un concepto central en ciencia de datos y luego proporciona algoritmos específicos como ejemplos de ese concepto.

¿Porque es esto importante? Uno, la ciencia de datos se está moviendo tan rápido que hay una buena posibilidad de que aprenda algoritmos obsoletos (es sorprendente cuántos libros y cursos enseñan métodos clásicos que no funcionan en Big Data). Dos, su comprensión de los conceptos de la ciencia de datos hará que, naturalmente, comience a pensar analíticamente los datos. Esto hace que el aprendizaje de nuevos algoritmos, que tendrá que hacer toda su carrera como científico de datos, sea rápido e intuitivo.

Escucha, tengo un doctorado. en matemática aplicada. Amo los algoritmos tanto como cualquiera aquí. Si te estoy diciendo que cambies tu enfoque de aprender una colección de algoritmos a adoptar un nuevo método para pensar y resolver problemas, debes saber que es muy importante.

Y encontrará que el proceso de aprendizaje de la ciencia de datos es aún más fascinante al hacerlo de la manera que acabo de describir. ¡Buena suerte!

Mark Meloon

Puede comenzar con algoritmos básicos de correlación (Pearson, Spearman) para ensuciarse las manos con el aprendizaje automático. Estos son los más simples para acostumbrarse y hay muchos ejemplos, herramientas y literatura a su alrededor. Si está intentando esto con una distribución Hadoop, puede usar Mahout.

Mark Meloon

More Interesting

¿Qué deben saber todos sobre el descenso de gradiente (estocástico)?

El modelado dimensional popularizado por Ralph Kimball es quizás la metodología de implementación del almacén de datos más popular. Sin embargo, algunos cuestionan la escalabilidad de la metodología de Kimball. ¿Cuáles son algunas desventajas del método K?

¿Cuál es la mejor institución para aprender un curso de análisis de negocios / ciencia de datos en Hyderabad?

¿Cómo se relacionan la regresión lineal y el descenso de gradiente? ¿Es el descenso de gradiente un tipo de regresión lineal y es similar a los mínimos cuadrados ordinarios (OLS) y los mínimos cuadrados generalizados (GLS)?

¿Cuáles son los consejos prácticos para trabajar con una gran cantidad de datos para el análisis en Excel?

¿Qué es la ciencia de datos en términos simples?

¿Existen aplicaciones para el aprendizaje automático / ciencia de datos en el campo de los vuelos espaciales?

¿Cuáles son algunos ejemplos de cómo se aplica la ciencia de datos en la inversión?

¿Cuál es la mejor base de datos para big data?

¿Vale la pena que un desarrollador de pila completa aprenda ciencia de datos?