Si desea una introducción al mundo del aprendizaje automático y no tiene ningún conocimiento del campo, le sugiero que tome el curso ML de Andrew Ng (Stanford) y luego repase la programación de R.
Comprender los conceptos del aprendizaje automático es importante antes de aplicarlos en cualquier idioma. El curso de Machine Learning en Coursera cubre un terreno decente en diferentes etapas de la tubería de ML:
- Selección de características: elegir características apropiadas para un modelo estadístico.
- Regularización: explica la regresión de Ridge para penalizar los coeficientes.
- Reducción de la dimensionalidad: la matemática detrás del análisis de componentes principales, valores propios, vectores propios.
- Equilibrio de sesgo-varianza: cómo el aumento en la complejidad del modelo puede conducir a un problema de alta varianza.
- Medidas de rendimiento: precisión simple, precisión, recuperación, medida [matemática] F _ {\ beta} [/ matemática]
- Redes neuronales: explica las matemáticas detrás de la propagación hacia atrás para estimar pesos y sesgos en una red neuronal artificial típica.
- Modelado estadístico: regresión lineal, regresión múltiple, regresión logística y máquinas de vectores de soporte
Todo se enseña usando Octave (o MATLAB) debido a las habilidades de manipulación de la matriz del lenguaje.
- ¿Cuál es la diferencia entre un título en Business Analytics y un título en Data Science?
- ¿Hay alguna organización / empresa que trabaje en big data y análisis de datos en o alrededor de Pune?
- ¿Hay algún lugar en Gurgaon donde pueda enseñar Data Science gratis?
- ¿Cuál es la importancia de la gestión, análisis y seguridad de datos para una empresa?
- ¿Qué es un lago de datos en el contexto de big data?
No obstante, R proporciona excelentes herramientas para la visualización de datos y un revestimiento para ajustar modelos estadísticos. Python utiliza el concepto de marcos de datos de R para almacenar y manipular datos en la biblioteca de pandas . Creo que R es conveniente para trazar algunos gráficos rápidos, comprender la distribución de datos y resumir los puntos de datos en general.
A pesar de que R y MATLAB tienen sus ventajas, uso predominantemente python para la programación de la ciencia de datos porque la base del código está bien documentada para bibliotecas oscuras. Explico más sobre esto en la respuesta de Ajay Halthor a ¿Por qué los científicos de datos prefieren Python? Compruébelo usted mismo si tiene tiempo.
Aunque sugiero el curso de Stanford, honestamente no puedes equivocarte de ninguna manera siempre y cuando te concentres en los fundamentos del aprendizaje automático antes de intentar dominar la sintaxis del lenguaje efímero.