Cómo comenzar a analizar datos usando R

Primero, aprende R con remolinos.

remolino – Inicio (¡Gracias Joe Blitzstein por presentarme esto!)

Luego, tome un MOOC gratis en el análisis de datos con R

1) MOOC de análisis de datos e inferencia estadística en Duke

Enlace: Análisis de datos e inferencia estadística – Duke University | Coursera

2) MOOC StatLearning enseñado por Hastie y Tibshirani del Departamento de Estadística de Stanford.

Enlace: aprendizaje estadístico

La clase es la versión MOOC de “Una introducción al aprendizaje estadístico, con aplicaciones en R” (pdf oficial gratuito), que en sí es una versión introductoria de sus famosos “Elementos del aprendizaje estadístico” (pdf oficial gratuito). Consideraría que este último es el mejor recurso para aprender sobre el aprendizaje de los datos.

Si está interesado en un puerto Python de esta clase, consulte el blog DataRobot.

Si está interesado en aprender ciencia de datos / minería de datos, consulte mi publicación en ¿Cómo me convierto en un científico de datos?

La clave es comenzar de a poco y trabajar con datos que están preparados, como conjuntos integrados como los infames conjuntos de ‘iris’ y ‘mtcars’. Aprenda a hacer cálculos súper simples, agregaciones y trabajar con estructuras de datos, tipos y estadísticas básicas.

Luego pase a sus propios datos más desordenados y más exigentes. Estar frustrado reduce su capacidad de aprender, así que tómese el tiempo para sentirse cómodo con R, antes de pasar a los temas más difíciles.

William Chen hace algunas sugerencias decentes.

Utilicé SWIRL en mis primeros días y aprendí mucho de él, pero hoy en día hay maneras más fáciles, el medio más simple que he encontrado para que los compañeros de trabajo aprendan R es la pista de ciencia de datos R de datacamp.com. Cuesta alrededor de $ 30 por mes, pero está bien pensado, es más fácil de usar que el remolino y el concepto se integra naturalmente en las habilidades que probablemente necesitará en la próxima fase de su aprendizaje.

Revisaría los cursos básicos de DS que ofrecen y me sentiría relativamente bien preparado para la siguiente etapa. Es posible que trabajar en el campo de datos y probarse en conceptos en SWIRL, que es menos brillante, sea una combinación sólida para aprender rápidamente.

La siguiente fase es el trabajo independiente; ¡largas noches frustradas y uso intensivo de stackoverflow.com para obtener respuestas! Una vez que pueda adquirir, manipular, resumir y trazar sus propios datos, definitivamente debe comenzar a buscar MOOC desafiantes en el aprendizaje automático y el análisis avanzado de datos. Crecerá más rápido si lo hace.

Pero asegúrese de sentirse cómodo trabajando en el idioma y el entorno antes de comenzar, porque al principio una de las cosas más difíciles de superar cuando está atascado en algo es si el problema está en la gramática y el uso de un método, la estructura de sus datos o la aplicación errónea conceptual de un método.

Tener cierta comodidad en R y haber abordado algunos cientos de mensajes de error ayuda a desarrollar la capacidad de diferenciar entre estos diferentes tipos de error.

Para comenzar a analizar datos con el lenguaje de programación R, debe centrarse en los siguientes dos puntos:

Para analizar cualquier cosa, primero debe comprender los datos. La única forma en que se ve es posible cuando posee el conocimiento del modelado estadístico. Es la única forma de entender los datos. Hay muchos recursos de internet para ayudarlo en este tema.

  • Estadísticas y probabilidad
  • Inferencia estadística – Johns Hopkins University | Coursera

Después de adquirir habilidades de modelado estadístico, le sugiero que aprenda un lenguaje de programación estadística para abordarlo. Tiene dos opciones aquí: 1] Lenguaje de programación R 2] Lenguaje de programación Python.

Como usted preguntó específicamente sobre R, le sugiero que siga los recursos.

  • Prueba R
  • R Tutorial

Pero sobre todo aconsejo a las personas que aprendan el concepto de estadísticas con el lenguaje de programación R. He enumerado algunos recursos importantes a continuación:

Si desea hacer un análisis de datos con python, siga estos:

Todo lo mejor.

Datacamp.com es asombroso. Hay una serie de excelentes módulos de codificación de retroalimentación rápida de estilo codeacademy. También hay algunos maestros excelentes asociados con la plataforma. Finalmente, la plataforma ofrece una mejor transición de aprendizaje al mundo real que la academia de códigos porque la interfaz se asemeja a la interfaz e interacción de rstudio en lugar del salto gigante de la academia de códigos al editor de texto / navegador / línea de comando.

Definitivamente recomendaría MITx The Analytics Edge en http://edx.org/ . La próxima sesión será en la primavera de 2015.
Este fue un curso excelente en lo que respecta al análisis de datos y R. Estudios de casos súper interesantes. (¡Solía ​​esperar material nuevo cada semana!) Muchas tareas con R y una competencia de Kaggle.
Los he tomado de su página de programa archivada:

(Vea esta revisión aquí: MITx: The Analytics Edge por Pronojit Saha en Journey to planet Datum & Beyond)
Google para más revisiones en este curso.

Comienza aprendiéndolo primero.
El proyecto R para computación estadística

1. Realice todos los ejercicios de muestra dados.
2. Después de eso, comience con manipulaciones básicas de datos (tablas anexas, plomo, retraso, combinaciones, etc.): este paso nunca termina … puede manipular los datos de forma ilimitada … ilimitada
3. Después de eso, puede aventurarse en algunos de los modelos básicos (regresión lineal, regresión logarítmica, series de tiempo, arimax, etc.). Sin embargo, debe tener conocimiento sobre los modelos antes de probarlos (esa es una historia completamente diferente)

La primera cosa importante para comenzar el análisis es obtener el sentido del análisis de datos en sí. Esto no se construye aprendiendo R, pero requiere el conocimiento de estadísticas descriptivas e inferenciales y tal vez algunas piezas de probabilidad. Si ya conoce las técnicas de análisis de datos, le sugiero que aprenda R.

En mi opinión, el análisis de datos consta de tres factores.

1. Visualización

2. Estadísticas

3. Probabilidad

Todas estas tres cosas se pueden hacer fácilmente en lenguaje R.

Hay muchos sitios web que lo llevan de cero a un muy buen nivel de R. Puede comenzar por academia de códigos o campamento de datos.

No olvides completar todas las lecciones del paquete Swirl en R.

R in Action de Robert I. Kabacoff es un gran libro para principiantes.

El libro no solo cubre una amplia gama de temas, sino que también presenta muchos paquetes buenos de R.

Aquí hay una lista de 16 cursos de R destinados a diferentes niveles de estadística y programación: 16 cursos para aprender R en 2016

Consulte la lista y seleccione la que mejor se adapte a sus necesidades.