¿Cómo analizar los datos en R? ¿Cómo hago para el análisis? Tengo datos y quiero analizar, ¿qué debo hacer?

Es genial que estés familiarizado con los conceptos estadísticos. Por lo tanto, debe tener en cuenta el análisis descriptivo e inferencial también.

Como está haciendo esta pregunta, supongo que solo necesita el comienzo correcto. La forma de comenzar cualquier análisis es haciendo preguntas . Tiene su conjunto de datos, puede ver los campos, sus tipos de datos y valores. Lo que falta es la pregunta. Sin lugar a dudas, estás en un vasto océano sin buscar nada.

Haz preguntas como:

  1. ¿Qué historia quieres contar a través de tus datos?
  2. ¿Qué resultados finales quieres de este análisis de datos?
  3. ¿Qué conclusiones quieres sacar de esto?
  4. Si se hacen suposiciones antes de comenzar su análisis, verifique qué enfoques probarán que son ciertas y cuáles las negarán.

Una vez que esté listo con la pregunta, importe datos, desde la fuente, a R e intente encontrar las variables que pueden ayudarlo a responder su pregunta. El océano ahora es todo tuyo. Profundice, juegue con sus datos para desarrollar sus conocimientos.

Espero eso ayude

Primero, reduzca la pregunta que necesita responder a partir de los datos. Compruebe si la variable de destino es categórica o continua. Esto lo ayudará a decidir qué modelo se ejecutará.

Por ejemplo: para una variable objetivo sí / no, se puede utilizar la regresión logística (que será una lógica binaria).

Cada análisis de datos comenzará con la preparación de datos. Los pasos básicos son echar un vistazo a las estadísticas descriptivas, gráficos que posteriormente lo ayudarán a deshacerse de los valores atípicos, si los hay. Y también la falta de valores es otro aspecto que debe abordarse en esta etapa.

El siguiente paso sería dividir los datos en conjuntos de datos de capacitación y validación. El conjunto de datos de capacitación se utilizará para desarrollar el modelo y el conjunto de datos de validación para verificar la precisión de su modelo.

La construcción de modelos es el siguiente paso. Este es un proceso iterativo. Lo cual implicará la adición y eliminación de varias variables de su modelo en función de su importancia. Esto puede requerir algunos conocimientos de dominio para generar mejores resultados.

En R, hay algunos pasos de preprocesamiento para analizar los datos antes del modelado.

Las cosas importantes que debe verificar antes de entrenar o probar datos son:

  1. Compruebe si los datos están en categórico o numérico.
  2. Luego dummify los atributos si es necesario.
  3. Pronosticar los datos después de agregar variables ficticias.
  4. Divide los datos en Train & Test.
  5. Luego, ejecute el modelo (series temporales lineales (o)) en los datos del Tren.
  6. Verifique el nivel de precisión (repita el número de iteraciones)
  7. Ahora ejecute el modelo en Datos de prueba (repita el número de iteraciones)
  8. Finalmente, compruebe la mejor curva o la mejor precisión.

More Interesting

¿Debería una persona aprender sobre ciencia de datos en general antes de entrar en el aprendizaje automático? ¿Por qué?

¿Qué tan relevante es el análisis de Big Data para la economía global actual?

¿GoLang es una mejor opción de lenguaje de programación para proyectos de aprendizaje automático manteniendo el rendimiento y la escala horizontal como las principales preocupaciones de diseño?

¿En qué escenario empresarial se hace necesario el aprendizaje en línea, actualizar el modelo en tiempo real con la llegada de nuevos datos?

¿Cuáles son los inconvenientes de Mongo DB? ¿Es bueno comenzar una carrera con la ciencia de datos?

¿Qué tan importante es el lenguaje de programación R hoy en día? ¿Debo continuar tomando un curso que enseñe el aprendizaje automático a través de la programación R, o ir al curso convencional de aprendizaje automático de Stanford?

¿Cómo se relacionan los nombres de los archivos de extensión con los datos?

¿Llegarán los big data y la visualización de datos a una era de exponer BS pseudo-filosóficas y pseudocientíficas (como la radiografía expone la patología subyacente) visualizando antipatrones en razonamiento, calidad de evidencia y silenciamiento de críticos? ¿'Veremos' BS?

¿Cuáles son algunos buenos proyectos sobre aprendizaje automático y minería de datos?

¿Qué tiene de diferente el desarrollo de Big Data en comparación con el desarrollo de Data Warehouse?

¿Todavía vale la pena hacer MS en aprendizaje automático clásico o minería de datos sin un módulo en profundidad sobre aprendizaje profundo que está en tendencia?

¿Qué tan buenas serán las oportunidades si agrego habilidades / conocimientos adquiridos por CFA-I además de mis habilidades básicas de análisis de datos?

Siempre odié programar en idiomas de bajo nivel, ¿debería olvidarme de la ciencia de datos como una carrera potencial? Me refiero a C / C ++ en comparación con Matlab, R, Python

¿Se puede utilizar la ciencia de datos para ayudar a tomar decisiones personales?

¿Hay algún dato que sea particularmente difícil de obtener con respecto a la valoración de la asistencia sanitaria?