¿Qué analizamos? – Si no sabemos esto, ¿por qué recopilamos los datos? Como buena práctica El primer paso de nuestro análisis de datos es qué queremos analizar en lugar de recopilar los datos. Podemos ayudar a las PYME en esto.
¿Cómo comenzamos y puntos cruciales? – Tomemos un caso de regresión lineal. Entonces, cuando usamos la regresión lineal, una parte crítica del proceso consiste en verificar para asegurarse de que los datos que queremos analizar puedan analizarse realmente con esta prueba. En el caso de la regresión lineal, debemos tener en cuenta algunos supuestos.
- Variable dependiente continua
- Variable independiente continua
Si no cumplimos con los dos supuestos anteriores, entonces debemos seleccionar alguna otra prueba estadística para analizar nuestros datos, ya que el uso de la regresión lineal es una prueba estadística incorrecta para analizar nuestros datos.
- ¿Existe algún beneficio de saber que Java debe seguir el camino de ser un científico de datos o puede tomarse como un complemento? (Java-as Map reduce los requisitos previos: análisis de Big Data)
- ¿Cuáles son los mejores ejemplos de ciencia de datos aplicados al comercio minorista?
- ¿Cuál es la mejor manera de comenzar una carrera en ciencias de datos después de completar un título en ciencias físicas?
- Con más de 50 años, ¿cuáles son mis posibilidades de convertirme en un científico de datos exitoso?
- ¿Qué es la ciencia de datos? ¿Cuál es el alcance? ¿El análisis de datos y el análisis comercial son lo mismo? ¿Necesitamos estudiar programación?
- Relación lineal entre la variable dependiente e independiente. Error de trazado V / s Relación del predictor. Si no hay un patrón discernible, pase al siguiente paso. Si encontramos algún patrón discernible, entonces tenemos que usar la transformación no lineal de los predictores y volver a verificar este paso nuevamente para verificar el requisito.
- Verifique la correlación del error de datos. La presencia de correlación entre los términos de error disminuye el error estándar de los coeficientes del modelo, lo que resulta en una disminución del valor p, CI y PI. Esto nos da una sensación de confianza injustificada en nuestro modelo. Si estamos seguros de que nuestros datos se ingresaron de manera oportuna, es decir, la primera entrada en la primera fila y la segunda entrada en la segunda fila, etc. Entonces podemos usar la estadística de Durbin-Watson para verificar nuestra correlación entre el término de error. Sus valores pueden variar de 0 a 4. Un valor de 2 indica que no hay correlación entre los residuos.
- Verifique los valores atípicos.
- Comprobación de homocedasticidad. Indica que la varianza de los errores es constante en todos los valores de la variable independiente. Podemos trazar valores residuales v / s valores predichos. Por lo general, buscamos la presencia de forma de embudo en la trama y, si está presente, si encontramos que no tenemos homocedasticidad, entonces debemos tomar alguna medida correctiva. No existen. de enfoques para resolver este problema. Podemos ejecutar a) transformación de nuestra variable tanto independiente como dependiente b) ejecutar una regresión con errores estándar robustos c) ejecutar una regresión robusta d) Ecuación de regresión de mínimos cuadrados ponderados
- Compruebe si los errores de la línea de regresión se distribuyen aproximadamente de manera normal o no. (Control de inclinación y curtosis)
- Comprobación de valores perdidos. Si podemos perder el valor, entonces podemos eliminarlos o completar otros valores en su lugar. Existen varios métodos para completar los valores faltantes. Un enfoque de principiante es llenar el valor faltante con el promedio de todos los demás valores.
Después de ejecutar la prueba de supuestos si sus datos cumplen con todos los supuestos, puede usar cualquier software estadístico para obtener nuestro modelo. Si no tenemos entrenamiento y conjunto de pruebas, entonces podemos dividir nuestros datos en una proporción para obtener el conjunto de entrenamiento y el conjunto de prueba.
Después de obtener nuestro resultado, necesitamos verificar el valor p y el valor R cuadrado para concluir la importancia y la previsibilidad de nuestro modelo. Si todos son significativos, entonces podemos usar nuestro modelo para verificar nuestra previsibilidad en el conjunto de pruebas. Ahora hemos terminado con nuestro modelo