¿Cómo funciona la minería de datos en el caso de datos faltantes?

Pruebe con un árbol de decisión: toman los valores faltantes como una categoría separada y los usan efectivamente como predictores.

Para otros modelos, asigne un valor especial a sus valores faltantes. Es posible que desee incluir tanta información como sea posible sobre el tipo de valor perdido que es (por ejemplo: “-1” para un tipo de falta que no se observa, y “-2” para un tipo de falta que surgió de una selección que hiciste).

Es posible que pueda deducir que el valor es realmente “0”, por ejemplo, porque falta significa que la persona no completó el cuestionario.

Una última opción es imputar el valor al observar observaciones similares que tienen un valor para la variable que falta.

El mensaje principal aquí es: ser concienzudo, tomar una decisión, registrar su decisión y seguir adelante (teniendo en cuenta lo que hizo para no tener accidentes en la interpretación más adelante).

Big DataBig Data AnalysisData AnalysisData MiningData ScienceMachine Learning

Related Content

Después de tomar las estadísticas AP, descubrí que estaba realmente interesado en las estadísticas. ¿Qué me recomendarías para seguir aprendiendo más al respecto?

¿Cuál tiene una mejor oportunidad de carrera, desarrollo web, estructuras de datos, codificación algorítmica, ciencia de datos o algo más para un estudiante de BTech CSE en cuarto año en India?

¿Estar basado en datos es un rasgo fundamental de la personalidad, o puede adquirirse como una habilidad?

¿Cómo explicaría la respuesta a esta pregunta de matemáticas a alguien con poco conocimiento de las matemáticas?

Big data es mucho que aprender. ¿Cómo comienzo de una manera simple?

¿Cuántos científicos de datos empleados pueden resolver problemas de competencias en línea como la de Kaggle?

¿Cuál es la demanda de un abogado de patentes en los Estados Unidos?

Me sorprende que nadie haya mencionado la maximización de expectativas. Aquí hay una gran página explicativa en gatech.edu. Está maximizando un límite inferior en la probabilidad de datos observados.

Hannah van der Deijl

Para construir sobre la respuesta de Jim Kenyon, aquí hay algunos pros y contras de diferentes enfoques.

La principal ventaja de completar los datos faltantes (por ejemplo, promediando los datos que están cerca) es que facilita el trabajo posterior en el conjunto de datos. Si desea proyectar datos históricos en el futuro, arreglar el historial para que esté completo hace que todo lo que viene después sea más fácil, porque necesita que los puntos en la serie temporal estén igualmente espaciados para que las matemáticas funcionen.

El problema con el llenado de datos es que puede estar equivocado.

Se pueden evitar los datos faltantes, pero estos requieren modelos que puedan manejar datos incompletos. En general, su modelo asumirá que los datos que faltan son como los datos que tiene. Esto es cierto con muestreo aleatorio. Pero no será cierto si faltan todos los datos de una fuente en particular (por lo tanto, las estadísticas de los datos faltantes están sesgadas)

Si le faltan datos de una fuente en particular, o de un tipo en particular, a veces lo mejor que puede hacer es poner la certeza de sus resultados. Por ejemplo, si no sabe cuáles son los datos, pero probablemente esté en el rango de valores 5-10, puede calcular una conclusión del peor y el mejor caso (uno si es 5 y otro si es 10) y esto se convierte en el rango de posibles conclusiones.

Si es posible caracterizar estadísticamente los datos faltantes, puede calcular barras estadísticas de error para los resultados, pero esto puede ser bastante complicado.

En definitiva, se trata de rendimientos decrecientes. ¿Qué tan preciso realmente necesitas ser? Luego haga la cantidad mínima de trabajo para lograr esa precisión.

Naresh Abburi

Lamentablemente, la respuesta es: “depende de la técnica y la implementación de la técnica que se utiliza”.

Completar los datos faltantes es un enfoque, y hay diferentes maneras de hacerlo (por ejemplo, use un valor promedio; use una regresión local; use un valor promedio local).

Descartar registros con valores perdidos es otra.

Como señala Naresh Abburi, completar los valores faltantes tiene sus desventajas. Lo mismo ocurre con el descarte de registros con valores perdidos, particularmente si el conjunto de datos es pequeño, o los registros con valores perdidos son casos raros.

No hay una “respuesta fácil” para esto.

Hannah van der Deijl

La falta de datos es un problema común en Data Mining
Usted decide si irá con el análisis de caso completo o si imputará los datos faltantes.
Dos problemas principales cuando faltan los datos son
1. los coeficientes de su modelo no son una verdadera representación del objetivo.

2. Y la puntuación de los nuevos datos tampoco se puede hacer.

Verifique los temas sobre datos que faltan al azar y datos que faltan completamente al azar.

Naresh

Hannah van der Deijl

More Interesting

Comparta materiales gratuitos interesantes sobre ciencias de datos / Big Data / Machine Learning aquí?

¿Hay algún buen instituto para certificar big data, data science y analytics en Bangalore?

¿Cuáles son algunos algoritmos de recuperación de información de los que siempre debe tener una sólida comprensión y por qué?

¿Qué es Big Data y cómo puede ser útil?

¿Cuáles son las ventajas de 'Big Data' sobre las técnicas estándar?

¿Cuáles son algunos buenos currículums de Data Science?

¿Cuál fue su experiencia al pasar de Investigación de operaciones o Ingeniería industrial a Aprendizaje automático o Ciencia de datos?

¿Cuáles son algunos usos analíticos de big data?

¿Cuáles son los últimos métodos 'innovadores' en análisis predictivo?

¿Qué tipo de análisis de datos hay en R?

¿Cuáles son las cosas "imprescindibles" sobre ciencia de datos y análisis?

¿Por qué hay muchos módulos en el ecosistema hadoop en lugar de un solo módulo?

Cómo aprender ciencia de datos con un conocimiento intermedio de Python

¿Cómo genera LinkedIn exactamente la lista de usuarios que "los espectadores de este perfil también vieron"?

¿Cuánta programación debe saber alguien antes de entrar en Machine Learning y Data Science?

Web Analytics