¿Cómo trato con los datos faltantes cuando ejecuto una regresión logística?

El enfoque que tomaría depende de la cantidad de datos que tengo:

gran cantidad de datos (> 100000 puntos de datos): es más seguro ignorar si realmente es solo el 10%, que hacer cualquier otra cosa. O use bosques aleatorios o algo en lugar de regresión logística.

datos moderados (miles de puntos de datos): existen varios métodos simples para la imputación de datos faltantes, y funcionarán razonablemente dado que solo una pequeña porción de sus datos se ve afectada.

Una de las más simples es la imputación del vecino más cercano, que tiene implementaciones en muchos idiomas, esto funcionará rápidamente para conjuntos de datos de tamaño moderado.

También puede ajustar un modelo de análisis factorial al subconjunto completo de datos y luego usarlo para imputar valores faltantes, o usar cualquier otra imputación basada en factorización matricial para tratarlo. Un enfoque relacionado sería aprender regresores independientes para las variables que faltan en función de las que siempre tiene.
Probablemente sea menos probable que encuentre una implementación buena y simple de este enfoque.

datos pequeños: para conjuntos de datos pequeños de los que será difícil aprender algo, consideraría elegir un método más avanzado que se ocupe del problema de la falta de datos o construir un modelo basado en algún tipo de conocimiento de dominio o Suposiciones

¿Cuál es la diferencia entre análisis inferencial y descriptivo de datos?

¿Cuál es la configuración necesaria para comenzar la ciencia de datos con R en mi computadora portátil?

¿Cuán vital será la ciencia de datos en los próximos diez años?

¿Cuál es la forma más efectiva de estructurar un equipo de ciencia de datos?

¿Cómo exactamente hackea un sitio web / base de datos? ¿Es solo una cuestión de robar la contraseña de un administrador?

¿Cuál es el mejor esquema de partición de disco para un Hadoop DataNode? ¿Es una pequeña partición RAID5 una mejor opción, o tal vez el sistema operativo debería coexistir en la primera partición DataNode, para evitar problemas de espacio en disco?

Algunas opciones:

Reemplace los valores faltantes con promedios de columna (es decir, reemplace los valores faltantes en la función 1 con el promedio de la función 1).
Reemplace los valores faltantes con medianas de columna.
Imputar valores perdidos utilizando las otras características.
Eliminar registros que faltan características.
Utilice una técnica de aprendizaje automático que utilice árboles de clasificación, por ejemplo, bosques aleatorios, árboles potenciados, árboles en bolsas, etc.

Ryan Zotti

Es importante que primero establezca si sus datos faltan al azar, completamente al azar o no al azar. Si faltan datos no al azar, es posible que tenga un problema grave con su investigación. Si sus datos faltan completamente al azar, podría considerar la eliminación por lista: simplemente elimine los casos con valores faltantes de su análisis. (Puede ser importante no eliminarlos por completo, sino excluirlos de futuras investigaciones). Si sus datos faltan al azar, la imputación múltiple es el método a seguir. Este enlace ofrece una descripción general de varios métodos para tratar los datos faltantes y cómo implementarlos: http://www.odmguide.com/data-ana …

Ryan Zotti

Puede interpolar los valores de datos faltantes si son solo el 10% del conjunto, pero como escribió otro póster, debe indicar que se interpolan con una variable ficticia. No insertaría promedios de columna en los puntos de datos faltantes; si la distribución de la característica es sesgada, se encontrarán con problemas. Si está utilizando Python, puede interpolar los valores de NaN en una matriz numpy con bastante facilidad: NumPy v1.6 Manual (DRAFT)

Ryan Zotti

Si no se tratan los valores faltantes, el software estadístico como SAS eliminará automáticamente las filas del conjunto de datos. Puede excluir dichos registros si: –

1. Los valores faltantes son <10%
2.Tiene un conjunto de datos lo suficientemente grande (que satisface la normalidad)
3. La tasa de respuesta es suficiente (la eliminación de algunas filas no afectará mucho la tasa de respuesta)
4. Faltan datos al azar del conjunto de datos.

Existen varios métodos para imputar valores perdidos: –

A.) Basado en el sentido comercial: –

1. Reemplace las variables continuas como la edad, el ingreso con la columna media / mediana
2. Reemplace las variables de fecha con el modo más alto / más bajo /
3. Reemplace las variables ordinales con niveles min / max

B.) Use otras técnicas como la imputación del vecino más cercano

Ryan Zotti

De hecho, escribí un libro sobre el tema:
http://www.amazon.com/Business-I …

” El primer paso en cualquier esfuerzo de BI es saber con qué tiene que trabajar. Muchas organizaciones tienen datos, pero no hay una fuente definitiva de respuestas sobre qué hay, dónde está y quién es el propietario. Otras organizaciones ya tienen almacenes de datos que catalogue todos los datos de la empresa.

Una de las cosas más difíciles de hacer después de identificar las preguntas que desea hacer es averiguar qué datos se necesitan para responderlas. Esto requiere algún tipo de catálogo de datos para trabajar, y si no existe, deberá crearse.

Necesitarás saber:

1. Qué datos están disponibles (los objetos y propiedades, o campos y tablas, que están en los datos)

2. ¿En qué forma están los datos actualmente (¿están disponibles en una base de datos? ¿Como una exportación de un producto? ¿Al conectarse a una API?)

3. ¿Con qué frecuencia puede obtener datos nuevos? Una API generalmente proporcionará datos nuevos, mientras que una exportación solo puede actualizarse una vez al día.

Si se da cuenta de que sus datos no son suficientes para responder sus preguntas, entonces lo que tiene es un vacío de información. Esta brecha es la diferencia entre qué datos tiene y qué datos necesita. Después de identificar esta brecha, debe determinar cuánto de la brecha debe llenarse desde fuentes internas y cuánto puede llenarse externamente. Esto dependerá en gran medida de qué pregunta está respondiendo. Si desea saber sobre demografía, por ejemplo, puede utilizar fuentes externas como datos del censo y otras investigaciones disponibles públicamente. Sin embargo, si está buscando averiguar qué departamentos de su propia empresa ofrecen el mejor valor, por supuesto, tendrá que recopilar todos los datos internamente. Muchas preguntas caerán en algún lugar entre esos dos extremos y requieren la recopilación de datos en ambos sentidos.

Hay muchas fuentes de datos externos que puede explorar para tapar sus brechas de información. Aquí hay algunos para comenzar:

Infochimps es quizás el mercado de datos líder, que ofrece datos sobre todo, desde Twitter hasta el consumo de energía.

Microsoft Azure Data Market ofrece muchos tipos diferentes de datos, incluidos bienes raíces, transporte, bienes de consumo y muchos más.

Pew Research , la famosa compañía de encuestas que a menudo se cita en las noticias, ofrece muchos de sus conjuntos de datos para descargar y usar.

Hay muchos otros mercados de datos, pero esto debería ser suficiente para comenzar.

Una vez que se recopilan todos los datos que necesita, deben integrarse. Este proceso a menudo se denomina Data Warehousing e implica solucionar cualquier problema con los datos, hacer que los datos de diferentes fuentes trabajen juntos y conectar los datos a las herramientas de BI que se utilizan.

Algunas herramientas de BI (que analizaremos más adelante) ofrecen capacidades de almacenamiento de datos livianas integradas para que no tenga que realizar este ejercicio. Sin embargo, tenga en cuenta que a menudo estas herramientas no incluyen toda la gama de capacidades y a menudo están limitadas en cuanto a la cantidad de datos que pueden manejar. Entonces, si planea analizar una gran cantidad de datos, probablemente necesite construir un almacén de datos real “.

También puede obtener más información visitando http://www.applieddatalabs.com

Ryan Zotti

More Interesting

¿Cuáles son los requisitos para los estudios de posgrado en ciencias de gestión como la gestión de operaciones y las ciencias de decisión?

¿Cuáles son los mejores cursos en línea de ciencia de datos y PNL?

¿Cuáles son los requisitos previos para una maestría en ciencia de datos?

¿Dónde puedo obtener algunas hojas de datos para practicar ciencia de datos en Python?

¿Cuáles son los nuevos recursos de big data?

¿Cómo genera LinkedIn exactamente la lista de usuarios que "los espectadores de este perfil también vieron"?

¿Cuál es la mejor opción para las ciencias de datos: IPython o R?

¿Cuál es la diferencia entre ciencia de datos, análisis de datos, minería de datos, aprendizaje automático, inteligencia artificial y big data?

¿Cuáles son las compañías en India que trabajan en el dominio de las ciencias de datos aparte de Mu Sigma?