Como ha realizado proyectos académicos, asumiré que está familiarizado con las técnicas básicas para localizar valores atípicos y / o transformar el conjunto de datos, y simplemente le daré una lista de las preocupaciones que uso para decidir cómo manejarlas.
Influencia. Dependiendo de la ubicación de un valor atípico, su influencia puede variar desde no muy influyente (en cuyo caso, es seguro excluirlo dado que tampoco es importante para el resto de las preocupaciones que voy a enumerar) hasta muy influyente (en cuyo caso, debe analizar el resto de las inquietudes con mucho cuidado y conservar sin razones suficientes para no hacerlo).
NOTA: Las siguientes son reglas generales muy generales. Se aplican excepciones y se supone que usted ha investigado la influencia y tiene motivos para considerar retener el valor atípico.
- Cómo escanear un diccionario antiguo de manera que pueda indexar el contenido
- ¿Cuál es la mejor manera de aprender analítica de personas?
- ¿Cómo influye Big Data en la gestión del talento?
- ¿Debo aprender las estructuras de datos y la informática real o continuar con las aplicaciones de Oracle?
- ¿Por qué pasarías a la ciencia de datos de ser consultor?
OTRA NOTA: Mi proceso, según me han dicho, es un poco extraño. Mis métodos profesionales siempre tuvieron reacciones extrañas al leer mis análisis. Recibí buenas calificaciones, pero siempre obtuve miradas extrañas después de la primera tarea. Siéntase libre de tomar esto con un salero entero.
1. Tamaño de la muestra / población. Como estoy seguro de que sabe, no siempre obtiene la cantidad de datos que desea. Si estoy tratando de decidir qué hacer o cómo interpretar el hecho de que tengo valores atípicos, miro el tamaño de la muestra para determinar qué tan ‘en serio’ tomar los valores atípicos.
No ignore los valores atípicos en muestras pequeñas. Pueden o no ser el resultado del tamaño de la muestra, pero la escasez de información que tiene debe hacer que conserve la mayor cantidad posible.
Si la población en la que ha extraído la muestra es pequeña, ese valor atípico es importante para la interpretación de los resultados porque es menos probable que la población se distribuya normalmente. Si cree / sabe que la población no está distribuida normalmente, la desviación en la muestra es muy importante para la extrapolación y también lo es el valor atípico. Algunos métodos para encontrar ese valor atípico dependen de la normalidad, por lo que también querrá verificar para asegurarse de que está utilizando un método apropiado.
Ejemplo: si estuviera encuestando a las empresas sobre su crecimiento durante el último año, pero solo obtuvo una tasa de respuesta del 5% para un total de 100 casos, mantendría los valores atípicos. La muestra es lo suficientemente pequeña como para requerir precaución en la interpretación, y es poco probable que sea representativa. No trataría los resultados o valores atípicos como representativos en mi interpretación. Sin embargo, buscaría similitudes en las subpoblaciones de las que obtuve información para ver si podía ‘reducir’ el alcance de la interpretación para que coincida con los datos que tenía. También buscaría datos adicionales para ayudar a especificar la información que falta. (Por ejemplo, podría contrastar las estadísticas oficiales del gobierno con la muestra que reuní para compensar el pequeño tamaño de la muestra).
2. Investigar la metodología. Si puede hacerlo fácilmente, desea descartar violaciones flagrantes de los métodos que causaron problemas en la recopilación de datos y potencialmente causaron los valores atípicos. Si sabe, por ejemplo, que los datos provienen de métodos deficientes y que el valor atípico es probable que sea el resultado de cómo se recopilaron los datos, es menos probable que conserve el valor atípico. En ese caso, por supuesto, usted sabe que los resultados no son terriblemente confiables en general, pero dependiendo de los datos, puede retener y complementar sus datos.
Ejemplo: los datos provienen de la codificación de conversaciones en un sitio web sobre algún producto. Técnicamente, este es un muestreo de conveniencia y los resultados no son terriblemente representativos del público en general (o incluso de los consumidores de ese producto). Sin embargo, felizmente ignoraría la respuesta sobre las mascotas de alguien, ya que no tiene nada que ver con el producto en cuestión. La respuesta sobre las mascotas es atípica (e inútil para el proyecto).
3. Mira el carácter de los datos. ¿Qué tipo de datos son? No es solo el tamaño de la muestra lo que depende en gran medida de cómo lidiar con los valores atípicos, es el tipo de datos que está viendo. Dependiendo de la … criticidad … de los datos, los valores atípicos son más o menos importantes. Los datos sobre temas no críticos, aunque interesantes, pueden manipularse más que los datos sobre temas no críticos; si los datos se refieren a fenómenos del mundo real que implican un riesgo para la vida, extremidades o toneladas de dinero, no descarte ni ignore los valores atípicos.
Otra regla general al observar el carácter de los datos es ver qué sentido tiene el valor atípico en el conjunto de datos. Flom menciona al hombre de 12 pies de estatura: si el valor atípico está tan lejos de lo normal para el conjunto de datos que es muy poco probable que vuelva a ocurrir, es probable que sea seguro descartarlo o ignorarlo.
Ejemplo: si, por ejemplo, los datos son respuestas de encuestas sobre el color favorito, los valores atípicos generalmente no son importantes para descubrir tendencias generales. Si los datos son las temperaturas a las que fallan los sellos del motor, mantenga los valores atípicos.
4. Observe el manejo previo de esos datos en ese contexto. Hay varias razones realmente buenas para prestar atención a las interpretaciones anteriores, pero la que estoy pensando aquí es que a veces es más fácil ver los problemas que surgen al manejar los datos si observa cómo alguien más los ha manejado y aprende de sus errores / errores / omisiones. Han construido algo, puedes aprender de ello.
Ejemplo: si, por ejemplo, está tratando con datos sobre el tiempo de falla para teléfonos celulares (probablemente para examinar las pólizas de seguro y el riesgo), puede encontrar fácilmente los análisis de otras personas sobre ese tiempo de falla. Al leerlos, puede ser que pueda localizar una fuente de riesgo que previamente se omitió de los análisis, lo que podría ayudar a que su análisis sea más preciso o esté completamente especificado.
Esas son mis reglas generales para mirar los valores atípicos. Si pienso en más, editaré para agregarlos. Espero que esto sea útil.