Cómo asegurarse de no analizar algo que termina sin sentido

Con el debido respeto a los otros respondedores, quienes mencionan cosas importantes a considerar al abordar un problema, sus respuestas son engañosas.

La realidad es que no puedes estar seguro de que no estás analizando algo que terminará sin sentido .

De hecho, es importante que analice las cosas que terminan sin sentido. Así es como se determina si son relevantes o no para su problema. Determinar que una determinada variable no es relevante para su problema a veces es tan valioso como saber qué es relevante, particularmente cuando esa determinación es contraintuitiva.

Suponga que está vendiendo un producto de consumo costoso, por ejemplo, un teléfono inteligente insignia que cuesta $ 900. Desea saber qué predice mejor la probabilidad de compra de un cliente. Sus conclusiones pueden informar el contenido publicitario, las asociaciones minoristas, la colocación y orientación de anuncios, etc.

Dado que su producto cuesta $ 900, es muy probable que las personas dentro de su organización ya hayan hecho suposiciones sobre su cliente objetivo. Pueden suponer que tiene mayores ingresos, tiene un puntaje de crédito más alto, vive en ciertas áreas acomodadas o en las principales ciudades metropolitanas, etc. [Probablemente también supongan que él es un él.]

Si pasa mucho tiempo analizando estos factores y encuentra poca evidencia de que sean predictores significativos de compras, es una gran victoria . Te has topado con una conclusión contraintuitiva que contradice las suposiciones de que las personas dentro de la organización ya pueden estar actuando.

No estás haciendo análisis en el vacío … o al menos no deberías hacerlo. Siempre estás haciendo análisis dentro de un contexto particular. Determinar qué no es relevante y por qué, dentro de su contexto particular, es fundamental para formular la pregunta correctamente.

También quisiera señalar que el análisis exploratorio de datos no le ayuda a evitar analizar cosas que no tienen sentido . El análisis exploratorio de datos es análisis . Algunas de las otras respuestas parecen implicar que el análisis exploratorio de datos es como un aperitivo que viene antes del plato principal (presumiblemente modelado, prueba de hipótesis, etc.). Sin embargo, en muchos escenarios del mundo real, la parte más importante del análisis será explorar los datos y utilizar la comprensión que se obtiene para enmarcar el problema correctamente.

Análisis exploratorio de datos adecuado.

En cada tarea de análisis de datos, está la fase exploratoria en la que solo está graficando cosas, probando cosas en pequeños conjuntos de datos, resumiendo estadísticas simples y obteniendo ideas aproximadas de qué hipótesis es posible que desee seguir.

Luego está la fase de explotación , donde se analiza profundamente un conjunto de hipótesis.

La fase exploratoria generará muchas hipótesis posibles, y la fase exploratoria le permitirá comprender realmente algunas de ellas. Equilibre los dos y evitará perder el tiempo en muchas cosas que terminan sin sentido, aunque no todas.

Debe tener en cuenta todo el tiempo constantemente pensando en el problema * real * que debe resolverse y de la manera más * eficiente *.

Es fácil ser arrastrado a información que puede sorprender a uno, que algunas de las herramientas en una caja de herramientas típica de científicos de datos arrojan.

También debe asegurarse de que se esté utilizando la técnica correcta para el problema en cuestión. en mi experiencia, incluso si pudieras resolver un problema usando una técnica en particular, es difícil confirmar si es el mejor elegido a menos que evalúes un par de ellos como alternativas.

Por último, buenos datos y técnicas simples siempre TRUMPS.

Primero, asegúrese de tener el problema comercial bien definido y comprendido, procurando obtener la opinión de la gente de negocios . Segundo, transformar el problema comercial en un problema técnico . Tercero, asegúrese de saber cómo se utilizará una solución al problema técnico para resolver el problema comercial en un entorno real. Cuarto, haga un análisis exploratorio de datos para convencerse de que tiene datos para resolver el problema técnico.

En algún momento tendrás que separar el significado de las matemáticas y preguntarte qué diferencia harían las cosas si esto o aquello cambiara. Mire algunas correlaciones básicas e intente imaginar qué proceso se esconde detrás de esas variables. Si cree que los resultados son ‘procesables’, entonces tiene sentido continuar. Si no, las relaciones solo pueden existir en abstracto y tratar de buscar en otro lado.

Si comienza con una pregunta significativa y deja que esa pregunta guíe su análisis, al menos obtendrá algo útil de eso, incluso si no siempre puede obtener la respuesta. Quizás los datos que tiene son insuficientes, o la pregunta que comenzó resultó no ser buena. Pero ahora lo sabes mejor.

More Interesting

¿Cuál es la razón para mapear datos de dos idiomas diferentes en un espacio de incrustación de palabras común y no usar dictonarios y asignarle el idioma b a los vectores del idioma a para entrenar un modelo de manera multilingüe?

¿Cuáles son las restricciones de ordenamiento de la base herbrand en el aprendizaje metainterpretativo?

¿Cuáles son algunos marcos de aprendizaje profundo con solo CPU?

¿Existe algún audiolibro 'técnico' realmente bueno para la investigación de operaciones o el aprendizaje automático, aparte del algoritmo maestro?

¿Cómo funciona el texto predictivo?

¿Cómo se introdujo por primera vez en Machine Learning / Data Science?

¿Dónde está el mejor lugar para encontrar startups emergentes de aprendizaje automático y PNL?

Cómo discriminar una señal del ruido en la última investigación y desarrollo de AI / ML

¿Qué son los núcleos de difusión?

¿Puedo predecir el precio de las acciones usando el aprendizaje automático en Python?

Cómo combinar clasificador basado en reglas y SVM

¿Cuáles son las mejores medidas al validar de forma cruzada un modelo para determinar qué tan bueno es el modelo y cómo funcionará en situaciones reales?

¿Cómo podemos usar la herramienta Weka para crear un sistema de recomendación?

¿La máquina está aprendiendo la 'versión del hombre tonto' de intentar recrear la inteligencia?

¿Necesita normalización de características después de la reducción de dimensiones para la clasificación?