¿Cuál es la diferencia entre la exploración de datos y el análisis predictivo?

¡Esta es, con mucho, mi pregunta favorita en Data Science!

El componente principal que diferencia la analítica predictiva y la clasificación es el componente de tiempo.

Déjame darte un ejemplo donde el tiempo juega un papel crucial. Digamos que un cliente planea reubicarse de una ubicación a otra. Dados los predictores correctos, podemos predecir este comportamiento del cliente.

Entonces, en términos de clasificación, podemos obtener una respuesta sobre si es probable que el cliente se mueva o no.

Pero en términos de análisis predictivo, la parte principal es predecir cuándo y qué tan probable es que el cliente se reubique dentro de un período de tiempo específico en lugar de un simple “es probable que el cliente se reubique o no”. También tratamos de ver cuánto más adelante podemos predecir tal comportamiento con una precisión significativa.

En el escenario anterior, podríamos ofrecerle al cliente un mejor valor ofreciéndole un medio más fácil de reubicar o una mejor manera de restablecer su cuenta con una de las compañías asociadas o subsidiarias que operan en esa ubicación con solo predecir que está planeando reubicar en el futuro próximo en lugar de la clasificación.

PD: Esto es exactamente en lo que estoy trabajando en IBM Analytics.

Gracias por la A2A

Aunque parezcan similares, estos son dos conceptos muy diferentes que tienen propósitos muy diferentes.

La exploración de datos es esencialmente el primer paso en cualquier análisis de datos. Implica resumir la característica principal de cualquier base de datos o conjunto de datos. Se realiza principalmente en software estadístico que varía en niveles de avance, dependiendo de la complejidad del conjunto de datos. También se puede realizar utilizando herramientas de análisis visual; Esto es más preferido, ya que permite a los usuarios tener una visión rápida y simplificada de las características y variables más importantes del conjunto de datos. Ayuda al usuario a determinar rápidamente si las variables en pantalla son lo suficientemente buenas para un análisis posterior.

El análisis predictivo se incluye en análisis avanzados y se utiliza para hacer predicciones sobre eventos desconocidos que podrían desarrollarse en el futuro. De la manera más simple posible, el análisis predictivo utiliza una gran cantidad de software diferente, combinándolos con muchas técnicas que van desde la inteligencia artificial (IA) y el aprendizaje automático, para analizar datos ya existentes y hacer predicciones sobre su curso en el futuro.

La diferencia, aunque no es obvia de inmediato, es bastante grande. La Exploración de datos descubre las complejas, complejas y muchas veces invisibles relaciones entre variables medibles. El análisis predictivo, por otro lado, ofrece resultados y posibilidades en el futuro de las variables, a partir de las variables.

Gracias por el A2A.

La exploración de datos puede sostenerse por sí misma, pero también es algo que se hace de forma habitual antes de la construcción del modelo en ‘análisis predictivo’. Esto se debe a que necesitamos comprender la naturaleza y los límites de los datos antes de poder estructurar efectivamente un problema como, por ejemplo, un problema de aprendizaje automático supervisado frente a un problema de pronóstico de series de tiempo estadísticas.

¿Cuál es el tamaño y la estructura del conjunto de datos? ¿Faltan valores? ¿Hay grupos obvios? ¿Cómo es la calidad de los datos? – Estas son todas las preguntas a responder dentro de la exploración de datos.

Una vez hecho esto, se construye el modelo predictivo, generalmente con una variable ‘objetivo’ para predecir. Esto es generalmente como un problema de clasificación para una variable categórica (por ejemplo, género, clic versus no clic, etc.) o un problema de regresión para una variable continua (por ejemplo, longitud, tiempo dedicado, etc.)

La Exploración de datos ayuda a encontrar información valiosa o tendencias presentes dentro de los datos, mientras que el análisis predictivo utiliza estos hallazgos o tendencias dentro de los datos para predecir un resultado. Además, la exploración de datos es parte del paso de preprocesamiento para el análisis predictivo.

La exploración de datos es un requisito previo para el análisis predictivo.

En la fase de exploración de datos, revisa el conjunto de datos en cuestión y comprende los diferentes tipos de variables, trata de identificar cualquier tendencia o sesgo en los datos, comprende los valores perdidos y atípicos, comprende la distribución de los datos, etc. La clasificación puede durante la fase de exploración de datos, sin embargo, sería muy rudimentaria. Debe usar los valores de cada variable de forma independiente y los agrupan para clasificar los puntos de datos.

Por ejemplo, supongamos que tiene un conjunto de datos de todos los clientes que acudieron a una franquicia particular de McDonald’s para el año 2015 y las compras que realizaron junto con su información demográfica. Puede utilizar los datos para comprender cuál es el valor de compra promedio para todos los clientes, comprender el pedido de compra mínimo y máximo para el año, clasificar a los clientes según el tipo de comida que solicitan, etc. en la fase de exploración de datos.

El análisis predictivo, por otro lado, se utiliza para predecir el comportamiento futuro de los sujetos en función de los valores actuales de sus variables independientes. Esto se usa en casos en los que tiene que comprender quiénes serán los clientes potenciales de su nuevo producto, cuál será el efecto de un programa promocional particular en sus clientes, cuáles de sus prestatarios o clientes de tarjetas de crédito probablemente no pagarán pagos, etc.

Por ejemplo, supongamos que en el mismo ejemplo de McDonald’s, ahora desea averiguar cuál de los clientes que llegaron allí en los últimos 4 a 5 años estarán interesados ​​en probar un nuevo producto que está lanzando. Y supongamos que desea darles a estos clientes un 10% de descuento en los cupones para que puedan obtener un descuento cuando prueben el producto. Para esto, solo un análisis exploratorio no será suficiente, ya que solo verá quién compra qué y no quién comprará el nuevo producto. Para eso, tendrá que hacer un análisis de regresión después de considerar todos los factores importantes que afectan la decisión de si un cliente probará un nuevo producto. Considerarás su edad, etnia, grupo de ingresos, tamaño de la canasta, preferencias culinarias, etc.

Sin embargo, se requiere un análisis exploratorio incluso antes de realizar el modelado predictivo para comprender qué variables están disponibles y sus características para poder identificar las relevantes.

Espero que esto ayude.

Con respecto al análisis predictivo, le digo, se refiere al análisis de datos históricos cuando escribe exploración de datos.

En esto, la diferencia es obvia, lo histórico se refiere a lo que se ha estado haciendo hasta el presente: análisis de diagnóstico.

El predictivo tiene como objetivo mirar en el futuro con base en el análisis histórico o en ciertos supuestos: análisis predictivo / estimativo

Esta es una buena pregunta, pero debes ir más allá.

¿Por qué necesitas exploración de datos? … y como lo haces, ¿cuál es el propósito de la analítica predictiva?

Cuando lo piensa, todo conduce a una sola respuesta: analiza los datos para aprender algo sobre la realidad y desea que ese conocimiento tenga una mayor confianza en su capacidad para tomar decisiones sobre el futuro.

Todos los análisis son sobre predicción, pero algunos no requieren ningún modelo estadístico.

En pocas palabras, describiría el análisis de datos en 3 categorías amplias: análisis descriptivo (visualización y exploración), análisis predictivo (pronóstico y predicción) y análisis prescriptivo (análisis de decisión). Estas 3 amplias categorías tienen una cierta interacción entre ellas. Medita sobre esto y creo que obtendrás un pensamiento más sólido sobre esto. La respuesta de John Erickson a How is MS in Data Analytics de George Mason University?

More Interesting

¿Qué técnicas podrían usar datos para predecir un valor específico y asignar un grado de confianza a esa predicción?

Se dice que algo que funcionó muy bien con los datos de acciones anteriores puede fallar en el futuro. ¿Cómo es eso? ¿En qué formas exactas serán diferentes los datos futuros?

¿Existen aplicaciones para el aprendizaje automático / ciencia de datos en el campo de los vuelos espaciales?

¿Qué tan bueno es el programa de análisis e inteligencia de negocios en IIM Bangalore? ¿Se considera el mejor en la India? ¿Cuáles son las buenas universidades de ciencia de datos en la India?

¿Cuál es la próxima gran cosa que NO está relacionada con los datos o la informática?

¿Qué son las pruebas de Big Data y un ejemplo de ello?

¿Cuáles son algunas formas en que usa los datos para respaldar su aplicación?

Con respecto a la infraestructura de big data, ¿cuáles son las soluciones más comunes?

¿Cuál es el salario de un desarrollador de Big Data Hadoop?

¿Cuál debería ser mi plan de estudio para convertirme en científico de datos?

¿Qué dicen los grandes datos sobre el ajedrez? ¿Hay algún algoritmo numérico simple para evaluar las posiciones de ajedrez que no impliquen calcular árboles de posición? ¿Tienen éxito al predecir los resultados de los juegos de ajedrez entre jugadores de habilidades similares?

¿Cuál es la diferencia entre el algoritmo K-Nearest Neighbours y el modelo de suavizado exponencial simple en un problema de serie temporal?

¿Hay personas de Física y Química Computacional que realizan Ciencia de Datos en la industria?

¿Cómo es ser un científico de datos en IBM?

¿Cuáles son los principales análisis de big data?