¿De qué manera la minería de datos es valiosa para las pequeñas empresas?

Aquí hay 4 técnicas de minería de datos con aplicaciones para pequeñas y grandes empresas:

La minería de datos es un proceso analítico importante diseñado para explorar datos. Al igual que el proceso de la vida real de extraer diamantes u oro de la tierra, la tarea más importante en la minería de datos es extraer pepitas no triviales de grandes cantidades de datos.

Extraer conocimientos importantes de una gran cantidad de datos puede ser crucial, a veces esencial, para la siguiente fase del análisis: el modelado. Se tomarán muchas suposiciones e hipótesis de sus modelos, por lo que es increíblemente importante dedicar el tiempo apropiado a “masajear” los datos, extrayendo información importante antes de continuar con el modelado.

Aunque la definición de minería de datos parece ser clara y directa, es posible que se sorprenda al descubrir que muchas personas se relacionan por error con tareas de minería de datos, como generar histogramas, emitir consultas SQL a una base de datos y visualizar y generar formas multidimensionales de una tabla relacional. .

Por ejemplo: la minería de datos no se trata de extraer un grupo de personas de una ciudad específica en nuestra base de datos; La tarea de la minería de datos en este caso será encontrar grupos de personas con preferencias o gustos similares en nuestros datos. Del mismo modo, la minería de datos no se trata de crear un gráfico de, digamos, el número de personas que tienen cáncer contra el voltaje de la alimentación; la tarea de la minería de datos en este caso podría ser algo como: es la posibilidad de aumentar el cáncer si vives cerca de una fuente de alimentación ¿línea?

Las tareas de la minería de datos son dobles: crear poder predictivo —utilizando características para predecir valores desconocidos o futuros de la misma u otra característica— y crear un poder descriptivo — encontrar patrones interesantes e interpretables por humanos que describan los datos. En esta publicación, cubriremos cuatro técnicas de minería de datos:

  • Regresión (predictiva)
  • Descubrimiento de reglas de asociación (descriptivo)
  • Clasificación (predictiva)
  • Agrupación (descriptiva)

Regresión

La regresión es la versión más simple y directa de lo que llamamos “poder predictivo”. Cuando usamos un análisis de regresión, queremos predecir el valor de una característica (continua) dada en función de los valores de otras características en los datos, suponiendo que Modelo lineal o no lineal de dependencia.

Aquí hay unos ejemplos:

  • Predicción de ingresos de un nuevo producto basado en productos complementarios.
  • Predecir el cáncer según la cantidad de cigarrillos consumidos, los alimentos consumidos, la edad, etc.
  • Predicción de series temporales del mercado de valores e índices.

Las técnicas de regresión son muy útiles en la ciencia de datos, y el término “regresión logística” aparecerá en casi todos los aspectos del campo. Este es especialmente el caso debido a la utilidad y la fuerza de las redes neuronales que utilizan una técnica basada en la regresión para crear funciones complejas que imitan la funcionalidad de nuestro cerebro.

Descubrimiento de reglas de asociación

El descubrimiento de reglas de asociación es un método descriptivo importante en la minería de datos. Es un método muy simple, pero se sorprendería de cuánta inteligencia y conocimiento puede proporcionar, el tipo de información que muchas empresas utilizan a diario para mejorar la eficiencia y generar ingresos.

Nuestro objetivo es encontrar todas las reglas (X -> Y) que satisfagan el soporte mínimo especificado por el usuario y las restricciones de confianza , dado un conjunto de transacciones, cada una de las cuales es un conjunto de elementos. Dado un conjunto de registros, cada uno de los cuales contiene cierto número de elementos de una colección determinada, queremos encontrar reglas de dependencia que descubran la aparición de un elemento en función de la aparición de otros elementos.

Por ejemplo: suponga que tiene un conjunto de datos de todas sus compras pasadas en su tienda de comestibles favorita, y encontré una regla de dependencia (minimizando con respecto a las restricciones) entre estos elementos: {Pañales} -> {Cerveza}.

Esto “vincula” o crea dependencias, en función del soporte y la confianza mínimos especificados, que se definen como tales:

Las aplicaciones para roles asociados son enormes y pueden agregar mucho valor a diferentes industrias y verticales dentro de un negocio. Estos son algunos ejemplos: venta cruzada y venta ascendente de productos, análisis de red, organización física de artículos, gestión y comercialización. Este fue un elemento básico de la industria durante décadas en el análisis de la cesta de la compra, pero en los últimos años, los motores de recomendación han dominado en gran medida estos métodos tradicionales.

Clasificación

La clasificación es otra tarea importante que debe manejar antes de profundizar en la fase de modelado hardcore de su análisis. Suponga que tiene un conjunto de registros: cada registro contiene un conjunto de atributos, donde uno de los atributos es nuestra clase (piense en las calificaciones con letras). Nuestro objetivo es encontrar un modelo para la clase que pueda predecir registros desconocidos o desconocidos (de fuentes de datos externas similares) con precisión como si la etiqueta de la clase fuera vista o conocida , dados todos los valores de otros atributos.

Para entrenar tal modelo, generalmente dividimos el conjunto de datos en dos subconjuntos: conjunto de entrenamiento y conjunto de prueba . El conjunto de entrenamiento se usará para construir el modelo, mientras que el conjunto de prueba se usará para validarlo. La precisión y el rendimiento del modelo se determinan en el conjunto de prueba.

La clasificación tiene muchas aplicaciones en la industria, como campañas de marketing directo y análisis de abandono:

Las campañas de marketing directo están destinadas a reducir el costo de difundir contenido de marketing (publicidad, noticias, etc.) al dirigirse a un conjunto de consumidores que probablemente estén interesados ​​en el contenido específico (producto, descuento, etc.) en función de su pasado revelado. datos y comportamiento.

El método es simplemente recopilar datos para un producto similar (por simplicidad) introducido en el pasado reciente y clasificar los perfiles de los clientes en función de si compraron o no compraron . Esta característica de destino se convertirá en el atributo de clase . Ahora necesitamos mejorar los datos con características demográficas, de estilo de vida y otras características relevantes adicionales para usar esta información como atributos de entrada para entrenar un modelo clasificador.

El abandono es la medida de las personas que pierden interés en su oferta (servicio, información, producto, etc.). En los negocios, es increíblemente importante monitorear la rotación e intentar identificar por qué los suscriptores (clientes, etc.) decidieron dejar de pagar la suscripción. En otras palabras, el análisis de abandono intenta predecir si es probable que un cliente se pierda frente a un competidor.

Para analizar el abandono, necesitamos recopilar un registro detallado de las transacciones con cada uno de los clientes anteriores y actuales, para encontrar atributos que puedan explicar o agregar valor a la pregunta en cuestión. Algunos de estos atributos pueden estar relacionados con la participación del suscriptor con los servicios y características que ofrece la empresa. Luego, simplemente debemos etiquetar a los clientes como abandono o no abandono y encontrar un modelo que se ajuste mejor a los datos para predecir la probabilidad de abandono de cada uno de nuestros suscriptores actuales.

Agrupamiento

El agrupamiento es una técnica importante que tiene como objetivo determinar las agrupaciones de objetos (piense en diferentes grupos de consumidores) de modo que los objetos dentro del mismo grupo sean similares entre sí, mientras que los objetos en diferentes grupos no lo sean. El problema de agrupamiento en este sentido se reduce a lo siguiente:

Dado un conjunto de puntos de datos, cada uno de los cuales tiene un conjunto de atributos y una medida de similitud, encuentre grupos tales que:

  1. Los puntos de datos en un grupo son más similares entre sí.
  2. Los puntos de datos en grupos separados son menos similares entre sí.

Para encontrar qué tan cerca o lejos está cada grupo entre sí, puede usar la distancia euclidiana (si los atributos son continuos) o cualquier otra medida de similitud que sea relevante para el problema específico.

Una aplicación útil de la agrupación es la segmentación de marketing, que tiene como objetivo subdividir un mercado en distintos subconjuntos de clientes donde cada subconjunto puede ser dirigido con una estrategia de marketing distinta.

Esto se realiza mediante la recopilación de diferentes atributos de los clientes en función de su información geográfica y relacionada con el estilo de vida para encontrar grupos de clientes similares. Luego podemos medir la calidad de la agrupación observando los patrones de compra de los clientes en el mismo grupo frente a los de los diferentes grupos.

No dude en comunicarse y conectarse, mi equipo y yo en Galvanize estaremos encantados de responder cualquier pregunta que tenga:

  • LinkedIn
  • Facebook
  • Blog original

Dependiendo de la pequeña empresa con la que esté lidiando, todavía no he imaginado aplicaciones para supermercados.
Pero me sentiría tentado a destacar dos problemas con los que las pequeñas empresas tienen que lidiar y donde las técnicas de análisis y minería de datos pueden ser de gran ayuda, por haberlo implementado yo mismo:
1. Intentar comprender y modelar datos complejos, multivariados y grandes. Tuve un ejemplo brillante cuando un ingeniero de procesos me preguntó:
“Hum, Mathieu, optimicé mis costos en este sistema sobre el parámetro a usando una hoja de cálculo, con un modelo termodinámico simplificado. Funcionó bien, pero el equipo notó que el modelo simple ya no podía usarse, y necesito optimizar mi costo no solo en a, pero también en los parámetros b, c y d “.
Mi respuesta fue simplemente: “Bueno, comience por olvidar su herramienta de hoja de cálculo” porque el problema necesitaba análisis adecuados y técnicas de optimización que diseñamos.
2. Mejorar y apoyar los procesos de toma de decisiones basados ​​en datos para evitar decisiones arbitrarias o políticas. Este es un poco más difícil, ya que muchas personas no reconocerían un problema en sus decisiones basadas solo en el instinto, la política y los hábitos. Un consultor externo o incluso empleados simples no pueden cambiar estos hábitos solos, ya que puede ser difícil presentar una prueba formal de su bajo rendimiento y eficiencia. Es una cuestión de cultura y, desafortunadamente, podría requerir un cambio de liderazgo. Si está interesado en esta parte, le sugiero que busque preguntas de inteligencia empresarial en Quora o ejemplos en Google. Último punto, hay que tener cuidado al usar la minería de datos para apoyar los procesos de toma de decisiones. Por ejemplo, la predicción pura podría ser frustrante para las personas no técnicas que no entenderían el proceso detrás de esto. Mostrar probabilidades de resultados diferentes con intervalos de confianza puede ser más complejo, pero asegura que los empresarios no tomarán el sistema de minería de datos como una “caja negra mágica” (sí, lo he escuchado varias veces).