¿Qué tipo de datos predice con precisión el aprendizaje automático?

El modelo de aprendizaje automático no siempre funciona como se esperaba. No obstante, producen resultados satisfactorios para muchos problemas. Clasificaré los modelos de aprendizaje estadístico como:

  • Clasificación
  • Regresión
  • Agrupamiento

I. Aplicaciones de la clasificación

a) Determinar si una persona tiene cáncer

Este es un ejemplo de un problema de clasificación binaria. Los pacientes se clasifican como “tiene cáncer” o “no tiene cáncer”. El “número de tumores” podría ser una característica para determinar esto. El número de características p = 1. El paciente solo se preocupa por determinar si tiene cáncer, no por la relación entre la variable predictora (número de tumores) y la variable de respuesta (la clasificación). Por lo tanto, el objetivo de este problema de clasificación del cáncer es una “predicción”.

b) Clasificación de género del nombre

Dado el nombre de una persona, el objetivo es determinar si la persona es hombre o mujer. Este es un problema de clasificación binaria con 2 variables de respuesta (“masculino” o “femenino”). Algunas características del nombre incluyen:

  • Frecuencia del carácter “A”
  • Apellido de la letra
  • Primera letra de nombre
  • Longitud del nombre

Dependiendo de la región, el tipo de características elegidas puede ser diferente. Considere un banco de nombres indios tanto masculinos como femeninos. Los nombres femeninos generalmente terminan con una “A” y tienden a ser más largos que los nombres masculinos. Por lo tanto, son buenas características para verificar. La lista de 4 características mencionadas anteriormente no es exhaustiva. Dado que el problema implica solo determinar el género, es un problema de “predicción”.

c) Clasificación de spam

Este problema de clasificación binaria determina si un correo electrónico dado es spam / no spam. Este es un problema bien conocido en el campo del procesamiento del lenguaje natural. Las características pueden incluir:

  • Presencia de la palabra “GRATIS”
  • Presencia de la palabra “Felicidades”
  • Longitud del correo electrónico (los correos electrónicos no deseados podrían ser más largos)
  • Saludo (un correo electrónico que no se dirige a usted por su nombre es posible correo no deseado)

El objetivo es determinar si un correo electrónico dado es spam o no spam. No hay preocupación por la relación entre las variables predictoras constituyentes y la variable de respuesta (la clasificación como spam / no spam). Por lo tanto, este también es un problema de “predicción”.

d) Predicción de la percepción visual

El objetivo es determinar el objeto que ve una persona. Considere un subconjunto de digamos 6 objetos (botella, gato, silla, mesa, zapato, TV). Nuestro modelo debe tomar la exploración fMRI de una persona que ve uno de esos 6 objetos en un instante de tiempo determinado y predecir la categoría de objeto visualizada. Las características serían la activación cerebral de todos los vóxeles (píxeles 3D) del cerebro. Esto podría ser alrededor de 100,000 características, que se pueden reducir con técnicas de selección de características y reducción de dimensionalidad. La variable de respuesta sería una de 6 clases (botella, gato, silla, mesa, zapato, TV). Dado que hay p = 100,000 características y es posible que no tengamos muchas muestras de entrenamiento, es importante modificar el conjunto de datos de entrenamiento analizando la relación entre cada característica (voxel) y grupo de características. Sin embargo, el objetivo sigue siendo determinar el objeto que la persona percibe visualmente. Por lo tanto, la naturaleza del problema es la de “predicción”.

II Aplicaciones de regresión

a) Predicción del precio de la vivienda

El objetivo es determinar el precio de una casa, dadas ciertas características. Este problema de regresión se puede resolver con las siguientes características:

  • Numero de habitaciones
  • Área en pies cuadrados
  • ¿La casa tiene un sótano (campo categórico)
  • Índice de costo de vida

Esta lista de predictores no es exhaustiva. El precio predicho es la variable de respuesta. Dado que solo nos interesa predecir el precio de la vivienda sobre la relación con las variables de respuesta, estamos tratando con un problema de tipo “predicción”.

b) Determinar puntaje de crédito

La escala FICO se usa generalmente para medir el puntaje de crédito. El objetivo es calcular el puntaje de crédito que oscila entre 300 y 850. Los principales factores que pueden afectar el puntaje de crédito:

  • Historial de pagos : Esto podría representarse como una calificación de digamos 0 a 100, donde 0 significa que uno no ha pagado ninguna factura a tiempo, mientras que 100 significa que todos los pagos se han realizado. A mayor valor, mayor puntaje crediticio.
  • Monto adeudado : como variable predictiva, puede representarse por la fracción del crédito total disponible utilizado. Bajar la cantidad gastada significa que uno puede tener suficiente para pagar una deuda futura. Esto influye positivamente en el puntaje de crédito.
  • Duración del historial de la cuenta : cuanto más tiempo una persona haya mantenido una tarjeta de crédito (y facturas pagadas), es probable que su puntaje de crédito aumente.

El puntaje de crédito es la variable de respuesta. Este cálculo puede ser utilizado por bancos y prestamistas para otorgar préstamos individuales para automóviles / viviendas / educativos.

c) YouTube Analytics

El objetivo es determinar los factores que afectan los ingresos de un creador de contenido de YouTube. Algunos de estos factores incluyen características como:

  • Audiencia demográfica : ¿Quién está viendo tus videos? Esto abarca grupos de edad, distribución de género y ubicación. A los creadores de contenido se les paga más por las vistas de los Estados Unidos que por las de los países africanos.
  • Recuento de suscriptores según la región : cuanto mayor sea el número de suscriptores del canal, mayor será su audiencia y la capacidad de ampliar la audiencia. Este es el turno conduce a más ingresos.
  • Duración de los anuncios en cada video : a los creadores se les paga por cada anuncio en sus videos.
  • Duración de cada video : los videos más largos tienden a aumentar el tiempo de reproducción .

Un creador de contenido está interesado en ganar dinero, pero también intenta constantemente mejorar el canal. Analizan cómo, por ejemplo, la cantidad de anuncios afecta sus ingresos. Si ven un impacto notable (positivo) en el aumento de los anuncios, mantienen el cambio y buscan otras formas de mejorar. El objetivo no es solo estimar los ingresos (la variable de respuesta), sino encontrar formas de aumentarlos en función de su relación con una serie de características: la definición básica de un problema de “inferencia”. (Tengo un canal de youtube donde hablo sobre ciencias de datos. ¡Mira CodeEmporium después de leer esta respuesta!

III. Aplicaciones del análisis de agrupamiento:

a) Sistemas de recomendación

Digamos que tienes una tienda en línea que vende películas. Una vez que un usuario inicia sesión, el objetivo es recomendar películas que creas que el usuario puede encontrar interesantes. Esto se puede hacer monitoreando actividades del usuario tales como:

  • Redes sociales : mediante el procesamiento del lenguaje natural, puede analizar las publicaciones de Tweet / Facebook de un usuario en una película para ver cuánto le gustó / odió una película.
  • Observar las clasificaciones de estrellas : se trata de comentarios explícitos del usuario
  • Historial de compras : reconoce el tipo de películas que un usuario ha visto / comprado en el pasado.
  • Género preferido

Una vez que se obtiene esta información, podemos agrupar a los usuarios. Cuando se trazan gráficamente, los espectadores de películas más cercanos entre sí tienen gustos similares. Entonces, si Mark, John y Ross caen en el mismo grupo y a Ross y Mark les encantó la película “Imitation Game”, le recomendamos a John que vea lo mismo.

b) Categorización de documentos

Considere la situación en la que hay 10.000 documentos que deben agruparse de modo que los temas similares se agrupen. Algunos temas incluyen:

  • Ciencias
  • Tecnología
  • Fauna silvestre
  • Películas (y más)

A diferencia de la clasificación, no hay un conjunto predefinido de categorías. Para clasificar los documentos, podríamos definirlos en función de propiedades como:

  • Título
  • Palabras clave (El tipo de palabras utilizadas puede darnos una idea sobre el documento)
  • Longitud

Cuando se trazan 10,000 puntos de datos contra un conjunto de N Funciones X , notamos que documentos similares están muy juntos. Se utiliza una técnica de agrupación (como K significa agrupación) para agrupar dichos puntos de datos relacionados para formar K agrupaciones . Cuando se requiere categorizar un documento nuevo, se traza utilizando las funciones N. El grupo en el que se encuentra el punto es el grupo predicho al que ahora pertenece el documento.

c) Segmentación del cliente (Amazon, Flip Kart)

El objetivo es comprender los intereses de los consumidores, realizar un seguimiento de la interacción del sitio y clasificarlos para ofrecer mejores productos / servicios. Digamos que poseemos una tienda en línea similar a Amazon. Hay una gran cantidad de datos que podemos obtener del consumidor sin comentarios explícitos:

  • Posición del cursor y la pantalla: los usuarios están interesados ​​en diferentes aspectos de un producto. Algunos miran las especificaciones, mientras que otros pueden prestar más atención a las revisiones de productos. Saber lo que un usuario está buscando en un producto hace que sea más fácil recomendar mejores productos.
  • Productos visitados: los usuarios pueden visitar diferentes productos, pero no han agregado nada a su carrito. Podemos encontrar las similitudes entre los productos y guiar a los usuarios en su búsqueda.
  • Productos agregados al carrito: Ciertos clientes en su primera visita agregan un artículo al carrito, pero lo dejan en el último momento. La próxima vez que visitan, ponen el mismo artículo en su carrito, pero deciden cambiar de opinión (nuevamente) y no realizar la transacción.

Según estos datos recopilados de cada consumidor, agrupamos a clientes similares. Así es como “Las personas que compraron productos X e Y también compraron el producto Z”, y las ofertas de paquetes como “Compre X + Y + Z y ahorre $ 5” pueden usarse como incentivos adicionales para que los usuarios compren productos.

La lista continua. Claramente, hay posibilidades ilimitadas para el aprendizaje automático. ¡Uf! Eso tomó un tiempo para escribir. Si le gustó esta respuesta, no olvide seguirme para obtener más respuestas sobre Ciencias de datos, Aprendizaje automático, Aprendizaje profundo. Ah, y mira mi canal de YouTube donde hablo sobre lo mismo. Aquí hay un video de muestra sobre la introducción a ML ( suscríbase para más información):

Una respuesta directa no es tan fácil para esta pregunta. Supongo que está preguntando sobre el aprendizaje supervisado.

Para un conjunto de datos dado si las características (propiedades) están correlacionadas con salidas (predictores). Si el conjunto de datos se orienta más hacia ciertos resultados que a otros, existen métodos para completar o sobrepoblar y equilibrar los sesgos.

En un lenguaje simple, si uno o más factores contables afectan un resultado, se puede predecir usando un aprendizaje supervisado.

Cualquier tipo con datos de entrada decentes. Siempre y cuando no sea basura, se recopile utilizando métodos sesgados o se pierda la mayoría de los datos, debería poder compararlos con un algoritmo y obtener una predicción decente.

  1. Debe haber un patrón en los datos con los que trabajamos.
  2. Deberíamos tener características relevantes.
  3. Deberíamos tener una cantidad suficiente de datos de entrenamiento.

More Interesting

¿Cómo debo aprender ciencia de datos y aprendizaje automático?

¿Cuál es la importancia de encontrar el tipo de distribución de datos para fines de modelado predictivo?

¿Cuáles son las últimas tendencias en ciencia de datos?

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

¿Cómo debe comenzar un principiante con el aprendizaje automático y la ciencia de datos? ¿Qué curso tomar y cómo proceder paso a paso?

Cómo comenzar una carrera con Big Data y cuál es la forma de conseguir un trabajo en Big Data como una forma más fresca

¡Necesitamos sus comentarios sobre nuestra startup FlyElephant! ¿Puedes ayudarnos?

¿Cuál es una mejor iniciativa para aprender ciencia de datos: Python o R?

¿Qué tecnología está en auge ahora, aparte de Big Data y Hadoop?

¿Existe alguna buena información para el aprendizaje automático de pronóstico de demanda de capacitación? Estoy buscando datos de ventas de series temporales con muchos atributos.

¿Cuál es el lenguaje de programación más poderoso en el campo de Analytics / Data Science: Python, R o SAS?

¿Qué libro de ciencia de datos / blog-artículo / texto debería leer cada profesional de ciencia de datos para tener una mejor comprensión del tema?

Si tuviera que configurar un programa de aprendizaje de ciencias de datos de 3 meses para principiantes, ¿cuál sería el mejor programa y la línea de tiempo?

¿Qué es más preferible en el aprendizaje automático, la precisión del modelo A es del 50% en los datos de entrenamiento y del 97% en los datos de las pruebas, o el modelo B tiene una precisión del 80% en los datos del tren y el 75% en los datos de las pruebas? (Más detalles en el comentario abajo) gracias!

¿Cuáles son algunos de los mejores recursos / estudios de caso sobre análisis de datos / prácticas de segmentación de clientes / métricas en las startups?