¿En qué se diferencia el método de agrupamiento en el aprendizaje automático de disparar una consulta SQL ‘select’ para agrupar personas u objetos? ¿Cuáles son las diferencias y necesidades reales?

Uno es una especie de sitio web estático en el que cada vez que se necesita ingresar manualmente el código se coloca el contenido en el lugar apropiado de forma manual.
Y otro es un sitio web un poco dinámico donde se agrega contenido desde un solo lugar y el contenido se coloca automáticamente en su posición.

  • En mysql, primero debe identificar los atributos, realizar una consulta SELECT agregando alguna restricción para obtener contenido agrupado.
  • En la técnica de agrupación, el sistema inteligente identifica automáticamente las características y las coloca en un grupo particular, es decir, agrupación.

Lo más importante que debe comprender es: técnicas de clasificación, que hacen esto. Está entrenado con un conjunto de datos para cada grupo, por lo que si llega una nueva entrada, algo con características de identificación y poner en ese grupo clasificado.

Ejemplo

Suponga que desea crear una base de datos para negocios, deportes, tweets de entretenimiento de Twitter.

Usando mysql: tienes que leer tweets, identificarte por ti mismo e insertar where category = ‘X’

Uso de la agrupación: entrena a su robot con la técnica de clasificación utilizando un montón de tweets de cada categoría. Verifique el modelo de bolsa de palabras y tf – idf. Entonces, cuando lleguen nuevos tweets, su algoritmo clasificará su categoría y la insertará adecuadamente.

Compruebe ingenuo bayes, clasificador SVM para un poco más de comprensión. Avísame si aún tienes confusión.

Para agrupar los datos (clasificar) en SQL, necesitará un conjunto de clases predefinidas y desea saber a qué clase pertenece un nuevo objeto.

La agrupación intenta agrupar un conjunto de objetos y determinar si existe alguna relación entre los objetos.

En el contexto del aprendizaje automático, la clasificación es aprendizaje supervisado y la agrupación es aprendizaje no supervisado .

Tomemos un ejemplo que diría sobre la necesidad de los dos métodos

Un ejemplo diario de clasificación sería el filtrado de spam. El filtro de spam tiene que decidir si un correo es spam o no. También puede decirle al filtro si un correo ha sido clasificado incorrectamente.

Para la agrupación, puede tomar, por ejemplo, 1000 mensajes de Twitter, intentar agrupar y luego examinar qué (y si) relación exponen los grupos.

El uso de una consulta de selección SQL para agrupar elementos en un atributo (o un conjunto de atributos) requiere que sepa qué límites deben especificarse para la agrupación. Si ordena por un atributo y se divide en grupos por percentil (decil / cuartil / etc.), puede terminar con grupos donde la diferencia en los valores de los atributos entre los miembros del grupo es grande y algunos grupos donde es muy pequeño. Por lo tanto, los grupos pueden no ser “homogéneos dentro y heterogéneos entre”.

La agrupación se basa en la minimización de la distancia n-dimensional (donde cada atributo es una dimensión) entre los miembros del grupo (es decir, la homogeneidad dentro) y la maximización de la distancia entre los centroides de los grupos (es decir, la heterogeneidad entre).

La agrupación se puede lograr utilizando técnicas jerárquicas (elija los centroides primero) o no jerárquicas (calcule todas las distancias entre elementos y elija pares de distancias mínimas y avance).

Consulte cualquier libro de estadísticas sobre ‘técnicas de clasificación’

Raj lo ha clavado, especialmente el punto de “distancia”.

No hay concepto de distancia en SQL. Por ejemplo, al agrupar automóviles en función del color, sabemos que el amarillo oscuro y el marrón claro se ven similares, es decir, “muy cerca” en términos analíticos (y, por lo tanto, se pueden colocar en un grupo).