¿Por qué utilizamos el agrupamiento en el análisis estadístico? ¿Puedes dar una explicación intuitiva o ejemplos intuitivos?

tl; dr A veces su muestra no es tan grande como cree que es, debido a la no independencia. Debe usar un valor más pequeño para N. Puede resolver esto, pero cluster () lo hace por usted.

Cuando calcula una estadística, calcula un error estándar. El error estándar viene dado por: [math] se = sd / (sqrt (N)) [/ math].
Suponemos la independencia, es decir, que cada N aporta cierta información y la misma cantidad de información.
Imaginemos un caso extremo: queremos saber cuántas personas, en promedio, viven en cada casa de una ciudad. Entonces, tomamos una muestra de personas en la ciudad y les preguntamos cuántas personas viven en su casa: calculamos la media y el error estándar, utilizando las fórmulas habituales.
Pero espera! Si le preguntamos a una persona en una casa cuántas personas viven en su casa, aumentamos N en 1. Eso está bien. Pero, ¿qué sucede cuando le hacemos la misma pregunta a una segunda persona en esa casa? Aumentamos N en 1, pero en realidad no aumentamos la cantidad de información que tenemos. Si utilizamos la fórmula anterior, con N en ella, obtendríamos el error estándar incorrecto, específicamente, sería demasiado pequeño, y los errores estándar que son demasiado pequeños conducen a intervalos de confianza que son demasiado estrechos, y valores p que son demasiado bajos, por lo tanto, las tasas de error de tipo I infladas. Y esto es algo malo.
Este es un caso bastante sencillo, porque cuando le preguntamos a una persona adicional, no obtenemos información adicional. Pero a menudo, obtenemos información adicional.
Si les pregunto a los maestros en muchas escuelas qué piensan de su director, preguntarle al primer maestro me da una información, por lo que mi N aumenta en 1. Pedirle al segundo maestro en una escuela diferente me da más información, entonces N aumenta por otro 1. Pero si le pregunto a un maestro diferente, en la misma escuela, es probable que su respuesta sea similar a la del primer maestro en la escuela, pero no la misma (era lo mismo con las casas).
Entonces, ¿cuánta información adicional me da el segundo maestro? Más que ninguno (a menos que den exactamente la misma respuesta que el primero), pero valen menos de una persona. La respuesta depende de cuán similares sean los maestros en la escuela. Para responder a esto, necesitamos una medida de similitud de maestros en la misma escuela (o grupo). Es decir, cuán más parecidos son dos maestros en la escuela A que a un maestro diferente seleccionado al azar.
Haré un conjunto de datos simple: tiene dos variables: c para el clúster y x para alguna medida. El grupo es categórico y está indicado por a a k. x es continuo.

  c x
 un 1
 un 2
 b 2
 c 3
 c 4
 d 4
 d 5
 e 5
 e 6
 f 6
 g 7
 g 8
 h 8
 h 9
 yo 9
 I 10
 j 10
 j 11
 k 11
 k 12

Ingrese esto en Stata, si desea seguirlo en casa.
Puede ver que las personas en los mismos grupos tienen puntajes muy similares en x. ¿Pero qué tan similar? La respuesta a esto viene dada por la correlación intraclase (ICC), que también se conoce como correlación intragrupo (convenientemente, también ICC).

Podemos calcular esto en Stata:

  .  loneway xc

                       Análisis de varianza unidireccional para x: 

                                               Número de obs = 20
                                                   R cuadrado = 0.9788

     Fuente SS df MS F Prob> F
 -------------------------------------------------- -----------------------
 Entre c 208.05 10 20.805 41.61 0.0000
 Dentro de c 4.5 9 .5
 -------------------------------------------------- -----------------------
 Total 212.55 19 11.186842

          Intraclass Asy.        
          correlación SE [95% Conf.  Intervalo]
          ------------------------------------------------
             0.95733 0.02747 0.90350 1.01116

          SD estimado del efecto c 3.349363
          SD estimado dentro de c .7071068
          Est.  fiabilidad de ac media 0.97597
               (evaluado en n = 1.81)

El ICC es 0.95. (Este es un ICC masivo ; un ICC de 0.02 puede causarle problemas en algún momento). Entonces, los casos en el mismo grupo (maestros en la misma escuela) dan respuestas muy similares, lo supimos al mirar los datos). Pero, ¿cómo calculamos el efecto en nuestros datos? Necesitamos el factor de inflación de varianza (VIF), también llamado Efecto de diseño (DEff).
[mates]
VIF = 1 + (m-1) ICC
[/mates]
Donde m es el número medio de casos (docentes) por grupo (escuela). (En realidad, para que esto sea correcto, debemos suponer que todos son iguales, que están aquí). Y ICC es el ICC.

[mates]
VIF = 1 + (2-1) 0.95 = 1.95
[/mates]
El VIF nos dice cuánto hemos sobreestimado nuestra muestra.

Calculemos el SE ingenuamente, sin tener en cuenta el hecho de que sabemos que N está mal.
Primero la SD

  .  su x

     Variable |  Obs Mean Std.  Dev.  Mínimo máximo
 ------------- + ------------------------------------ --------------------
            x |  20 6.65 3.344674 1 12

[matemáticas] se = sd / (sqrt (N)) = 3.34 / sqrt (20) = 0.75 [/ matemáticas].

Podemos verificar eso con reg

  .  reg x

       Fuente |  SS df MS Número de obs = 20
 ------------- + ------------------------------ F (0, 19) = 0.00
        Modelo |  0 0.  Prob> F =.
     Residual |  212.55 19 11.1868421 R cuadrado = 0.0000
 ------------- + ------------------------------ Adj R-cuadrado = 0.0000
        Total |  212.55 19 11.1868421 MSE raíz = 3.3447

 -------------------------------------------------- ----------------------------
            x |  Coef.  Std.  Errar.  t P> | t |  [95% Conf.  Intervalo]
 ------------- + ------------------------------------ ----------------------------
        _cons |  6.65 .7478918 8.89 0.000 5.084645 8.215355

Pero sabemos por la CPI que 20 está mal, es demasiado alto. De hecho, es 1.95 veces más alto.

Entonces nuestro cálculo de error estándar debería ser:
[math] se = sd / (sqrt (N)) = 3.34 / sqrt (20 / 1.95) = 1.04 [/ math].

Una forma alternativa de ajustar el error estándar es usar -reg- para corregirlo para la agrupación.

  .  reg x, grupo (c)

 Regresión lineal Número de obs = 20
                                                        F (0, 10) = 0.00
                                                        Prob> F =.
                                                        R cuadrado = 0.0000
                                                        MSE raíz = 3.3447

                                      (Error estándar ajustado para 11 grupos en c)
 -------------------------------------------------- ----------------------------
              El |  Robusto
            x |  Coef.  Std.  Errar.  t P> | t |  [95% Conf.  Intervalo]
 ------------- + ------------------------------------ ----------------------------
        _cons |  6.65 1.040986 6.39 0.000 4.330539 8.969461
 -------------------------------------------------- ----------------------------

¡Mira eso! La misma respuesta! Y fue mucho más rápido.

Un par de cosas a tener en cuenta. Cuando usa cluster () automáticamente también usa robusto () que corrige la heterocedasticidad. Incluso si no tiene un problema de clúster, sus errores estándar pueden cambiar. En SPSS, esto también se puede hacer, pero es complicado: si usa Google Huber-White SPSS, encontrará explicaciones sobre cómo hacerlo (creo que primero es una entrada de blog que escribí).
Utilicé un ICC muy grande para ilustrar el problema, pero si tiene grupos muy grandes, los ICC pequeños pueden causarle problemas. Si tengo 501 individuos por grupo (niños en una escuela, por ejemplo) y un ICC de 0.02, entonces:

[matemáticas] VIF = 1 + (m-1) ICC = 1 + (501-1) 0.02 = 10 [/ matemáticas].

Entonces, mi tamaño de muestra efectivo es una décima parte de lo que pensé que era, a pesar de que mi muestra era bastante grande.
La fórmula ICC es importante para saber si está planeando un estudio y necesita hacer un análisis de poder. También debe hacer una suposición sensata sobre el valor de la CPI.

Supongo que al “usar agrupación” su pregunta se refiere a la agrupación de errores estándar cuando hacemos análisis estadísticos, principalmente regresiones.

Voy a tratar de omitir la parte de la teoría y proporcionarle una intuición. Suponga que desea recopilar datos sobre la cantidad de dinero que gastan las personas en la mercancía de un equipo determinado. Por el bien del ejemplo, supongamos que esta es la cantidad gastada en camisetas para cada uno de los equipos de fútbol en Inglaterra. Recopila datos para cada ciudad de Inglaterra y ahora está listo para hacer el análisis estadístico.

Al hacer el análisis estadístico, hay algunas suposiciones que debe hacer. Una de las primeras es cómo se relacionan sus observaciones entre sí. La suposición más fuerte que puede hacer en este caso es que son iid (independientes e idénticamente distribuidos). En nuestro ejemplo de gasto en mercancías de fútbol. iid implicaría que los datos recopilados en Manchester no son diferentes a los recopilados en Liverpool. Uno esperaría que las observaciones recolectadas en Manchester preferirían equipos locales como Manchester United o Manchester City, mientras que aquellos en Liverpool también preferirían su término local. En otras palabras, las observaciones recopiladas en la misma ciudad están más juntas que las recopiladas en otras ciudades.

Para corregir esto, agrupa tu análisis a nivel de ciudad, ese es el principio básico detrás de la agrupación.

Utilizamos la agrupación de errores estándar en modelos de regresión para controlar una violación de un supuesto importante. Es decir, la agrupación de errores estándar corrige el estimador de errores estándar en caso de que nuestro modelo / datos viole el supuesto de independencia. Consulte la siguiente publicación (Suposiciones de los modelos de regresión lineal clásica (CLRM)) para obtener una descripción completa de las suposiciones del modelo de regresión lineal clásico. Además, los siguientes mensajes de Errores estándar agrupados explican en palabras simples la intuición de los errores estándar agrupados y proporcionan un tutorial práctico que ilustra exactamente qué puede salir mal si no corregimos nuestros errores estándar. El tutorial se puede encontrar aquí: Errores estándar agrupados en R.