Si las contraseñas son privadas y confidenciales, ¿cómo se hacen los estudios / estadísticas de las contraseñas de uso común?

A veces, los hackers publican listas de contraseñas en sitios como pastebin,
que como dice Vrijnkel, puede ser analizado por investigadores. Tengo una copia de 130 millones de direcciones de correo electrónico del hack de Adobe 2013, por ejemplo. Ese es un caso especial ya que las contraseñas están en hash, pero todas con la misma semilla, y se incluyen muchas sugerencias de contraseñas. Entonces, si 1000 personas tienen un hash de 0x1F45A … C, y 3 de ellos tenían un indicio de “12345”, entonces puede verificar marcando solo uno que, de hecho, la contraseña de esas 1000 personas era “12345”. Lo que se hizo, y se publicaron las 100 contraseñas más comunes.
haveibeenpwned.com tiene una lista de búsqueda de direcciones de correo electrónico donde puede ver si su contraseña se vio comprometida en varios sitios.
En otros casos, los piratas informáticos pueden registrar contraseñas reales con un keylogger, o robar una lista de contraseñas hash y usar un ataque de diccionario fuera de línea para adivinar palabras y combinaciones comunes, sin duda probando cualquier variante de “100 contraseñas más comunes” desde el principio. A menudo, los investigadores intentarán descifrar hashes de contraseñas en sus propias organizaciones como parte de un ejercicio de seguridad y luego, después de decirles a las personas que cambien las contraseñas débiles, pueden publicar las estadísticas agregadas.
Otro enfoque es registrar las contraseñas que los atacantes intentan adivinar cuando intentan iniciar sesión en un sitio web u otro servidor. Tengo una lista aqui
que incluye favoritos como “contraseña”, “123456” y “changeme”.

Como sucede, recientemente escribí un artículo que describe cómo obtenemos nuestros datos: ¿Cuándo es una pérdida de contraseña no una pérdida de contraseña?

Como otros han dicho, las dos fuentes principales son

1. Incumplimientos que se han hecho públicos
2. Experimentos de laboratorio

En el artículo, entro en detalles considerables sobre el primero, pero solo paso por alto el segundo (ya que el primero tenía más interés periodístico en ese momento).

De vez en cuando, los malos van y roban nombres de usuario y contraseñas de los sitios web. Estas listas se publican y su contenido es recogido por periodistas (e investigadores (y otros tipos malos)). Agregado, las listas de contraseñas del año se ordenan por ocurrencia y se publican.

Hay investigadores que se especializan en estudiar contraseñas. Algunos de ellos son muy buenos para recopilar contraseñas cuando se publican después de violaciones de seguridad. (es decir, temiendo una redada del FBI, el investigador publica 10 millones de contraseñas / nombres de usuario)