Gran pregunta y excelentes respuestas, así que permítanme intentar agregar a la discusión.
Estoy de acuerdo con Michal en que 10 KB / página, más aproximadamente lo mismo para el índice, es aproximadamente lo que debe contar por página (vea también ¿Cuánto costaría construir un motor de búsqueda?).
La siguiente pregunta es, entonces, ¿cuántos (miles de millones) de páginas se necesitarían para construir y operar un motor de búsqueda de clase mundial?
- ¿Cuáles son algunos de los remedios y productos de seguridad de Internet que puede recomendar?
- ¿Cómo era Internet antes de tener neutralidad en la red?
- ¿Dónde puedo encontrar una lista de ciudades en todos los países (ciudades importantes o no)?
- Cómo borrar el porno de mi pareja de internet
- ¿Cuál sería la mejor manera para que alguien que no conoce ningún código de computadora inicie un sitio web solo?
Google dejó de informar sobre el tamaño de su índice hace mucho tiempo, en 2005, durante las guerras de motores de búsqueda ahora olvidadas.
En aquel entonces, Google, Yahoo y Microsoft se estaban superando mutuamente al afirmar que tenían el índice más grande. En un momento (2005), Yahoo afirmó que tenían 20 mil millones de enlaces, a los 8 mil millones de Google.
Poco después de eso, Google dejó de informar el tamaño de su índice en la página de inicio y tomó el terreno más alto al afirmar que sus resultados son los “más completos”.
En 2008, Cuil afirmó en el lanzamiento que su índice de 120 mil millones de páginas era más grande que Google. Google respondió apresuradamente afirmando que sabían aproximadamente 1 billón de URL, pero todo el episodio fue nuevamente olvidado rápidamente.
Hoy, estimaciones como http://worldwidewebsize.com muestran alrededor de 45 mil millones de enlaces para Google, en mi opinión, es correcto.
Por cierto, me parece realmente interesante que el tamaño del índice se haya estancado durante años, lo que coincide con otra respuesta aquí, de un usuario anónimo, que dice que la cantidad de servidores que Google ha dedicado a buscar (5000) es bastante pequeño. Pero yo divago …
La conclusión es que un índice de 10 mil millones de URL generaría un motor de búsqueda de clase mundial, que ocuparía alrededor de 200 TB y se dividiría en partes iguales entre los documentos y el índice.
Pero esta no es toda la historia, ya que uno necesitaría 200 TB para construir un solo clúster, con un límite en la cantidad de búsquedas simultáneas que podría admitir.
Con los discos tradicionales (magnéticos), dicho clúster podría soportar docenas de qps (consultas por segundo), digamos 100 qps. Con los SSD, ese número aumentaría al menos un orden de magnitud, a miles de qps.
Las cargas de consultas a escala de Google son en promedio 10K + qps, con picos un orden de magnitud más nuevamente, digamos 100K qps.
Entonces, para un pico de 100K qps, uno necesitaría 1000 clusters con 200PB de almacenamiento, o 20PB o menos con SSD.
Obviamente, todas estas estimaciones son muy aproximadas, pero deberían dar una idea de lo que se necesitaría. Hay muchos problemas más detallados, por ejemplo, hay varios niveles de velocidad en el índice de Google y no habría necesidad de usar SSD para las partes lentas, que comprenderían la mayor parte.
Teniendo todo esto en mente, los números aquí nuevamente están de acuerdo con la estimación del usuario anónimo de que Google usa 5000 máquinas basadas en SSD (con discos duros magnéticos convencionales también).
Lo que es IMO sorprendente es que 5000 máquinas como esa costarían $ 15-20 millones o menos. Para manejar picos de 100K qps, no tomaría más de unos pocos cientos de Gbps de ancho de banda, lo que cuesta hoy mucho menos de $ 1M / mes.
También hay un costo de rastreo, pero digamos, 100 Gbps, lo que sería mucho, proporcionando miles de millones de páginas rastreadas por día.
La factura anual final estaría entonces por debajo de los $ 100 millones, que es un error de redondeo en comparación con los ingresos anuales de Google. No es de extrañar que no quieran hablar sobre la escala de su hardware de búsqueda 🙂