¿Cuántos sitios web (porcentaje o números absolutos) no están en inglés?

Esta es una pregunta difícil de responder con certeza, pero aquí hay algunas ideas sobre la estimación y las fuentes.

Las estadísticas sobre los idiomas de Internet generalmente se informan en términos de usuarios de Internet, no de sitios web o páginas web. Por ejemplo, Internet World Stats muestra que el 42% de los usuarios de Internet consideran que el inglés es su idioma nativo http: //www.internetworldstats.co… Si bien esto significa que el 58% de los usuarios de Internet reclaman un idioma nativo distinto del inglés, este número no es un buena aproximación del número de sitios web que no están en inglés. (Este es un error común).

Es difícil determinar el número total de sitios web o páginas web. Los motores de búsqueda a menudo informan el número total de dominios o páginas web que están indexando, pero muchos sitios y páginas nunca se indexan. Quizás un buen número de trabajo es de NetCraft, que informa casi 500 millones de sitios a septiembre de 2011 http://news.netcraft.com/archive…

Para tratar de determinar la distribución de idiomas a través de sitios web, algunos estudios han intentado rastrear sitios y, utilizando el análisis de ngram, intenta determinar el idioma dominante en el sitio. Consulte el estudio “Un análisis de las páginas web de idiomas asiáticos” para ver una metodología de ejemplo. http://www.sljol.info/index.php/… Si bien la detección del lenguaje puede no ser una ciencia exacta, está lo suficientemente cerca como para generar buenos datos en conjunto.

En 2002, un estudio encontró que el 56.4% de las páginas web estaban en inglés. Este es probablemente un proxy adecuado para sitios web, a partir de 2002. http://www.netz-tipp.de/sprachen…

Finalmente, el informe de la UNESCO, “Doce años de medición lingüística
diversidad en Internet: equilibrio y perspectivas “examina la distribución de idiomas durante más de una década, mostrando que el inglés no es el idioma dominante en la web. Además, muestra que el inglés bajó del 80% en 1996 al 45% en 2008. http : //unesdoc.unesco.org/images…

Y, por supuesto, debemos considerar que muchos sitios son multilingües , donde un sitio representa más de un idioma.

Mi mejor conjetura sería que aproximadamente el 40% de las páginas web de hoy están en inglés, y el 60% (o aproximadamente 300 millones de sitios web) no están en inglés.

Sin lugar a dudas, cualquier porcentaje de la web que no sea inglés hoy en día, la proporción de no inglés a inglés aumentará cada año a medida que más países expandan su presencia en la web.

285,000,000 es igual a 285 millones, no mil millones según el archivo de netcraft.

Puede encontrar estadísticas actualizadas sobre la distribución de idiomas en Internet en W3Techs: Estadísticas de uso de idiomas de contenido para sitios web