Pagamos $ 11,000 por mes para alojar 500 GB (~ 9 millones de documentos) en AWS, Cloud Search. ¿Alguien tiene una mejor solución para nosotros?

El costo parece mucho más alto que el óptimo, a menos que el número de consultas sea enorme. El costo depende de las siguientes métricas:

  • Buscar instancias
  • Subidas de documentos por lotes
  • Solicitudes de IndexDocuments
  • Transferencia de datos

Más de 9 millones de documentos, un tamaño promedio de 100 KB (900GB en total), necesita aproximar la cantidad de consultas por día, la entrada y salida de datos aproximadas en GB / mes y la cantidad de reindexación. El número de consultas también determinará el número de instancias de búsqueda. La calculadora Calculadora mensual simple de Amazon Web Services da aprox. $ 300 por mes con los siguientes supuestos:

  • Consultas por día: 864000
  • Actualizado por día: 86400
  • Reindex por mes: 30 (1 por día)

Algunas posibles razones de un costo tan alto:

  • Demasiadas solicitudes de reindexación. Compruebe si está reindexando donde no sea necesario
  • El número y el tamaño de las instancias de búsqueda pueden ser mayores de lo necesario

Su factura es increíblemente alta, y espero que pueda resolver su problema con algunos consejos sobre cómo reducir el costo de AWS:

Alarmas de CloudWatch:

Amazon CloudWatch proporciona monitoreo para los recursos de la nube de AWS. Al configurar una alarma de facturación, puede decirle a CloudWatch que le informe cuando su cuenta haya alcanzado un cierto monto. Recomendamos definir el monto en dólares de la alarma analizando primero los informes que CloudWatch proporciona sobre los gastos de los meses anteriores, para que pueda determinar un promedio que, una vez alcanzado, desee estar informado. Asegúrese de configurar una notificación por correo electrónico, para que pueda saberlo tan pronto como abra su bandeja de entrada.

Instancias reservadas:

Una de las mejores formas de reducir sus gastos de AWS es a través de instancias reservadas de AWS. Puede usarlos para reducir los recursos que ya está usando, permitiéndole pagar una tasa efectiva más baja que el precio que pagaría a pedido, durante 1 o 3 años. Una sola instancia reservada de 3 años sigue siendo significativamente más barata que el costo de las reservas a pedido o tres reservas de 1 año. Deberá elegir el número correcto y la combinación de tipos de RI para maximizar los ahorros.

Instancias puntuales:

Las instancias puntuales permiten a un cliente comprar capacidad de computadora Amazon EC2 no utilizada a una tasa muy reducida. Las instancias se adquieren mediante un proceso de licitación en el que el cliente especifica un precio por hora que está dispuesto a pagar. Los precios de las instancias spot son un 75% más bajos que los precios On Demand. Tenga en cuenta que las instancias de Spot funcionan mejor cuando su empresa usa cientos o miles o máquinas por un corto tiempo. No se recomiendan para servicios en tiempo real, como aplicaciones web.

Autoescalado:

Auto Scaling es una tecnología de Amazon que permite aumentar / disminuir el número de sus instancias en EC2 dependiendo de las condiciones establecidas: cargas de instancias, volumen de tráfico, etc. De esta manera, siempre puede estar seguro de que su proyecto va a funcionar incluso con rápido crecimiento del tráfico, e incluso en el caso de un número mínimo de visitantes, ningún centavo se desperdiciará en capacidades inactivas.

Botmetrics:

Botmetric es una herramienta web que proporciona administración de costos para AWS Cloud al ofrecer recomendaciones inteligentes que nos permiten tomar decisiones informadas. Tiene un costo mensual, dependiendo de sus necesidades. Esta herramienta lo mantendrá informado sobre las últimas tendencias que pueden afectar su presupuesto. Desglosará el costo por cuenta y creará informes completos de gastos mensuales para que el gerente los analice. Puede ahorrar del 30 al 68% en proyectos a largo plazo. También proporciona auditorías de costos para ayudar a detectar recursos en la nube no utilizados.

Para obtener más información, consulte este artículo: Cómo reducir los costos en AWS

AWS es genial; sin embargo, su facturación es enrevesada, confusa y no genera previsibilidad. Hacen muchas otras cosas buenas, es fácil pasar por alto ese problema hasta que aparezca una factura como esta inesperadamente. Mis condolencias, ya que este es un síntoma probable del sistema en la nube más que nada.

Me sorprendería si alguno de los otros gigantes de la nube (SoftLayer / IBM Cloud, Google o Azure) no fuera al menos competitivo … Si bien estoy seguro de que hizo su debida diligencia antes de comprar inicialmente en AWS, ahora sería una gran tiempo para “comparar precios”, es decir, seguro.

Dicho esto, enchufaré donde trabajo actualmente: SoftLayer / IBM Cloud. Hay varios beneficios. Algunos son: ancho de banda entrante gratuito, soporte gratuito las 24 horas, los 7 días de la semana (quién podría ayudarlo a identificar lo que está sucediendo y por qué), y una función de escala automática que puede relacionarse mejor con lo que está haciendo (en lugar de escalar, se escalará y agregue máquinas virtuales por hora según los parámetros que configure para evitar este problema exacto y muchos otros).

Otro factor que debe haber notado en su factura de AWS es que se cobra el tráfico de servidor a servidor dentro de la red de AWS. Dependiendo de lo que planee alojar y si tiene una hoja de ruta para desarrollar proyectos futuros en la misma plataforma, estos costos pueden sumarse exponencialmente. Este enfoque de “cinco centavos” al ancho de banda es lo que utilizan la mayoría de los proveedores de la nube. Para yuxtaponer, con el ancho de banda de red privado gratuito de SoftLayer / IBM Cloud (servidor a servidor en IaaS o plataforma), comienza a notar que el precio de etiqueta versus el precio final puede ser muy diferente de un proveedor a otro.

Dependiendo de lo que esté desarrollando y de cuán lejos esté de Live: otras menciones honoríficas (sin ningún orden en particular): Midphase u Digital Ocean. Espero que esto ayude un poco y buena suerte!

1. Volcar todos sus datos en S3.
2. En lugar de AWS Cloudsearch, instale SOLR en la instancia EC2.
3. Escriba un script para indexar esos documentos en el núcleo solr.
4. Coloque un caché de redis proporcionado por AWS frente a su aplicación.
5. Deberías haberlo hecho.
Luego, puede ajustar su solución teniendo fragmentos y moviéndose a un grupo de redis.
¡9 millones es grande pero no eso!
Espero eso ayude.

en realidad su factura de 11k es bastante acertada. todos piensan que está utilizando AWS S3 pero está utilizando AWS cloudsearch. cloudsearch ejecuta instancias y no tiene un precio en # de GB como lo es S3. podría reducir los costos mediante el uso de Elasticsearch, pero ejecuta las tarifas adicionales (costos únicos) que costaría conseguir que sea similar a AWS Cloudsearch, también la tasa de datos en Cloudsearch tiende a ser bastante alta en comparación con Cloudfront, por lo que podría descargar el dataOut a cloudfront y le ahorraría algunos $$ en dataOut.

Depende de cómo va a utilizar esos documentos. Si necesita la entrega de contenido de Amazon y el equilibrio de carga, prácticamente no hay coincidencia. Para un almacenamiento simple y disponibilidad en línea, puede encontrar una alternativa más barata. Puedo conectarlo a los servicios de DM que cobrarán una fracción de ese precio. Nuevamente, solicito sugerir algo que necesito para comprender mejor la naturaleza de sus datos y sus intenciones de uso.

Estoy de acuerdo con las otras respuestas en que es difícil entender por qué es tan caro. (¿Publicar una captura de pantalla de su factura?). Si se trata de tráfico, necesita algún tipo de solución de almacenamiento en caché. De hecho, elegiría CloudFlare sobre Cloudfront, aunque es posible que deba cambiar para ejecutar su propio ElasticSearch a través del proxy de aplicación correcto para obtener las URL amigables para el almacenamiento en caché que necesita.

Publique una imagen del desglose de los $ 11K para obtener más / mejores consejos.

La gente, el ancho de banda y el espacio de almacenamiento no son el cuello de botella del costo del OP aquí. La búsqueda en la nube en tantos documentos es el factor clave.

Si esa es la factura de su primer mes, es muy posible indexar que la cantidad de archivos PDF fue un componente importante del costo inicial, en cuyo caso los costos pueden caer de aquí en adelante. (Editar – Supongo que no dijiste PDF, pero supongo que no es texto o HTML)

Más allá de eso, el ajuste de búsqueda será tu amigo. Consulte los documentos de aws para obtener información.

Y más allá de eso, hm … Esto está un poco fuera de mi timonera, pero si extrae y almacena texto como archivos separados de antemano, eso puede abrir sus opciones a una gama más amplia de proveedores de búsqueda (Algolia, etc.) donde luego puede apuntar a las personas al documento real que desean según el resultado de la búsqueda. Una especie de solución casera, pero podría valer la pena el esfuerzo a esa escala.

500 GB no es tanto. Por lo tanto, parece que tiene un tráfico realmente alto, como increíblemente alto. En ese caso, usaría CDN. Hay muchas alternativas. CloudFlare es GRATIS en el plan básico, lo que para CDN debería funcionar bien. O CDN77 es la alternativa paga más barata que elegiría. Amazon tiene su propia CDN, pero no es tan barata como CDN77, por ejemplo. También puede considerar pasar de la nube a su propio HW (el tráfico en los centros de datos es gratuito o realmente barato, depende de dónde co-colate).

No estoy seguro, pero podría usar DigitalOcean o Vultr si solo necesita alojar datos (almacenamiento en bloque). $ 11 mil por mes por 500 GB es enorme, pero dado que ha mencionado 9 millones de documentos que podrían ser posibles si se producen muchas descargas (o incluso acceso). Si solo desea alojar datos, puede visitar los mejores proveedores de alojamiento web en el servidor de la nube y elegir un proveedor confiable de alojamiento en la nube para alojar sus datos, lo que debería costarle mucho menos de $ 11k por mes.

Definitivamente si! Tenemos una solución increíblemente rápida y barata para usted. Prueba Ambar es nuestra nube de búsqueda. Pruebe Demo aquí Ambar se está cargando …

Mi respuesta inmediata es “bolas de mierda santas, ¿cómo es eso posible ?”

Estas haciendo algo mal. No tengo idea de qué, ya que no proporcionas detalles, pero eso es como una increíble cantidad de dinero por eso.

  1. Utilice el host de búsqueda elástica en ec2 usted mismo o como un servicio que costará menos.
  2. Puede hacer unos pocos millones indexados y buscables y descansar archivados como S3
  3. Usar la búsqueda de Google Drive es bastante bueno y el costo también es menor.

Bueno, depende de la cantidad de veces que se descarga. AWS no es más barato en absoluto. Hay toneladas de opciones más baratas, pero no puedo comentar nada a menos que indique su ancho de banda.

Da más detalles. ¿Qué tipo de QPS tiene que requeriría tantas instancias para proporcionar respuestas basadas en tan pocos datos?

More Interesting

¿Las agencias del gobierno de los EE. UU. Hacen un trabajo suficientemente bueno para compartir soluciones?

¿Cómo se benefician las startups de los marcos y herramientas informáticas sin servidor?

¿Alguien ha usado AWS Command Line para administrar el sistema AWS?

¿Cómo puede la implementación de una aplicación web en AWS ser más segura que en las instalaciones?

¿Cómo conseguir un trabajo de computación en la nube? ¿Qué son los requerimientos? ¿Qué habilidades espera una empresa de computación en la nube de un principiante? Después de dominar las habilidades, ¿cómo debo aplicar?

¿Qué define un servicio en la nube?

¿En qué servidor debo alojar una aplicación basada en Node.js?

¿Por qué Quora elige AWS sobre Azure o una plataforma en la nube de Google?

¿Cómo afectará SAP HANA a la computación en la nube?

¿Es posible alojar un sitio web con tráfico normal en el nivel gratuito de AWS durante un año?

¿Cómo utiliza Salesforce.com la computación en la nube?

¿Cuáles son las ventajas / desventajas de la computación paralela en la nube, la red y el clúster?

Similar a los sistemas de computación en la nube, ¿es posible conectar a una gran cantidad de personas para organizarlas y pensar como un cerebro muy grande? Y si es posible, ¿sería otro nivel superior de conciencia?

Si quiero desarrollar mi carrera en computación en la nube como desarrollador, ¿cuáles son / son las mejores certificaciones disponibles?

¿Por qué muchas empresas aún eligen software alojado localmente en comparación con el software basado en la nube?