Para consumir Twitter Firehose, o cualquiera de las variantes más pequeñas (manguera de jardín, rociadores, etc.), necesitará un servidor dedicado con amplio ancho de banda. Para los niveles más pequeños, es posible que pueda sobrevivir con un servidor privado virtual (VPS).
En cuanto al software, deberá escribirlo en un lenguaje que pueda mantener conexiones abiertas durante largos períodos sin convertirse en un fanático de la memoria o comenzar a funcionar lentamente (todas las especializaciones funcionarán: PHP, Java, Ruby, Perl, etc.) usa PHP). También necesitará un software de colas, como Beanstalkd (usamos este), Gearman, Starling, RabitMQ, etc.
No debe trabajar directamente desde la conexión de Twitter, sino que pondrá en cola todo lo que Twitter le envíe y luego hará que los trabajadores se conecten al servidor de cola para procesar los tweets. Si alguna vez recibe una gran afluencia de tweets, esto lo salvará.
- ¿Debería / puede una persona con casi 6 años de experiencia en investigación financiera aprender ciencia de datos? ¿Le ayudaría a avanzar en su carrera en investigación?
- Como científico de datos, ¿es útil una clase de análisis de algoritmos?
- Cómo hacer una carrera en big data
- ¿Qué tipo de pruebas ejecuta para validar la calidad de sus datos?
- ¿Qué es la ciencia de datos? ¿Cuál es el alcance? ¿El análisis de datos y el análisis comercial son lo mismo? ¿Necesitamos estudiar programación?
Todas las API de transmisión de Twitter tienen una tasa limitada a un porcentaje específico del volumen actual general. A menos que dirija una gran empresa con una gran chequera, no obtendrá la Firehose de ellos (que tiene todos los tweets). Actualmente no cobran por las otras API de transmisión que ofrecen.
Según nuestro acuerdo con Twitter, no puedo responder las preguntas de volumen.
En cuanto a los servicios de terceros, GNIP es la única compañía de terceros autorizada que ofrece API de transmisión. Recientemente lanzaron un producto llamado Power Track que podría interesarle (no estoy afiliado a ellos y actualmente no uso sus productos).