Recuperación de información: ¿Cuáles son algunas de las API más importantes que todo científico de datos debe conocer?

Una gran cantidad de científicos de datos están involucrados en el análisis de redes sociales. Las API proporcionan una forma muy eficiente de reunir una gran cantidad de datos estructurados (JSON, XML) y semiestructurados, de modo que no tengamos que hacer el “trabajo de conserje” como señaló recientemente The New York Times.

Primero en la lista de “API que todo Data Scientist debería conocer” tiene que ser la API de Twitter. Twitter API es tan importante que UC Berkeley tiene un curso completo llamado Analizando Big Data con Twitter.
Un caso bastante similar con la API de Facebook.

Hay varias otras API públicas interesantes, pero estas son bastante esotéricas y específicas del dominio.
Aquí hay una lista de API generales que pueden resultarle útiles:

Redes sociales

  • Facebook – Referencia API, Tutorial usando PHP
  • LinkedIn – Referencia API, Tutorial sobre el uso de OAuth con LinkedIN

Mapas

  • Google Moon y Google Mars
  • Extensiones de la NASA a la API de Google Maps
  • OnEarth del Laboratorio de Propulsión a Chorro de la NASA
  • Abrir datos de mapas de calles

Fotos

  • Flickr

Aquí hay algunas API más además de lo que Shubham ha señalado:

1. YouTube tiene su propia API. Puede leer este artículo para extraer datos de él usando Python – Minería de YouTube usando Python y realizando análisis de redes sociales (en el desafío del cubo de hielo de ALS)

2. Pinterest

Otras comunidades / red:
1. StackOverflow: especialmente stats.stackoverflow y ahora datascience.stackoverflow pueden ayudar a encontrar respuestas a temas específicos

Puede haber otros, que podrían interesarle, dependiendo del dominio en el que esté trabajando:

1. AccuWeather
2. Publicidad de productos de Amazon
3. Google Talk
4. Ferrocarriles indios
5. TripAdvisor

Espero que esto ayude.

Kunal

Un científico de datos puede trabajar en proyectos mant, pero uno de los propósitos principales de la ciencia de datos es estudiar el comportamiento humano.

Cuando hablamos del comportamiento humano moderno se trata de patrones de compra, patrones de movilidad, redes sociales, etc. Por supuesto, los datos sociales pueden revelar muchos de los comportamientos mencionados anteriormente. Las personas que compran algo a menudo publican también sobre su nuevo producto, ya sea teléfono inteligente, computadora portátil o vacaciones.

Por lo tanto, creo que una de las API más importantes que un científico de datos debe saber utilizar es API sociales como Facebook, Instagram, Twitter.

Acerca de esto, puede encontrar un útil repositorio de github que recopila las API disponibles aquí: toddmotto / public-apis: una lista colectiva de API JSON públicas para su uso en el desarrollo web. Hay muchas API y no solo datos sociales, sino también de estado físico, datos de pronóstico del tiempo, compras, seguridad, datos de salud y muchos más.

API de transmisión de Twitter: en un momento u otro. Un científico de datos siempre usa este. (Casi).

API de Maps: Google Maps es bueno.

Cualquier API relacionada con el clima.

Estos son algunos de los que se me ocurren desde la cabeza. La ciencia de datos tiene más que ver con los datos que con las API. Encontrarás una API para recopilar datos para casi todo en estos días.