¿Cuáles son los grandes proyectos de datos en torno a craigslist?

He escrito esta respuesta basada en un enfoque algo estructurado para mirar datos e identificar las oportunidades que existen.

Adquisición de datos

Primero, voy a suponer que tiene una forma escalable de obtener datos de Craigslist (si no, ya que no hay API, hay algunas ideas aquí ¿Craigslist tiene una API?)

Limpieza de datos

Probablemente habrá una preparación considerable de datos: agregando datos en cada una de las diferentes ubicaciones de Craigslist, limpiando registros no válidos, colocando los datos en una forma estándar y desnormalizada que puede analizarse rápidamente, limpiando valores atípicos y eliminando información de identificación personal (no esencial, pero solo una buena práctica).

Paisaje de datos

Luego piense en las dimensiones de los datos en Craigslist: hay publicaciones por categoría y subcategoría. Hay información de ubicación y hay fechas. La información disponible siempre será una instantánea, por lo que para ver las cosas a lo largo del tiempo, tendrá que hacer varios pases a medida que extrae datos. Las publicaciones contendrán datos estructurados y datos no estructurados que pueden clasificarse de alguna manera, los datos estructurados obviamente serán más útiles.

Echemos un vistazo a la página de inicio de Craigslist y veamos qué riquezas hay:

A la derecha, vemos todas las ubicaciones. Al lado, vemos trabajos. Los trabajos por ubicación me parecen algo que podría ser de interés.

Análisis y visualización de cuantificación: trabajos por ubicación

Muéstrame una instantánea del recuento de trabajos por ubicación. Cree un mapa por código postal, ciudad, condado y estado de todos los trabajos disponibles, solo un recuento para comenzar. (Si desea renderizar las cosas, intente petewarden / openheatmap)

Problema de clasificación: tipos de trabajo por ubicación

Miremos la lista de trabajos con más detalle. Podemos ver que hay 3 piezas de información justo allí. La fecha posterior en verde. El título del trabajo en azul. La ubicación en rojo.

También podemos ver que la fecha estará en un formato estándar: MMM DD. Que los títulos de trabajo están por todas partes, sin estandarización. Y la ciudad es semi-confiable. Aquí hay cinco preguntas sencillas que proporcionarían buenos proyectos de análisis de datos pequeños:

  1. Publicaciones a lo largo del tiempo: ¿Qué ciudad, condado o estado ha mostrado el mayor aumento de publicaciones en el último mes? ¿Cuáles están disminuyendo?
  2. Publicaciones correlacionadas con el gasto público de la ciudad: ¿El gasto público de una ciudad tiene algún impacto en la cantidad de empleos publicados? Puede encontrar datos abiertos para los contratos de adquisición de la ciudad aquí Censo de datos abiertos de la ciudad de los EE. UU., Como proxy del gasto público. Las ofertas de trabajo de Craigslist se utilizarán como proxy para los trabajos disponibles.
  3. Análisis de frecuencia de trabajos por tipo: a nivel nacional, observe la distribución de frecuencia de los títulos de trabajo. Tendrá que clasificar los trabajos en una clasificación uniforme de títulos de trabajo y luego atribuirlos con algún tipo de clasificación departamental o funcional. (Aquí hay un par de listas con las que puede clasificar: más de 12,000 títulos de trabajo, descripciones de trabajo y lista de carreras, https://www.linkedin.com/jobs/di…
  4. Qué tipos de trabajo en qué ubicaciones: una vez que haya clasificado los trabajos en una lista estándar, puede comenzar a ver qué trabajos aparecen en qué regiones. ¿Cuál es el trabajo más popular anunciado por estado, por condado, por ciudad?
  5. Nuevos tipos de trabajo que están apareciendo: mire la frecuencia de ocurrencia de trabajos a lo largo del tiempo. Vea si hay títulos de trabajo nuevos y en crecimiento
  6. Publicaciones correlacionadas con los Índices económicos: Observe la frecuencia de publicación a lo largo del tiempo. Si puede agrupar los trabajos en diferentes tipos (por ejemplo, ejecutivo, gerencia, trabajador, aprendiz, contratista), vea cómo el momento de cada categoría se correlaciona con los diversos indicadores económicos (Indicadores económicos). ¿Hay algunos trabajos que tienen una correlación negativa?

Proyectos de lenguaje natural: ¿Qué anuncio ‘copia conduce al éxito

Una vez que pueda raspar las publicaciones detalladas, podemos comenzar a encontrar cosas más interesantes, especialmente si está publicando con el tiempo. Aquí hay un par de ideas más:

  1. Si puede raspar a diario, verá cuánto tiempo está una publicación en el sitio antes de que se elimine por cualquier motivo. Entonces, ¿me gustaría saber si las publicaciones de trabajo más largas se eliminan más rápido o más lento? ¿Existe una duración óptima para que una publicación de trabajo sea exitosa? Recuerde que las publicaciones pueden eliminarse porque están llenas o porque Craigslist cobra por esas publicaciones.
  2. ¿Cuáles son las palabras clave o frases asociadas específicamente con el título de un trabajo? ¿Qué tipo de análisis de palabras clave podría utilizarse para optimizar la copia utilizada? Si agrega el tiempo en el sitio como un proxy (no particularmente bueno) para que un anuncio de trabajo tenga éxito, entonces puede ver qué palabras conducen al éxito.

Esas fueron solo un puñado de ideas que solo se centraron en la sección de trabajo de Craigslist. Los mismos proyectos podrían aplicarse igualmente a bienes inmuebles o ventas de automóviles. Algunas notas en mi blog donde documenté cómo hago estas cosas: Desarrollo de productos de datos, una metodología

Craigslist / Google Maps Mashup

HousingMaps

More Interesting

¿Cómo es el alcance del big data (analítico) en todo el mundo y también en India en los próximos años?

¿Vale la pena gastar 3 lakh para el curso de ciencia de datos en INSOFE? ¿Realmente proporcionan ubicaciones?

¿Por qué Excel es una herramienta tan infravalorada para el análisis de datos?

¿Cómo se utilizó el método de análisis de datos doble ciego en el LHC?

¿Cuáles son los principales desafíos con big data en epidemiología?

¿Cuál es la diferencia entre Python y las herramientas de minería de datos como Knime y Rapid Miner?

¿Qué escuela es mejor para la ciencia de datos? Master of Computer Science - Data Science en UIUC o Master of Information - Data Science en UC Berkeley

Estoy interesado en aprender ciencia de datos, aprendizaje automático y lenguaje R. ¿Cómo debo comenzar para cualquiera de estos cursos?

Cómo determinar la complejidad de una oración en inglés

¿Cuáles son algunos buenos paquetes de R para el análisis de datos cualitativos?

¿Un tipo de ciencia de datos de corte de cookies captaría el impulso suficiente de las compañías no tecnológicas que no quieren invertir dinero ni siquiera en un equipo de ciencia de datos de un solo hombre?

¿Qué clasificadores de aprendizaje automático escalan muy bien a big data? ¿Hay alguna referencia de papel?

Cómo instalar el paquete rcmdr en el software R

¿Cuál es la mejor manera de elegir el número de componentes en PCA durante la reducción de dimensionalidad?

¿Cómo se conecta Internet? ¿Cómo se transfieren los datos? ¿Cómo se accede a los datos desde diferentes países?