¿Cuáles son los grandes proyectos de datos en torno a craigslist? La tecnología cambia la vida futura

He escrito esta respuesta basada en un enfoque algo estructurado para mirar datos e identificar las oportunidades que existen.

Adquisición de datos

Primero, voy a suponer que tiene una forma escalable de obtener datos de Craigslist (si no, ya que no hay API, hay algunas ideas aquí ¿Craigslist tiene una API?)

Cómo pasar del freelance de ingeniería de software al freelance de machine learning / data science
Quiero aprender por mi cuenta Big data / Hadoop. ¿Cuál debería ser el enfoque más eficiente?
Cómo sentirse acerca de los datos
¿Qué universidades de EE. UU. Son buenas y tienen un curso de maestría en big data o análisis de datos?
Después de tener 15 años de experiencia en la industria de semiconductores, ¿vale la pena cambiar a la ciencia de datos para paquetes de salarios más altos?

Limpieza de datos

Probablemente habrá una preparación considerable de datos: agregando datos en cada una de las diferentes ubicaciones de Craigslist, limpiando registros no válidos, colocando los datos en una forma estándar y desnormalizada que puede analizarse rápidamente, limpiando valores atípicos y eliminando información de identificación personal (no esencial, pero solo una buena práctica).

Paisaje de datos

Luego piense en las dimensiones de los datos en Craigslist: hay publicaciones por categoría y subcategoría. Hay información de ubicación y hay fechas. La información disponible siempre será una instantánea, por lo que para ver las cosas a lo largo del tiempo, tendrá que hacer varios pases a medida que extrae datos. Las publicaciones contendrán datos estructurados y datos no estructurados que pueden clasificarse de alguna manera, los datos estructurados obviamente serán más útiles.

Echemos un vistazo a la página de inicio de Craigslist y veamos qué riquezas hay:

A la derecha, vemos todas las ubicaciones. Al lado, vemos trabajos. Los trabajos por ubicación me parecen algo que podría ser de interés.

Análisis y visualización de cuantificación: trabajos por ubicación

Muéstrame una instantánea del recuento de trabajos por ubicación. Cree un mapa por código postal, ciudad, condado y estado de todos los trabajos disponibles, solo un recuento para comenzar. (Si desea renderizar las cosas, intente petewarden / openheatmap)

Problema de clasificación: tipos de trabajo por ubicación

Miremos la lista de trabajos con más detalle. Podemos ver que hay 3 piezas de información justo allí. La fecha posterior en verde. El título del trabajo en azul. La ubicación en rojo.

También podemos ver que la fecha estará en un formato estándar: MMM DD. Que los títulos de trabajo están por todas partes, sin estandarización. Y la ciudad es semi-confiable. Aquí hay cinco preguntas sencillas que proporcionarían buenos proyectos de análisis de datos pequeños:

Publicaciones a lo largo del tiempo: ¿Qué ciudad, condado o estado ha mostrado el mayor aumento de publicaciones en el último mes? ¿Cuáles están disminuyendo?
Publicaciones correlacionadas con el gasto público de la ciudad: ¿El gasto público de una ciudad tiene algún impacto en la cantidad de empleos publicados? Puede encontrar datos abiertos para los contratos de adquisición de la ciudad aquí Censo de datos abiertos de la ciudad de los EE. UU., Como proxy del gasto público. Las ofertas de trabajo de Craigslist se utilizarán como proxy para los trabajos disponibles.
Análisis de frecuencia de trabajos por tipo: a nivel nacional, observe la distribución de frecuencia de los títulos de trabajo. Tendrá que clasificar los trabajos en una clasificación uniforme de títulos de trabajo y luego atribuirlos con algún tipo de clasificación departamental o funcional. (Aquí hay un par de listas con las que puede clasificar: más de 12,000 títulos de trabajo, descripciones de trabajo y lista de carreras, https://www.linkedin.com/jobs/di…
Qué tipos de trabajo en qué ubicaciones: una vez que haya clasificado los trabajos en una lista estándar, puede comenzar a ver qué trabajos aparecen en qué regiones. ¿Cuál es el trabajo más popular anunciado por estado, por condado, por ciudad?
Nuevos tipos de trabajo que están apareciendo: mire la frecuencia de ocurrencia de trabajos a lo largo del tiempo. Vea si hay títulos de trabajo nuevos y en crecimiento
Publicaciones correlacionadas con los Índices económicos: Observe la frecuencia de publicación a lo largo del tiempo. Si puede agrupar los trabajos en diferentes tipos (por ejemplo, ejecutivo, gerencia, trabajador, aprendiz, contratista), vea cómo el momento de cada categoría se correlaciona con los diversos indicadores económicos (Indicadores económicos). ¿Hay algunos trabajos que tienen una correlación negativa?

Proyectos de lenguaje natural: ¿Qué anuncio ‘copia conduce al éxito

Una vez que pueda raspar las publicaciones detalladas, podemos comenzar a encontrar cosas más interesantes, especialmente si está publicando con el tiempo. Aquí hay un par de ideas más:

Si puede raspar a diario, verá cuánto tiempo está una publicación en el sitio antes de que se elimine por cualquier motivo. Entonces, ¿me gustaría saber si las publicaciones de trabajo más largas se eliminan más rápido o más lento? ¿Existe una duración óptima para que una publicación de trabajo sea exitosa? Recuerde que las publicaciones pueden eliminarse porque están llenas o porque Craigslist cobra por esas publicaciones.
¿Cuáles son las palabras clave o frases asociadas específicamente con el título de un trabajo? ¿Qué tipo de análisis de palabras clave podría utilizarse para optimizar la copia utilizada? Si agrega el tiempo en el sitio como un proxy (no particularmente bueno) para que un anuncio de trabajo tenga éxito, entonces puede ver qué palabras conducen al éxito.

Esas fueron solo un puñado de ideas que solo se centraron en la sección de trabajo de Craigslist. Los mismos proyectos podrían aplicarse igualmente a bienes inmuebles o ventas de automóviles. Algunas notas en mi blog donde documenté cómo hago estas cosas: Desarrollo de productos de datos, una metodología