Cómo comenzar a hacer aprendizaje automático para un análisis de datos simple

Entonces, permítanme comenzar diciendo que, en general, gran parte de la información que está obteniendo tiene problemas importantes de una forma u otra, y la magia del buen aprendizaje automático es la higiene de los datos. Tal vez un webcraper te está diciendo que los zapatos cuestan 5 mil millones de dólares, o tienes una brecha de 3 meses en los informes policiales y no hay nada que puedas hacer al respecto. Tu truco es arreglar esto; Si está utilizando el pensamiento y la delicadeza para unir un conjunto entre sí y eliminar los valores atípicos, está haciendo ciencia de datos. Conectar los datos en sci-kit learn o R o MATLAB es el bit fácil.

Aquí hay algunas ideas, sin embargo:

– La mayoría de los paquetes de ciencia de datos (por ejemplo, sci-kit learn en Python) tienen algunos conjuntos de datos de muestra para que practique la programación. Si solo está tratando de rodar su propio código ML para practicar, esta es una buena manera de comenzar.

– Busque registros gubernamentales: datos del censo, registros policiales. A menudo, algunas de estas cosas están disponibles en línea (a la gente le encantan los datos del censo). Intente mirar Open Government – Data.gov como un comienzo.

– Regístrate para una competencia de Kaggle. Las empresas le brindan datos para trabajar, y no necesita competir si solo desea que algunos datos jueguen con ellos.

– Raspe los datos de la web. Esto es lo que hacen muchas empresas de servicios de datos, por lo que es un buen desafío pasar. Para el código Python, los módulos beautifulsoup4 y selenium serán útiles. Como proyecto de ejemplo, intente comprender en qué difieren las campañas exitosas y no exitosas de Kickstarter cuando obtienen dinero.

– Haga el suyo: ¿hay algo que le gustaría rastrear durante un mes o más? Me interesé mucho en calificar las cervezas que estaba bebiendo porque nunca podía recordar cuáles me gustaban, así que he estado recopilando calificaciones durante los últimos 2 años. Esto me ha permitido jugar con regresiones, pruebas estadísticas (hola Kruskal-Wallis …), consultas SQL y marcos de datos, herramientas clave para el trabajo de aprendizaje automático. Además, me permitió responder preguntas como “¿Me gustan más las cervezas o las cervezas?” (Ales, definitivamente), “¿la cerveza alemana es realmente todo eso?” (No, es mediocre), y “¿cuánto más califico las cervezas más borrachas?” (algo así como 1 punto extra de 10 por cada 2% ABV extra).