Cómo comenzar a hacer aprendizaje automático para un análisis de datos simple

Entonces, permítanme comenzar diciendo que, en general, gran parte de la información que está obteniendo tiene problemas importantes de una forma u otra, y la magia del buen aprendizaje automático es la higiene de los datos. Tal vez un webcraper te está diciendo que los zapatos cuestan 5 mil millones de dólares, o tienes una brecha de 3 meses en los informes policiales y no hay nada que puedas hacer al respecto. Tu truco es arreglar esto; Si está utilizando el pensamiento y la delicadeza para unir un conjunto entre sí y eliminar los valores atípicos, está haciendo ciencia de datos. Conectar los datos en sci-kit learn o R o MATLAB es el bit fácil.


Aquí hay algunas ideas, sin embargo:

– La mayoría de los paquetes de ciencia de datos (por ejemplo, sci-kit learn en Python) tienen algunos conjuntos de datos de muestra para que practique la programación. Si solo está tratando de rodar su propio código ML para practicar, esta es una buena manera de comenzar.

– Busque registros gubernamentales: datos del censo, registros policiales. A menudo, algunas de estas cosas están disponibles en línea (a la gente le encantan los datos del censo). Intente mirar Open Government – Data.gov como un comienzo.

– Regístrate para una competencia de Kaggle. Las empresas le brindan datos para trabajar, y no necesita competir si solo desea que algunos datos jueguen con ellos.

– Raspe los datos de la web. Esto es lo que hacen muchas empresas de servicios de datos, por lo que es un buen desafío pasar. Para el código Python, los módulos beautifulsoup4 y selenium serán útiles. Como proyecto de ejemplo, intente comprender en qué difieren las campañas exitosas y no exitosas de Kickstarter cuando obtienen dinero.

– Haga el suyo: ¿hay algo que le gustaría rastrear durante un mes o más? Me interesé mucho en calificar las cervezas que estaba bebiendo porque nunca podía recordar cuáles me gustaban, así que he estado recopilando calificaciones durante los últimos 2 años. Esto me ha permitido jugar con regresiones, pruebas estadísticas (hola Kruskal-Wallis …), consultas SQL y marcos de datos, herramientas clave para el trabajo de aprendizaje automático. Además, me permitió responder preguntas como “¿Me gustan más las cervezas o las cervezas?” (Ales, definitivamente), “¿la cerveza alemana es realmente todo eso?” (No, es mediocre), y “¿cuánto más califico las cervezas más borrachas?” (algo así como 1 punto extra de 10 por cada 2% ABV extra).

Acabo de escribir hace unos segundos una respuesta para una pregunta similar, pero también la copiaré a este tema.

Yo recomendaría usar SoDash. Es un software de inteligencia artificial creado para el monitoreo de redes sociales. Creo que te ayudaría porque lo que hace:

Sodash ayuda a las organizaciones a interactuar con sus mercados a través de las redes sociales sin ahogarse en un mar de locuras. Las marcas exitosas enfrentan un problema. Reciben miles y miles de mensajes todos los días, en todos los idiomas.

La pregunta es esta: ¿Cómo le da sentido a toda esa información? ¿Y cómo mantienes tu lado de la conversación?

1.) Agregación.

Sodash aprovecha las conversaciones en las redes sociales: selecciona las relevantes, las archiva permanentemente, las traduce al inglés y las coloca en un lugar único.

2. Etiquetado.

Sodash le permite “etiquetar” mensajes de la manera que tenga sentido para su negocio. Por ejemplo, ¿es el mensaje sobre usted o sus competidores? ¿Un lead de ventas, una queja o una consulta de soporte?

Las etiquetas le permiten cortar y cortar los datos para su análisis, dibujar gráficos circulares y líneas de tiempo.

Aquí está la fiesta genial: a medida que etiquetas los mensajes, Sodash busca patrones y aprende a hacer el trabajo por ti. Esto puede ahorrar enormes cantidades de tiempo. Retroalimente eso a través de los análisis y puede obtener información increíble.

Lea también: Cómo usar las redes sociales para la investigación de mercado

¡Espero que te ayude!

Aclamaciones,

Kenn

More Interesting

¿Cuál es la complejidad temporal de generar todos los subconjuntos posibles de un conjunto? ¿Es 2 ^ n?

¿Se pueden replicar completamente todas las funciones matemáticas utilizando una secuencia de operadores '+', '-', 'x', '/' (como puede y para la potencia x)?

Binario (sistema de números): ¿Qué sucede si un byte tiene 16 bits en lugar de 8?

¿Qué es p en 720p?

¿Qué es el retorno 0 en C?

Big data, seguridad informática y matemática financiera; ¿Cuál de estos campos es el mejor para emprender como carrera si eres de antecedentes matemáticos?

Cómo implementar la diferenciación automática en C ++ desde cero

Me dicen que si n = 25, tenemos Sn = 121392 donde Sn es el número de adiciones realizadas en la siguiente función para calcular el enésimo número de Fibonacci. ¿Alguien puede explicar cómo? Int F (int n) {if (n == 0) return (0); if (n == 1) return (1); retorno (F (n-1) + F (n-2));}

¿Qué es lo contrario de una máquina de Turing? ¿Existe una máquina teórica que ya esté configurada para calcular algún algoritmo de la manera más directa?

Hice un programa en C que nos da la tabla de distribución normal, pero debo hacer un archivo Excel desde C. ¿Cómo puedo hacer esto?

Cómo escribir un programa en C para imprimir todas las permutaciones posibles de un número dado

¿Cómo obtenemos una suma de 100 agregando solo 7 números primos?

Cómo trazar una función seno en el camino trazado por otra función

¿Cuál es la diferencia en informática, matemáticas e informática en los IIT?

Examen de ingreso conjunto (JEE): ¿Quién puede explicar la parte resaltada a continuación?