Usted ve, ninguna cantidad de teoría puede reemplazar la práctica práctica. Los libros de texto y las lecciones pueden adormecerlo con una falsa creencia de dominio porque el material está allí frente a usted. Pero una vez que intentes aplicarlo, es posible que te resulte más difícil de lo que parece.
Los proyectos lo ayudan a elevar sus habilidades de ML aplicadas. También te dan la oportunidad de explorar un área que te interesa.
Además, puede agregar proyectos que complete a su cartera personal. Hacen que sea más fácil conseguir un trabajo, encontrar oportunidades profesionales geniales e incluso negociar un salario más alto.
- ¿Cuál es la medida cuantitativa sofisticada de la similitud de textos además de usar la similitud de coseno?
- ¿Qué es Mach 23 en millas por hora?
- ¿Por qué se usan CNN para PNL?
- ¿Pueden los métodos de aprendizaje profundo ser útiles para el seguimiento de múltiples objetos en una multitud?
- ¿Por qué debería usar TensorFlow sobre NumPy o scikit-learn para construir redes neuronales (excepto para CPU o GPU)?
Aquí hay 6 proyectos divertidos de aprendizaje automático para principiantes. Puede completar cualquiera de ellos en un solo fin de semana, o expandirlos en proyectos más largos si los disfruta.
Tabla de contenido
- Gladiador de aprendizaje automático
- Jugar dinero bola
- Predecir precios de acciones
- Enseñe a una red neuronal a leer la escritura
- Investigar Enron
- Escribir algoritmos ML desde cero
1. Gladiador de aprendizaje automático
Llamamos cariñosamente a este “gladiador de aprendizaje automático”, pero no es nuevo. Esta es una de las formas más rápidas de desarrollar una intuición práctica en torno al aprendizaje automático.
El objetivo es tomar modelos listos para usar y aplicarlos a diferentes conjuntos de datos. Este proyecto es impresionante por 3 razones principales:
Primero, desarrollará la intuición para el ajuste del modelo al problema. ¿Qué modelos son robustos para los datos faltantes? ¿Qué modelos manejan bien las características categóricas? Sí, puede buscar en los libros de texto para encontrar las respuestas, pero aprenderá mejor al verlo en acción.
En segundo lugar, este proyecto le enseñará la habilidad invaluable de crear prototipos de modelos rápidamente. En el mundo real, a menudo es difícil saber qué modelo funcionará mejor sin simplemente probarlos.
Finalmente, este ejercicio lo ayuda a dominar el flujo de trabajo de la construcción de modelos. Por ejemplo, podrás practicar …
- Importando datos
- Datos de limpieza
- Dividiéndolo en trenes / pruebas o conjuntos de validación cruzada
- Preprocesamiento
- Transformaciones
- Ingeniería de características
Debido a que usará modelos listos para usar, tendrá la oportunidad de concentrarse en perfeccionar estos pasos críticos.
Consulte las páginas de documentación de sklearn (Python) o caret (R) para obtener instrucciones. Debe practicar la regresión , clasificación y algoritmos de agrupamiento .
Tutoriales
- Python: sklearn – Tutorial oficial para el sklearn paquete
- R: caret: seminario web impartido por el autor del paquete caret
Fuentes de datos
- Depósito de aprendizaje automático UCI: más de 350 conjuntos de datos de búsqueda que abarcan casi todos los temas. Definitivamente encontrará conjuntos de datos que le interesan.
- Conjuntos de datos de Kaggle: más de 100 conjuntos de datos cargados por la comunidad de Kaggle. Aquí hay algunos conjuntos de datos realmente divertidos, que incluyen ubicaciones de generación de PokemonGo y Burritos en San Diego.
- data.gov: conjuntos de datos abiertos publicados por el gobierno de EE. UU. Gran lugar para mirar si estás interesado en las ciencias sociales.
2. Jugar Money Ball
En el libro Moneyball, los Atléticos de Oakland revolucionaron el béisbol a través de la exploración analítica de jugadores. Crearon un equipo competitivo mientras gastaban solo 1/3 de lo que los grandes equipos de mercado como los Yankees pagaban por los salarios.
Primero, si aún no has leído el libro, deberías echarle un vistazo. ¡Es uno de nuestros favoritos!
Afortunadamente, el mundo del deporte tiene muchos datos para jugar. Los datos de equipos, juegos, puntajes y jugadores se rastrean y están disponibles gratuitamente en línea.
Hay muchos proyectos divertidos de aprendizaje automático para principiantes. Por ejemplo, podrías intentar …
- Apuestas deportivas … Predecir los puntajes del cuadro dados los datos disponibles en el momento justo antes de cada nuevo juego.
- Exploración de talentos … Utilice las estadísticas de la universidad para predecir qué jugadores tendrían las mejores carreras profesionales.
- Gestión general … Crea grupos de jugadores basados en sus fortalezas para construir un equipo completo.
El deporte también es un dominio excelente para practicar la visualización de datos y el análisis exploratorio . Puede usar estas habilidades para ayudarlo a decidir qué tipos de datos incluir en sus análisis.
Fuentes de datos
- Base de datos de estadísticas deportivas: estadísticas deportivas y datos históricos que abarcan muchos deportes profesionales y varios universitarios. La interfaz limpia facilita el raspado web.
- Referencia deportiva: otra base de datos de estadísticas deportivas. Interfaz más desordenada, pero las tablas individuales se pueden exportar como archivos CSV.
- cricsheet.org – Datos bola por bola para partidos de cricket internacionales e IPL. Los archivos CSV para partidos internacionales de IPL y T20 están disponibles.
3. Predecir los precios de las acciones
El mercado de valores es como una tierra dulce para cualquier científico de datos que esté remotamente interesado en las finanzas.
Primero, tiene muchos tipos de datos entre los que puede elegir. Puede encontrar precios, fundamentos, indicadores macroeconómicos globales, índices de volatilidad, etc. La lista sigue y sigue.
En segundo lugar, los datos pueden ser muy granulares. Puede obtener fácilmente datos de series de tiempo por día (o incluso minutos) para cada compañía, lo que le permite pensar creativamente sobre las estrategias comerciales.
Finalmente, los mercados financieros generalmente tienen ciclos cortos de retroalimentación. Por lo tanto, puede validar rápidamente sus predicciones sobre nuevos datos.
Algunos ejemplos de proyectos de aprendizaje automático amigables para principiantes que podría probar incluyen …
- Inversión de valor cuantitativo … Predice movimientos fundamentales de precios a 6 meses basados en indicadores fundamentales de los informes trimestrales de las empresas.
- Pronósticos … Cree modelos de series temporales, o incluso redes neuronales recurrentes, en el delta entre la volatilidad implícita y la real.
- Arbitraje estadístico … Encuentre acciones similares en función de sus movimientos de precios y otros factores y busque períodos en los que sus precios difieran.
Descargo de responsabilidad obvio: la creación de modelos comerciales para practicar el aprendizaje automático es simple. Hacerlos rentables es extremadamente difícil. Aquí nada es un consejo financiero, y no recomendamos comerciar con dinero real.
Tutoriales
- Python: sklearn for Investing – Serie de videos de YouTube sobre cómo aplicar el aprendizaje automático a la inversión.
- R: Comercio cuantitativo con R – Notas detalladas de clase para finanzas cuantitativas con R.
Fuentes de datos
- Quandl: mercado de datos que proporciona datos financieros y económicos gratuitos (y premium). Por ejemplo, puede descargar a granel los precios de las acciones al final del día para más de 3000 empresas estadounidenses o datos económicos de la Reserva Federal.
- Quantopian: comunidad financiera cuantitativa que ofrece una plataforma gratuita para desarrollar algoritmos comerciales. Incluye conjuntos de datos.
- Archivo de fundamentos de EE. UU .: 5 años de datos fundamentales para más de 5000 empresas de EE. UU.
4. Enseñe a una red neuronal a leer la escritura
Las redes neuronales y el aprendizaje profundo son dos historias de éxito en la inteligencia artificial moderna. Han llevado a grandes avances en el reconocimiento de imágenes, la generación automática de texto e incluso en automóviles sin conductor.
Para involucrarse en este apasionante campo, debe comenzar con un conjunto de datos manejable.
El desafío de clasificación de dígitos escritos a mano MNIST es el punto de entrada clásico. Los datos de imagen son generalmente más difíciles de trabajar que los datos relacionales “planos”. Los datos MNIST son amigables para principiantes y son lo suficientemente pequeños como para caber en una computadora.
El reconocimiento de escritura a mano lo desafiará, pero no necesita un alto poder computacional.
Para comenzar, recomendamos con el primer capítulo del tutorial a continuación. Le enseñará cómo construir una red neuronal desde cero que resuelva el desafío MNIST con alta precisión.
Tutorial
- Redes neuronales y aprendizaje profundo (Libro en línea): el Capítulo 1 explica cómo escribir una red neuronal desde cero en Python para clasificar los dígitos de MNIST. El autor también da una muy buena explicación de la intuición detrás de las redes neuronales.
Fuentes de datos
- MNIST: MNIST es un subconjunto modificado de dos conjuntos de datos recopilados por el Instituto Nacional de Estándares y Tecnología de EE. UU. Contiene 70,000 imágenes etiquetadas de dígitos escritos a mano.
5. Investigar Enron
El escándalo y el colapso de Enron fue uno de los mayores colapsos corporativos de la historia.
En el año 2000, Enron era una de las compañías de energía más grandes de América. Luego, después de ser descubierto por fraude, cayó en bancarrota en un año.
Afortunadamente para nosotros, tenemos la base de datos de correo electrónico de Enron. Contiene 500 mil correos electrónicos entre 150 ex empleados de Enron, en su mayoría ejecutivos senior. También es la única gran base de datos pública de correos electrónicos reales, lo que la hace más valiosa.
De hecho, los científicos de datos han estado utilizando este conjunto de datos para educación e investigación durante años.
Los ejemplos de proyectos de aprendizaje automático para principiantes que podrías probar incluyen …
- Detección de anomalías. Mapee la distribución de correos electrónicos enviados y recibidos por hora e intente detectar comportamientos anormales que conducen al escándalo público.
- Análisis de redes sociales. Cree modelos de gráficos de red entre empleados para encontrar personas influyentes clave.
- Procesamiento natural del lenguaje. Analice los mensajes del cuerpo junto con los metadatos del correo electrónico para clasificar los correos electrónicos según sus propósitos.
Fuentes de datos
- Conjunto de datos de correo electrónico de Enron: este es el archivo de correo electrónico de Enron alojado por CMU.
- Descripción de los datos de Enron (PDF): análisis exploratorio de los datos de correo electrónico de Enron que podrían ayudarlo a obtener su base.
6. Escribir algoritmos ML desde cero
Escribir algoritmos de aprendizaje automático desde cero es una excelente herramienta de aprendizaje por dos razones principales.
Primero, no hay mejor manera de construir una verdadera comprensión de su mecánica. Te verás obligado a pensar en cada paso, y esto te llevará a un verdadero dominio.
En segundo lugar, aprenderá a traducir instrucciones matemáticas en código de trabajo. Necesitará esta habilidad cuando adapte algoritmos de investigación académica.
Para comenzar, recomendamos elegir un algoritmo que no sea demasiado complejo. Hay docenas de decisiones sutiles que deberá tomar incluso para los algoritmos más simples.
Después de que se sienta cómodo creando algoritmos simples, intente extenderlos para obtener más funcionalidad. Por ejemplo, intente extender un algoritmo de regresión logística de vainilla en una regresión de lazo / cresta agregando parámetros de regularización.
Finalmente, aquí hay un consejo que todo principiante debe saber: no se desanime, su algoritmo no es tan rápido o elegante como los de los paquetes existentes. ¡Esos paquetes son el fruto de años de desarrollo!
Tutoriales
- Python: Regresión logística desde cero
- Python: k-vecinos más cercanos desde cero
- R: Regresión logística desde cero
171
COMPARTE