¿Qué métodos de aprendizaje automático lo llevarán al top 10 de las competencias de kaggle?

Los algoritmos por sí mismos no harán que uno entre los 10 primeros lugares en ningún lado. Nunca se trata de los algoritmos, siempre se trata de los datos. Si sus datos son inseparables, no lineales y colineales, Dios lo salve. Dicho eso, la respuesta fue un poco exagerada. Comprender la naturaleza de los datos es tan importante como elegir los algoritmos para entrenar el modelo. Xgboost es un gran clasificador no lineal, pero tiene este sesgo inherente de solo trabajar para conjuntos de datos medianos a pequeños. El flujo tensor de Google o las redes neuronales profundas funcionan mejor para los motores de reconocimiento de visión / habla / nlp donde hay una gran cantidad de datos disponibles. Las SVM se usan ampliamente en PNL. El ejemplo de libro de texto para la detección de spam es ingenuo Bayes. Más métodos gráficos como mcmc, la propagación de creencias hace maravillas. Los conjuntos trabajan en la práctica. El desafío de Netflix fue ganado por un conjunto de modelos más pequeños. Entonces, en teoría, es una capucha tener el siguiente conjunto de algoritmos como su navaja suiza, pero busque una mejor arma una vez que comprenda a su enemigo.

K significa
Métodos básicos de árboles c45, adaboost, bosques aleatorios y xgboost
SVM y truco del kernel
Modelos generativos, Naive Bayes (línea de base! Funciona más increíble si es el momento)
Regresión lineal y logística.
Redes de creencias neurales y profundas
Aprende a ensamblar, bootstrap, embolsado y refuerzo
Métodos de selección de características, entropía, chiSquare, varianza mínima, etc.
Ingeniería de características (conocimiento del dominio)
Generalmente, lo discreto siempre es mejor que los datos continuos
Reducciones de dimensionalidad como PCA, SVD, Autoencoders (puede ser un poco excesivo) y otros modelos de factor latente
Finalmente, mucha paciencia y potencia informática.

Aprendizaje automáticoCiencia de datosKaggle

Related Content

¿Puede el aprendizaje profundo manejar datos desequilibrados?

¿Cuáles son las aplicaciones más interesantes del aprendizaje automático en espacios inesperados?

Si pudiera construir una plataforma de contenido (piense en la entrega de noticias) desde cero con el objetivo de escalar a millones de usuarios, ¿qué infraestructura utilizaría?

¿Cuál es la diferencia entre CNN y RNN?

¿Cuál es el papel de la Inteligencia Artificial en las redes sociales?

¿Por qué mi modelo de regresión produce valores negativos para SalePrice en los datos de prueba?

¿Los centros de datos cambiarán a procesadores personalizados para aplicaciones de aprendizaje automático?

En una competencia de Kaggle, generalmente hay miles de competidores que usan algoritmos similares.

La única forma de obtener una puntuación ligeramente mejor es mediante el ensamblaje.

Esto es oro puro si quieres aprender más sobre el ensamblaje.

Guía de ensamblaje de Kaggle

Por lo general, usar diversos conjuntos de modelos te permite obtener una mejor puntuación.

Tapa Ghosh

Xgboost, aprendizaje profundo y lo más importante, Ensembling 😉

Tapa Ghosh

En caso de duda, comience con un conjunto de bosques al azar.

Tapa Ghosh

More Interesting

¿Qué es un campo aleatorio?

¿Es la máquina de comercio científico una estafa?

¿Qué es una red neuronal deconvolucional?

Como ingeniero de ML en Quora, ¿alguna vez ha implementado un artículo de investigación en aprendizaje automático para resolver un problema técnico o de producto?

¿Hay algún proyecto de aprendizaje automático de código abierto al que un principiante pueda contribuir?

¿Puede una red neuronal convolucional tener pesos negativos?

¿Cuál es la biblioteca de aprendizaje profundo más fácil de aprender?

¿Cuáles son las formas en que puede aplicar la máquina o el aprendizaje profundo al pirateo?

¿Qué sitio web ofrece 'filtrado colaborativo como servicio'?

¿Cuál es más rápido, Torch7 o Theano?

¿Qué significa decir: "En la geometría de la información, el paso E y el paso M se interpretan como proyecciones bajo dos conexiones afines"?

¿Cuál es la forma correcta y deseable de hacer un asistente personal / bot de chat usando AI, ML y NLP?

Cómo implementar una capa de deconvolución con los mismos valores de peso de la capa de convolución anterior para una red neuronal convolucional

He realizado el curso de aprendizaje automático de Andrew Ng pero no lo he programado. ¿Debo decir que tengo los conocimientos básicos?

Cómo construir un proyecto de aprendizaje profundo en dos meses

Web Analytics