Sería precavido con algunas de estas respuestas: todas parecen estar cerca de la respuesta correcta, pero de alguna manera aleatoria (alta varianza, bajo sesgo)
Los árboles de decisión, por ejemplo, no están modelando límites de decisión lineales, sino más bien funciones constantes por partes en el caso de regresión y límites de decisión rectangulares alineados con el eje en el caso de clasificación.
Del mismo modo, los HMM no son tanto para datos que “cambian con el tiempo”, sino que sirven como un buen modelo para datos secuenciales cuando no hay dependencias de clase de largo alcance en la secuencia. Un ejemplo de dominio de aplicación es parte del etiquetado del habla en el texto o el descubrimiento de genes en una secuencia de ADN. El aprendizaje de estos modelos puede ser supervisado o no supervisado. Otros algoritmos en esta clase son los modelos de máxima entropía de Markov y los campos aleatorios condicionales.
- Soy un ingeniero de datos al año fuera de la escuela que gana 65k, ¿qué debo esperar para ganar sueldo después de 5 años?
- ¿Cuál es la importancia de comprender las distribuciones de datos subyacentes en un conjunto de datos antes de aplicar cualquier algoritmo de aprendizaje automático, ya sea un algoritmo de predicción o de clasificación?
- Cómo aplicar el análisis de sentimientos en los datos de correo electrónico con precisión
- ¿Qué piensa la comunidad de Data Science sobre la discriminación contra aquellos sin doctorado de recursos humanos sin educación?
- ¿Puede Big Data realmente resolver problemas del mundo real?
—-
Una buena primera regla para elegir un método es elegir uno que comprenda muy bien.
Es un hecho teórico que ninguno de estos métodos es universalmente mejor que el otro, pero argumentaría que quizás lo más sorprendente es que a menudo ni siquiera hay una diferencia práctica que sea más significativa que quién está usando la herramienta.
Es decir, ponga un SVM en manos de Vladimir Vapnik, un árbol de regresión de clasificación en manos de Jerome Friedman o un aprendizaje profundo en manos de Geoffrey Hinton y todos destruirán positivamente al resto de ustedes en Kaggle y les costará mucho golpearlos. el uno al otro muy consistentemente …
Salvo una comprensión profunda de cualquiera de los métodos, los árboles y sus diversos conjuntos (bosques aleatorios, bosques de rotación, ensacado) son un buen lugar para comenzar porque están muy “listos para usar” ya que tienen pocos parámetros libres y ” son bastante robustos para las patologías de datos comunes del mundo real, como características irrelevantes, datos faltantes, características de diferentes escalas, ciertos tipos de valores atípicos, y pueden manejar datos categóricos / numéricos uno al lado del otro.
Más allá de eso, hacer el conjunto más sólido de suposiciones sobre sus datos que es realmente cierto no es necesariamente un consejo constructivo, pero es un koan en el que vale la pena reflexionar.