¿Cómo se siente la comunidad de aprendizaje automático sobre Kaggle?

Yo diría que depende del grupo.

Para los grupos de investigación académicos / privados en PNL, CV y ​​DL que publican mucho (por ejemplo, FAIR, Google Research, Amazon, Microsoft, etc.), lo ven como un ejercicio de juguete y no muy interesante. Esto se debe en gran parte al hecho de que la ingeniería de características es esencialmente el aprendizaje automático aplicado y el enfoque de Kaggle (que agrupa muchos modelos grandes) no proporciona una guía extraordinaria para los algoritmos de aprendizaje.

Ahora, en los grupos de ciencia de datos más aplicados (tal vez minería de datos) en varias instituciones (tanto privadas como académicas), la comunidad de Machine Learning verá a Kaggle como genial. Dado que Kaggle es un gran lugar para usar algoritmos preempaquetados en problemas aplicados.

En mi opinión, Kaggle y similares son excelentes para aprender a trabajar con datos, jugar con diferentes algoritmos de aprendizaje (preempaquetados) y probar trucos interesantes, pero no es representativo de la investigación académica en Machine Learning, que (entre muchos, muchas otras cosas) se centra en crear / descubrir algoritmos que hacen que la función aprenda automáticamente.

NB, debo señalar que hay algunos subcampos de ML académico que se centran en tareas de minería de datos.

Miro a Kaggle como una situación de dar y recibir. Pones mucha mano de obra gratis. Y su posibilidad de ganar dinero es esencialmente cero (gané dos competiciones y ~ $ 30k y puedo decir con confianza que ganar es esencialmente una situación de tormenta perfecta).

Además, la comunidad de ML en general sabe muy poco sobre Kaggle y no valora mucho los logros de Kaggle.

Pero, y es un gran pero, obtienes una tonelada de muy buena experiencia gratis. Aprenderá cosas muy rápidamente y se volverá muy competente en el modelado aplicado. Dicho esto, el modelado es solo una pequeña parte de la cartera de ML, por lo que todavía habrá mucho trabajo por hacer antes de que pueda considerarse un experto en ML. Pero al menos serás un experto en modelado, lo cual es un muy buen comienzo para construir.

No pondría un logro de desafío kaggle en mi currículum, eso es seguro (no es que alguna vez haya tenido uno o incluso lo haya intentado particularmente). La razón es que siento que me encuentro como un científico de datos “de fin de semana” que está tratando de compensar la falta de experiencia seria en el campo. Y hablando con más científicos de datos de alto nivel, esta es la sensación general que tengo.

Dicho esto, creo que Kaggle es un bonito parque infantil donde puedes encontrar ideas para proyectos personales de mascotas y, a veces, tener discusiones interesantes.

Esto es lo que siento: como estudiante, te da algo de crédito si puedes ganarlo. Planeo hacer un proyecto sobre eso, pero aún no puedo encontrar tiempo. Sin embargo, personalmente no conozco a ningún estudiante de doctorado que esté trabajando en eso en su propio proyecto de investigación. Pero aún así, es un buen lugar si quieres involucrarte en un proyecto serio.

Mostré una redacción de un desafío de kaggle en una entrevista de trabajo y obtuve el trabajo. La industria era la misma que el tema del desafío …

More Interesting

¿Cuáles son las ventajas y desventajas de cada método de regresión no lineal existente?

¿Qué es el procesamiento del lenguaje natural en términos simples?

Cómo construir una consulta a partir de una pregunta de lenguaje natural en Python

¿Cuál es la mejor red neuronal o SVM para la clasificación de texto de etiquetas múltiples?

¿Cómo utiliza Quora el aprendizaje automático en 2015?

¿Hay algún resumen de las mejores modelos para el premio de Netflix? ¿Cuáles son las ideas de alto nivel e intuitivas detrás de los modelos ganadores que finalmente fueron utilizados en el aprendizaje conjunto por los mejores equipos?

Cómo tener una buena inicialización de la probabilidad previa, la probabilidad de emisión en los modelos ocultos de Markov ya que los HMM son óptimos locales

¿No tener datos temporales en el vector de entrada hace que un RNN-LSTM sea inútil en comparación con otros NN si su salida es una secuencia temporal?

¿Cuáles son las desventajas de [math] abs (x) [/ math] como función de activación en redes neuronales?

Con el desarrollo de marcos informáticos escalables como TensorFlow y Spark, ¿seguirán siendo relevantes los marcos de una sola máquina? NumPy podría ser solo API.

¿Cuáles son las 8 principales cosas para las que las startups utilizan el aprendizaje automático?

¿A qué tipo de problemas del mundo real se aplica el aprendizaje no supervisado?

¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?

¿Cuál es el error de la bolsa en bosques aleatorios? Qué significa eso? ¿Cuál es un valor típico, si lo hay? ¿Por qué sería mayor o menor que un valor típico?

¿Cuál es la diferencia entre embolsado y bootstrapping en ML / estadísticas?