¿Cuántos datos necesitamos para pensar siquiera en aplicar el aprendizaje profundo?

De acuerdo con Coleen

tu conjunto de datos es pequeño

es probable que sus 10k documentos hayan usado 1–2 páginas para información de tipo de preámbulo y otras secciones que no aborden directamente su necesidad principal

Si el 10 K se refiere a la misma jurisdicción y un segmento industrial muy estrecho, tal vez tenga suerte.

Incluso si asume que la porción de PNL no es un problema (lo es), los matices de la redacción legal serán un desafío además de eso.

Las placas de calderas fueron creadas por abogados por una buena razón. Especialmente para contratos corporativos donde los matices después de que un MSA contextualice otro contrato existente, necesitará muchas más muestras por industria por jurisdicción

Una contradicción en la ley de Texas podría considerarse benigna o inaplicable en Delaware, pero luego debería haber disposiciones de modularidad / separabilidad en muchos ejemplos legales.

Por lo general, necesita al menos decenas de miles de puntos de datos, pero …

No todos tienen que ser etiquetados. A veces (especialmente en el dominio NLP) puede aprovechar el conocimiento de los datos no etiquetados y tener menos puntos de datos etiquetados. Ejemplo aquí: [1511.01432] Aprendizaje de secuencias semi-supervisado

Puede ser un poco pequeño (suponiendo que todos los 10,000 ya estén clasificados y se usarán como datos de entrenamiento), pero sugeriría intentarlo de todos modos. Probablemente no sea una predicción óptima, pero podría ser un buen comienzo. Dependería de cuántos tipos de contradicciones existen, ya que el aprendizaje profundo necesita ejemplos suficientes de subgrupos dentro de una tarea de clasificación.

More Interesting

¿Cómo funciona la codificación de características de alta cardinalidad con regresión de cresta?

¿Cómo toman decisiones las neuronas del cerebro? ¿Funcionan de la misma manera que las neuronas artificiales en ANN?

¿Qué es la estimación de contraste de ruido (NCE)?

¿Es posible comenzar a aprender y trabajar en el aprendizaje por refuerzo y el aprendizaje profundo sin un conocimiento previo sólido de otras clases de ML?

¿En qué medida se utilizan las técnicas de optimización del aprendizaje automático, como el descenso de gradiente, en el modelado financiero?

¿Es posible entrenar modelos de aprendizaje automático de procesamiento de datos en dispositivos locales y enviar solo el modelo entrenado al servidor?

Cómo llegar a un problema de aprendizaje automático para un proyecto personal

¿Cómo pudo Mark Zuckerberg implementar algoritmos de aprendizaje automático a la edad de 14 años?

¿Dónde puedo encontrar el código fuente para construir un árbol de decisión usando el algoritmo ID3 en C?

¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

¿Por qué el algoritmo AdaBoost es sensible a datos ruidosos y valores atípicos? ¿Y cómo?

¿Cuáles son algunos temas inusuales en el aprendizaje automático que se pueden explorar como un proyecto de un mes?

¿Cuáles son los pros y los contras de estos tres modelos de secuencia: modelo MaxEnt Markov, campos aleatorios condicionales y redes neuronales recurrentes?

¿Cómo puede un joven de 16 años comenzar a aprender sobre el aprendizaje automático?

¿Es importante aprender Python para el aprendizaje automático? He aprendido R. ¿Cómo puedo aprender el aprendizaje automático en R?