Un gran problema es que las personas no reconocen a GIGO. Basura dentro basura fuera. Más basura adentro. Más basura afuera. Un uso temprano de una especie de big data fue la infame encuesta Literary Digest. Este no fue el que dijo “Dewey le gana a Truman”.
Este dijo que Landon derrotaría a FDR en un deslizamiento de tierra en 1932. Encuestaron a 10,000,000 de personas. Estaban tan mal como mal puede estarlo; la elección de 1932 fue, de hecho, uno de los mayores derrumbes de cualquier elección presidencial de Estados Unidos, pero fue FDR quien ganó.
Otro gran problema es la contratación de “científicos de datos” que no tienen capacitación estadística. No estoy hablando tanto de las matemáticas sofisticadas detrás de los métodos utilizados, sino más bien, de la capacitación y la experiencia en lo que puede salir mal con los modelos.
- ¿Cuántos datos puedo agrupar en un UAV?
- ¿Qué tipo de aprendizaje automático debo usar para la clasificación de varias clases si la longitud de mi entrada es diferente en cada ejemplo de entrenamiento?
- ¿Cómo las empresas que realizan aprendizaje automático obtienen datos etiquetados de manera confiable?
- ¿Cuál es la especificación requerida en una computadora para participar en las competencias de Kaggle?
- ¿Cómo podemos analizar y consultar sobre el diseño, implementación y evaluación de un algoritmo?
Otro problema más es la actitud de “la computadora lo dijo, lo creo, eso lo resuelve”. Si la respuesta no tiene ningún sentido, entonces es casi seguro que está equivocada. Esto es aún más cierto si el método que utilizó fue un cuadro negro.
El uso de métodos sofisticados es un problema doble: no se hace lo suficiente y, cuando se hace, a menudo se hace demasiado pronto. Si no ha mirado sus datos una variable a la vez, entonces no confiaré en nada más que haya hecho, no importa cuán sofisticado sea. Por otro lado, ¿con qué frecuencia se utilizan métodos como la regresión cuantil o las splines de regresión adaptativa multivariante?
Finalmente, puede haber una tendencia a ignorar los consejos de Abraham Lincoln y David Cox.
Si tuviera seis horas para cortar un árbol, pasaría cuatro de ellos afilando mi hacha: Abraham Lincoln
No hay preguntas estadísticas de rutina, solo rutinas estadísticas cuestionables – David Cox