¿Qué papel jugará la ciencia de datos en las elecciones presidenciales de 2012?

Realmente hay dos formas de interpretar esta pregunta. La primera es: “Cómo utilizarán las campañas la ciencia de datos para ganar sus elecciones” y la segunda es “Cómo afectará la ciencia de datos la elección del próximo presidente”.

El primero es operativo, y creo que Gary Teal respondió bien. Para resumir, creo que hay muchas estrategias efectivas que se pueden usar para modelar en el campo y organizar en línea que deberían implementarse. No estoy de acuerdo con Gary Teal en que la ciencia de datos utilizada por las campañas esté necesariamente relacionada con una operación de campo o focalización. También es eficaz desde el punto de vista operativo, y al igual que la “organización en línea”, es probable que las personas tarden un tiempo en darse cuenta de que estar impulsado por los datos no es para el “equipo de datos”, sino algo que toda una campaña necesita incorporar en su ADN

El segundo es más interesante. Llamaría a Nate Silver, por ejemplo, un científico de datos. Creo que Nate Silver tiene una influencia fraccionaria sobre quién será el próximo presidente. Creo que hay muchos datos públicos disponibles sobre la competencia legislativa y la competencia gubenatorial. A la izquierda, tenemos un presidente cuya administración ha generado gigabytes sobre su desempeño real, y a la derecha, muchos miembros actuales y anteriores de la rama legislativa del gobierno se postulan para un cargo. Los científicos de datos inteligentes deberían poder ver las redes que fluyen alrededor de estos candidatos y hacer algunas predicciones sobre su capacidad y habilidad legislativa. Me imagino, por ejemplo, que una vez que se encuentre al candidato republicano, en algún momento antes del 1 de octubre de 2012, un científico de datos decente debería poder predecir quién será potencialmente designado para varios puestos por un presidente electo pendiente.

El potencial para la investigación real de la prensa en este momento es sorprendente, y lo que es molesto es que no lo hacen. Cuando miras el escándalo de Abramoff, por ejemplo, esa es una historia que podría haber comenzado con la ciencia de datos, y no fue así. Una historia como esa podría producir una sorpresa de octubre en un instante, y es realmente decepcionante que no lo haya hecho hasta ahora. Los datos están ahí, pero por lo que puedo decir, la prensa le tiene demasiado miedo a la tecnología para hacer algo al respecto.

Creo que hay varios pasos entre aquí y allá.

Primero, los datos tienen que ser adquiridos. Este es un tema separado para cada campaña o comité. En otras palabras, algunas campañas podrían permitírselo y otras no. Los costos marginales de cada nuevo elemento del conjunto de datos son altos. Una lista de licencias de pesca de Iowa puede ser difícil de obtener, y por sí misma tiene poco valor, pero todo el concepto se basa en la idea de que desea tenerlo todo.

En segundo lugar, los vendedores deben ser competentes en su uso. Serán raros por ahora, no importa cuán numerosos puedan ser en cuatro u ocho o veinte años. Estos proveedores pueden coordinar el acceso a los datos mencionados anteriormente, pero no pueden hacer que los costos desaparezcan.

En tercer lugar, los gerentes de campaña deben escuchar a los vendedores y absorber estas herramientas en su campaña general. Es un problema persistente, y al igual que con los otros problemas, algunas campañas tendrán el personal lo suficientemente inteligente como para ver el valor y muchas no.

Por último, y creo que este suele ser el caso con la nueva tecnología política, habrá una cierta cantidad de autosatisfacción entre las campañas que hacen los arreglos para tener acceso a todos los datos correctos y a las personas adecuadas, pero eso no significa que Están utilizando las herramientas de manera efectiva. En un campo relacionado que representó un cambio radical en el uso de datos, sabemos que muchas campañas pagaron por la micro-focalización, y estaban entusiasmados con las teorías y se jactaban de que estaban haciendo un montón de perfiles. Pero si no variaron su mensaje de acuerdo con lo que aprendieron sobre los hogares individuales, no estaban obteniendo el beneficio completo, y tal vez no obtuvieron mucho beneficio. Es como los hombres con autos que irán de 0 a 100 en siete segundos y se jactarán de ello, pero nunca usarán esa capacidad incluso el día que lo necesiten. Todos los datos del mundo son inútiles a menos que los explotes.

Nada de esto pretende ser escepticismo. Habrá pioneros (sin duda participará entre los de la lista corta), y las lecciones aprendidas se aplicarán a cada nueva campaña, y se desarrollarán las mejores prácticas.

Un problema complicado que siempre tuve con esto es cómo aprovechar los datos para mejorar el contacto de persona a persona. Los datos son útiles cuando la campaña decide qué decir y a quién. Pero si es explícito, se vuelve espeluznante. El objetivo no debe ser consciente de que está siendo objetivo, en efecto. Quizás el peor de los casos es un partidario que contacta a un amigo o vecino y le dice: hey, tengo esta copia impresa que dice que tiene 44 años, gana $ 55k-75k, conduce un Subaru y tiene mascotas. Por lo tanto, quiero hablar con usted sobre la atención médica. Sería tan espeluznante y aún más confuso para el voluntario si le da instrucciones explícitas pero misteriosas: publique este mensaje del candidato y restrinja su visibilidad a sus amigos del trabajo en Texas. La razón por la que este sondeo individual es tan importante (ya sea por teléfono o en persona o por Internet) es que para utilizar los datos a nivel de votante individual, debe reunir la variable más importante de todas: quién ¿apoyan? Cuando los datos de Claritas para un código postal podrían correlacionarse con el desempeño electoral en el recinto electoral en elecciones pasadas, parece un milagro y lo ayudó a decidir dónde colocar las vallas publicitarias. Ese nivel de sofisticación parece ridículo ahora. En un entorno en el que los votantes indecisos pueden cambiar en números dramáticamente grandes de una manera u otra, confiar en los totales de votos pasados ​​del nivel de precinto es bastante primitivo. La lana dorada sería tener suficientes datos, además de las identificaciones de los votantes individuales (es decir, sí, no, indecisos) y analizar todo lo suficiente para tomar decisiones sobre el mensaje para los votantes que aún no están identificados o que no pueden ser identificados por una razón u otra (una de las cuales es la falta de voluntad para discutir sus preferencias).

Creo que la pregunta planteada, restringiendo la conversación a la carrera presidencial, es la correcta, ya que los nominados para presidente deberían poder reunir los recursos para reconocer cuán importante es esto y seguir adelante. (Por otro lado, para ser brutalmente francos, hemos visto que es posible que un nominado para presidente en 2008 esté tan mal servido por su equipo que su campaña se desarrolla como si el año fuera 1996). Solo un paso hacia abajo En la votación, solo unas pocas carreras en todo el estado tendrán la previsión y la imaginación para utilizar esta tecnología. El grupo de proveedores competentes con suficiente ancho de banda seguirá siendo pequeño. Espero estar equivocado, pero esa es mi mejor suposición en este momento.