¿Dónde puedo descargar los documentos y conjuntos de datos de Panama Papers?

Respondido como: ¿Dónde obtengo los datos sin procesar de 2.6 TB de la fuga de papel de Panamá?

Detalles: Quiero decir, vamos, ¿un pequeño periódico metropolitano tiene suficientes datos para la mayor filtración en la historia humana? Afortunadamente, todos los líderes estadounidenses de la UE y los Estados Unidos son ángeles y no usan compañías fantasmas (sarcasmo); al menos no se filtraron. Es curioso que el denunciante y los periodistas no sean cazados .

El contenido de los Papeles de Panamá, que yo sepa, no está disponible actualmente para el público en general. Es probable que esto cambie en algún momento en el futuro inmediato.

Sin embargo, en los Detalles de la pregunta, hay un par de otros puntos que puedo abordar. La primera es que 2.6 TB no es realmente mucho, en términos de almacenamiento. Por ejemplo, podría comprar 2 TB de almacenamiento en Google Drive durante un año por ~ 20 USD. Puedo comprar un disco duro de 2 TB por unos 80 USD. Esto no es mucho dinero. Diablos, mi PC para juegos tiene un disco duro de 2 TB. Sin embargo, puede almacenar una gran cantidad de datos en 2TB, por lo que el tamaño de la fuga es tan monumental.

Estoy totalmente de acuerdo en que es sorprendente que, por lo que he visto, no haya líderes estadounidenses involucrados en los documentos de Panamá, pero no me sorprendería si algunos salen a la luz en algún momento. Sin embargo, aunque actualmente no están representados en este escándalo en particular, ciertamente tenemos muchos similares, y no he visto a nadie que afirme que no.

Me encantaría poder leer y abordar su último enlace, pero está en holandés. Si pudiera encontrar una versión en inglés, sugeriría publicarla, ya que la gran mayoría de los usuarios de Quora son principalmente angloparlantes y, de hecho, se supone que Quora es principalmente un sitio en inglés.

EDITAR: Wikileaks aparentemente tiene acceso a la fuga, y ya está preguntando si deberían liberarla. Gracias a Jean Lucas Lima por alertarme, si estás viendo esto en tu feed, asegúrate de revisar su respuesta a la pregunta para obtener más detalles.

En este momento, los registros en bruto de los Papeles de Panamá no están disponibles para el público. (ICIJ tiene varios otros proyectos en los que han hecho disponibles bases de datos consultables con visualizaciones, pero aparentemente no son los documentos de los Papeles de Panamá). La lista completa de compañías y nombres asociados está programada para su publicación a principios de mayo. Tenga en cuenta que vendrán más historias con más revelaciones en las próximas semanas.

Puede suscribirse para recibir actualizaciones en The Panama Papers. Para ver las visualizaciones de datos actuales, consulte los números de The Panama Papers

Los datos de los Papeles de Panamá se incluyeron en el proyecto de ICJ “Fugas en alta mar” y ahora está disponible para descargar desde https://offshoreleaks.icij.org/p

Limitación: no son documentos sin procesar de Mossack Fonseca, son datos disponibles después del análisis de estos documentos.

Necesitará el motor de base de datos Neo4J para ello.

Enlaces de descarga directa:

ICIJ no publicará los archivos en bruto por razones éticas y legales. Pero han lanzado un montón de archivos csv en formato comprimido. Usando editores de texto sin formato como Notepad ++ y Excel, puede revisar la mayoría de los datos. Para un entusiasta de los datos, es un tesoro escondido.

También tienen una mini página de búsqueda similar a google en su sitio web oficial, en la que puede hacer cualquier búsqueda relacionada de celebridades para encontrar clientes potenciales interesantes.

Puedes leer mi artículo de linkedin

https://www.linkedin.com/pulse/p

para todos los enlaces de archivos necesarios. (Capítulo 9)

Apuesto a que los datos textuales no son 1/10 del total. 300 o 400 GB máx.

Las imágenes de audio y video ocupan mucho más espacio.

Esa base de datos es patética …

Dame los datos de texto en 1 archivo enorme.

Buscaría correos electrónicos que mostraran solo las líneas coincidentes 30 o más por página

Cadena de búsqueda: “Asunto:”

Cualquier cosa que fuera de interés podría entonces buscarse, en contexto.

[1] archivo de texto de 86MB

Mi aplicación mostrará la última página de este archivo de 86 megabytes en 11 segundos. Lee el archivo total contando el número de líneas, luego lo vuelve a leer y comienza la pantalla 30 líneas antes del final.

La búsqueda de indexación simplemente no es suficiente. Rara vez, si es que alguna vez, obtienes los mismos resultados. Lo cual es un asesino si quieres encontrar lo que cambió entre dos sistemas de archivos.

Busqué en el archivo anterior “buscar:” hay 2405 de estos. Cuando busco esto, la coincidencia mira la siguiente línea que contiene una cadena de búsqueda anterior y la coloca en el portapapeles para pegarla en Google, etc.

Cuando las revistas mantienen esos datos tan cerca del cofre, ¿cómo no podemos cuestionar sus motivos?

Notas al pie

[1] Página en archive.org

Aunque todos los datos en bruto (documentos) no están disponibles en el dominio público, está disponible el que muestra enlaces de políticos prominentes y figuras públicas con compañías fantasmas offshore. Puedes encontrarlo aquí – DocumentCloud

Más información sobre el mismo se puede encontrar aquí:
1. Descubriendo Panamá: todo sobre la filtración de los Papeles de Panamá
2. Cómo ocurrió la filtración de los Papeles de Panamá

Todavía no está abierto al público. Y WikiLeaks ya pregunta públicamente si deberían lanzarlo. [1] Veo algunas buenas razones para no publicarlo, pero el acceso a la información debería estar abierto.

Notas al pie

[1] WikiLeaks en Twitter

The Sunday Times acaba de publicar una base de datos que contiene más de 37000 nombres citados en los Documentos de Panamá: Documentos de Panamá: los nombres

Aquí tienes: conjunto de datos de Panama Papers para descargar. por Alket Cecaj sobre Algoritmos y Fusión de datos
Si el enlace para la descarga tarda un poco, es porque mucha gente está intentando descargarlo en este preciso momento.

Sospecharía que alguien afirmara que podría descargar el conjunto completo de datos de dos terabytes de su servidor. El archivo más grande que descargué fue de alrededor de cinco gigabytes y tardó varias horas en una conexión de alta velocidad. El conjunto de los Papeles de Panamá requeriría semanas. Sin embargo, cada vez que salen historias de este tipo, varios hackers crean malware utilizando el tema como título.

Tengo curiosidad yo mismo. Según Wikipedia: “Entre otras divulgaciones planificadas, la lista completa de compañías se publicará a principios de mayo”

More Interesting

¿Alguna vez ha usado sus habilidades de ciencia de datos para el comercio cuantitativo?

¿Qué estudios / clases universitarias son críticos para distinguir un verdadero programa de Ciencia de Datos de Business Analytics?

¿Cómo manejan la industria de videovigilancia y los operadores de CCTV los grandes datos?

¿Cómo se protegen los datos sanitarios de los ciberataques?

Actualmente, estoy trabajando con la tecnología AS400 y quiero ingresar al análisis de datos. ¿Cuál debería ser mi primer paso?

¿Qué recomienda como material para un principiante en minería de datos?

¿Cuál es la mejor manera de medir la acción para impactar en el análisis de datos?

¿Qué es la ciencia de datos? ¿Cuál es el alcance? ¿El análisis de datos y el análisis comercial son lo mismo? ¿Necesitamos estudiar programación?

¿Qué tipo de predicción puede ser posible usando la ciencia de datos en LinkedIn?

¿Dónde puedo hacer un curso de análisis de datos? ¿Edvancer es una buena opción?

¿Cuál es la diferencia entre Driven-data y Data?

¿Qué dicen los grandes datos sobre Go? Dado el gran conjunto de datos de juegos Go de torneos profesionales y servidores de Internet, ¿se puede usar la ciencia de datos para construir algoritmos novedosos para evaluar las posiciones Go? ¿Se ha hecho esto con éxito?

Cómo prepararse para una maestría en informática en aprendizaje automático / ciencia de datos como una persona sin mucha experiencia en el campo de la informática

¿Cómo se pueden combinar las técnicas de minería de texto con los sistemas de recuperación de información?

¿Qué es el análisis de datos incompleto?