Original article: These Are The Best Free Open Data Sources Anyone Can Use

¿Qué son los datos abiertos u Open Data?

En términos simples, Datos abiertos significa el tipo de datos se encuentra disponible para que todos puedan acceder, modificar, reutilizar y compartir.

Open Data deriva su base de varios "movimientos abiertos" como código abierto, hardware abierto, gobierno abierto, ciencia abierta, etc.

Los gobiernos, las organizaciones independientes y las agencias se han presentado para abrir las compuertas de datos y así crear más y más datos abiertos para un acceso fácil y gratuito.

¿Porqué los datos abiertos son importantes?

Los datos abiertos son importantes debido al creciente uso y necesidad de los mismos en el mundo actual. No obstante, si nos encontramos con restricciones a su acceso, la implementación de un adecuado sistema de gestión datos en los sectores gubernamental y empresarial no sucederá.

Por tanto, los datos abiertos tienen su lugar único en esta ecuación. En el ámbito de políticas públicas pueden permitir una mayor comprensión de los problemas globales. En el ámbito empresarial pueden dar un aumento en la competitividad de los negocios.

Tecnológicamente, los datos abiertos pueden ser un gran ímpetu para el campo del aprendizaje automático (Machine Learning). También pueden asistir en la lucha contra la criminalidad, así como a la solución de problemas globales de salud pública como las enfermedades y el hambre.

Los datos abiertos pueden empoderar a los ciudadanos y, por lo tanto, pueden fortalecer la democracia. Tienen además el poder agilizar los procesos y sistemas que la sociedad y los gobiernos han construido. De más está hablar de sus posibilidades para ayudar a transformar la forma en que entendemos y nos relacionamos con el mundo.

Por lo tanto, he aquí mi lista de los 15 recursos más increíbles de datos abiertos online:

1. World Bank Open Data (Base de datos del Banco Mundial)

Es un repositorio de los datos más completos del mundo sobre lo que está sucediendo en diferentes países del mundo, los Datos Abiertos del Banco Mundial son una fuente vital de Datos Abiertos. También proporciona acceso a otros conjuntos de datos que se mencionan en el catálogo de datos.

Los datos abiertos del Banco Mundial son masivos porque tienen 3000 conjuntos de datos y 14000 indicadores que abarcan microdatos, estadísticas de series temporales y datos geoespaciales.

Acceder y descubrir los datos que deseas también es bastante fácil. Todo lo que necesitas hacer es especificar los nombres de los indicadores, países o temas y te abrirá el tesoro de los Datos Abiertos.

También te permite descargar datos en diferentes formatos, como CSV, Excel y XML. Si eres periodista o académico, te cautivará la variedad de herramientas disponibles para ti. Puedes obtener acceso a herramientas de análisis y visualización que pueden reforzar su investigación.

Esto te ayudará además a tener una comprensión más profunda y mejor de los problemas globales. Puedes obtener acceso a la API para ayudarte a crear las visualizaciones de datos que necesitas.

La plataforma también ofrece combinaciones en vivo con otras fuentes de datos y muchas más características similares. Por lo tanto, ¡No sorprende que los Datos Abiertos del Banco Mundial encabecen cualquier lista de fuentes de Datos Abiertos!

2. OMS (Organización Mundial de la Salud)Repositorio abierto de datos

El repositorio de datos abiertos de la OMS es la forma en que la OMS realiza un seguimiento de las estadísticas específicas de salud de sus 194 Estados Miembros. El repositorio mantiene los datos organizados sistemáticamente. Se puede acceder según diferentes necesidades.

Por ejemplo, ya se trate de mortalidad o de carga de enfermedades, se puede acceder a datos clasificados en 100 o más categorías, como los Objetivos de Desarrollo del Milenio (nutrición infantil, salud infantil, salud materna y reproductiva, inmunización, VIH/SIDA, tuberculosis, malaria, enfermedades desatendidas, agua y saneamiento), enfermedades no transmisibles y factores de riesgo, enfermedades propensas a epidemias, sistemas de salud, salud ambiental, violencia y lesiones, equidad, etc.

Para tus necesidades específicas, puedes revisar los conjuntos de datos según temas, categoría, indicador y país. Lo bueno es que es posible descargar cualquier dato que necesites en formato Excel. También puedes monitorear y analizar datos haciendo uso de su portal de datos. La API para el contenido de datos y estadísticas de la Organización Mundial de la Salud también está disponible.

3. Google Public Data Explorer

Lanzado en el año 2010, Google Public Data Explorer puede ayudarte a explorar grandes cantidades de conjuntos de datos de interés público. Puede visualizar y comunicar los datos para sus respectivos usos.

Hace que los datos de diferentes agencias y fuentes estén disponibles. Por ejemplo, puede acceder a datos del Banco Mundial, la Oficina de Estadísticas Laborales de EE. UU. y la Oficina de EE. UU., la OCDE, el FMI y otros.

Diferentes partes interesadas acceden a estos datos para una variedad de propósitos. Tanto si es estudiante como periodista, elaborador de políticas o académico, puede aprovechar esta herramienta para crear visualizaciones de datos públicos.

Puede implementar varias formas de representar los datos, como gráficos de líneas, gráficos de barras, mapas y gráficos de burbujas con la ayuda de Data Explorer.

La mejor parte es que encontrará estas visualizaciones bastante dinámicas. Significa que los verás cambiar con el tiempo. Puede cambiar de tema, centrarse en diferentes entradas y modificar la escala.

También se puede compartir fácilmente. Tan pronto como tenga listo el gráfico, puede insertarlo en su sitio web o blog o simplemente compartir un enlace con sus amigos.

4. Registry of Open Data on AWS (RODA)

Este es un repositorio que contiene conjuntos de datos públicos. Básicamente son datos que están disponibles en los recursos de AWS.

En lo que respecta a RODA, es posible descubrir y compartir los datos que están disponibles públicamente.

En RODA, puedes usar palabras clave y etiquetas para tipos comunes de datos como genómicos, imágenes satelitales y transporte para encontrar cualquier dato que estés buscando.

Todo esto es posible en una sencilla interfaz web. Para cada conjunto de datos, descubrirás una página de detalles, ejemplos de uso, información de licencia y tutoriales o aplicaciones que utilizan estos datos.

Al hacer uso de una amplia gama de productos informáticos, así como del análisis de datos, es posible analizar los datos abiertos y crear los servicios que desees.

Si bien los datos a los que accedas estarán disponibles a través de los recursos de AWS, debes tener en cuenta que AWS no los proporciona. Estos datos pertenecen a diferentes agencias, organizaciones gubernamentales, investigadores, empresas e individuos.

5. Portal de datos de la Unión Europea

En este portal es posible acceder a cualquier información abierta que las instituciones, agencias y otras organizaciones de la UE publiquen en una única plataforma, a saber, el Portal de datos abiertos de la Unión Europea.

El Portal de datos abiertos de la UE alberga datos abiertos vitales relacionados con los dominios de las políticas de la UE. Estos dominios de política incluyen la economía, el empleo, la ciencia, el medio ambiente y la educación.

Alrededor de 70 instituciones, organizaciones o departamentos de la UE, como Eurostat, la Agencia Europea de Medio Ambiente, el Centro Común de Investigación y otras direcciones generales de la Comisión Europea y agencias de la UE, han hecho públicos sus conjuntos de datos y han permitido el acceso. Estos conjuntos de datos han cruzado el número de 11700 hasta la fecha.

El portal permite un fácil acceso. Puede buscar, explorar, vincular, descargar y reutilizar fácilmente los datos a través de un catálogo de metadatos comunes. Puede hacerlo para sus propósitos específicos. Puede ser con fines comerciales o no comerciales.

Puede buscar en el catálogo de metadatos a través de un motor de búsqueda interactivo (pestaña Datos) y consultas SPARQL (pestaña Datos vinculados).

Al hacer uso de este catálogo, puedes acceder a los datos almacenados en los diferentes sitios web de las instituciones, agencias y organizaciones de la UE.

6. FiveThirtyEight

Es un gran sitio para el periodismo de datos y la narración de historias.

Proporciona sus diversas fuentes de datos para una variedad de sectores como política, deportes, ciencia, economía, etc. Lo mejor es que es posible descargar estos datos.

Cuando accedas a los datos, encontrarás una breve explicación sobre cada conjunto de datos con respecto a su origen. También aprenderás su significado y cómo emplearlos.

Para que estos datos sean fáciles de usar, proporciona conjuntos de datos en los formatos más simples y no patentados, como los archivos CSV. No hace falta decir que estos formatos pueden ser fácilmente accedidos y procesados tanto por humanos como por máquinas.

Con la ayuda de estos conjuntos de datos, puedes crear historias y visualizaciones según tus propios requisitos y preferencias.

7. U.S. Census Bureau (Oficina del Censo de EE.UU)

La Oficina del Censo de EE. UU. es la agencia estadística más grande del gobierno federal. Almacena y proporciona registros y datos confiables sobre personas, lugares y la economía de EE.UU.

El Censo considera con frecuencia su misión de extender sus servicios como el proveedor más confiable de datos de calidad.

Ya sea un gobierno federal, estatal, local o tribal, todos utilizan los datos del censo para una variedad de propósitos. Estos gobiernos usan estos datos para determinar la ubicación de nuevas viviendas e instalaciones públicas. También hacen uso de ella a la hora de examinar las características demográficas de comunidades, estados y EEUU.

Estos datos también se utilizan en la planificación de sistemas de transporte y carreteras. Cuando se trata de decidir cuotas y crear comisarías de policía y bomberos, estos datos son útiles. Cuando los gobiernos crean áreas localizadas de elecciones, escuelas, servicios públicos, etc., hacen uso de estos datos. Es una práctica recopilar información de población una vez por década y estos datos son bastante útiles para lograr lo mismo.

Existen varias herramientas, como American Fact Finder, Census Data Explorer y Quick Facts, que son útiles en caso de que desee buscar, personalizar y visualizar datos.

Por ejemplo, Quick Facts solo contiene estadísticas de todos los estados, condados, ciudades e incluso pueblos con una población de 5000 habitantes o más.

Asimismo, American Fact Finder puede ayudarlo a descubrir datos populares como la población, los ingresos, etc. Brinda información que se solicita con frecuencia.

Lo bueno es que puedes buscar, interactuar con los datos, conocer estadísticas populares y ver los gráficos relacionados a través de Census Data Explorer. Además, también puedes usar la herramienta visual para personalizar los datos en una experiencia de mapas interactivos.

8. Data.gov

Data.gov es el tesoro de los datos abiertos del gobierno de EE. UU. Fue solo recientemente que se tomó la decisión de hacer que todos los datos gubernamentales estén disponibles de forma gratuita.

Cuando se lanzó, solo había 47, pero ahora hay 180 000 conjuntos de datos.

La razón por la que Data.gov es un gran recurso es porque permite encontrar datos, herramientas y recursos para implementaruna variedad de propósitos. Puedes realizar tu investigación, desarrollar sus aplicaciones web y móviles e incluso diseñar visualizaciones de datos.

Todo lo que necesitas hacer es ingresar palabras clave en el cuadro de búsqueda y navegar a través de tipos, etiquetas, formatos, grupos, tipos de organizaciones, organizaciones y categorías. Esto facilitará el acceso fácil a los datos o conjuntos de datos que necesites.

Data.gov sigue el esquema de datos abiertos del proyecto: un conjunto de campos obligatorios (título, descripción, etiquetas, última actualización, editor, nombre de contacto, etc.) para cada conjunto de datos que se muestra en Data.gov.

9. DBpedia

Cómo es sabido, Wikipedia es una gran fuente de información. DBpedia tiene como objetivo obtener contenido estructurado a partir de la valiosa información que creó Wikipedia.

Con DBpedia, puedes buscar y explorar semánticamente las relaciones y propiedades de los recursos de Wikipedia. Esto incluye enlaces a otros conjuntos de datos relacionados también.
Hay alrededor de 4,58 millones de entidades en el conjunto de datos DBpedia. 4,22 millones están clasificados en ontología, incluyendo 1.445.000 personas, 735.000 lugares, 123.000 álbumes de música, 87.000 películas, 19.000 videojuegos, 241.000 organizaciones, 251.000 especies y 6.000 enfermedades.

Hay etiquetas y resúmenes para estas entidades en alrededor de 125 idiomas. Hay 25,2 millones de enlaces a imágenes. Hay 29,8 millones de enlaces a páginas web externas.

Todo lo que necesitas hacer para usar DBpedia es escribir consultas SPARQL contra el punto final o descargar sus volcados.

DBpedia ha beneficiado a varias empresas, como Apple (a través de Siri), Google (a través de Freebase y Google Knowledge Graph) e IBM (a través de Watson), y en particular sus respectivos proyectos de prestigio asociados con la inteligencia artificial.

10. freeCodeCamp Open Data

freeCodeCamp una comunidad de código abierto. La razón por la que es importante es porque permite codificar, crear proyectos pro bono después de organizaciones sin fines de lucro y obtener un trabajo como desarrollador.

Para que esto suceda, la comunidad de freeCodeCamp.org pone a disposición enormes cantidades de datos todos los meses. Estos han sido convertidos en datos abiertos.

Encontrarás una variedad de cosas en este repositorio. Puedes encontrar conjuntos de datos, análisis de los mismos e incluso demostraciones de proyectos basados en los datos de freeCodeCamp. También puede encontrar enlaces a proyectos externos relacionados con los datos de freeCodeCamp.

Tal información puede ayudarte con una diversidad de proyectos y tareas que puedas tener en mente. Ya sea que se trate de análisis web, análisis de redes sociales, análisis de redes sociales, análisis educativo, visualización de datos, desarrollo web basado en datos o bots, los datos que ofrece esta comunidad pueden ser extremadamente útiles y efectivos.

11. Yelp Open Datasets

El conjunto de datos de Yelp es básicamente un subconjunto de nada más que nuestros propios negocios, reseñas y datos de usuarios para uso personal, educativo y académico.

Específicamente y hasta la fecha original de este artículo, hay 5.996.996 reseñas, 188.593 empresas, 280.991 imágenes y 10 áreas metropolitanas incluidas en Yelp Open Datasets.

Puedes usarlos para diferentes propósitos. Dado que están disponibles como archivos JSON, puedes usarlos para enseñar a los estudiantes sobre las bases de datos. También son útiles para aprender Procesamiento de Lenguaje Natural (NLP) o para obtener datos de producción de muestra mientras aprende a diseñar aplicaciones móviles.

En este conjunto de datos, encontrarás cada archivo compuesto por un solo tipo de objeto, un objeto JSON por línea.

12. UNICEF Dataset

Dado que UNICEF se ocupa de una amplia variedad de temas críticos, ha compilado datos relevantes sobre educación, trabajo infantil, discapacidad infantil, mortalidad infantil, mortalidad materna, agua y saneamiento, bajo peso al nacer, atención prenatal, neumonía, malaria, deficiencia de yodo. trastorno, mutilación/ablación genital femenina y adolescentes.

El siguiente dataset de UNICEF en el registro IATI: http://www.iatiregistry.org/publisher/unicef  ha sido extraído directamente del sistema operativo de UNICEF (VISION) y otros sistemas de datos. Básicamente refleja los insumos recibidos con el paso del tiempo por las distintas oficinas de la organización.

Lo bueno es que hay una actualización regular cuando se trata de estos conjuntos de datos. Todos los meses, los datos se actualizan para que sean más completos, confiables y precisos.

Puedes acceder libre y fácilmente a estos datos. Para ello, puedes descargar estos datos en formato CSV. También puedes obtener una vista previa de los datos de muestra antes de descargarlos.

Si bien cualquiera puede explorar y visualizar los conjuntos de datos de UNICEF, hay tres editores principales:

PORTAL DE TRANSPARENCIA DE LA AYUDA DE UNICEF: Puedes acceder mucho más fácilmente a los conjuntos de datos si utiliza este portal. También incluye detalles de cada país en el que trabaja UNICEF.

Editorial d-portal: Está, de momento, en BETA. Con este portal, puede explorar los datos de la IATI.

Puedes buscar información relacionada con actividades de desarrollo, presupuestos, etc. También es posible explorar esta información por país.

Plataforma de datos del editor: En esta plataforma, puedes acceder fácilmente a estadísticas, gráficos y métricas sobre los datos a los que se accede a través del Registro IATI. Si haces clic en los encabezados, también se facilita ordenar muchas de las tablas que ve en la plataforma. También encontrarás muchos de los conjuntos de datos en las plataformas en formato JSON legible por máquina.

13. Kaggle

Kaggle es excelente porque promueve el uso de diferentes formatos de publicación para los conjuntos de datos (datasets). Sin embargo, la mejor parte es que recomienda encarecidamente que los editores de datasets que compartan sus datos en un formato accesible y no propietario.

La plataforma admite formatos de datos abiertos y accesibles. Es importante no solo para el acceso, sino también para lo que quieras hacer con estos datos. Por lo tanto, Kaggle Dataset define claramente los formatos de archivo que se recomiendan al compartir datos.

Lo único de Kaggle es que no es solo un repositorio de datos. Cada conjunto de datos representa una comunidad que le permite discutir datos, descubrir códigos y técnicas públicos y conceptualizar sus propios proyectos en Kernels.

CSV, JSON, SQLite, Archive, Big Query, etc. son tipos de archivos compatibles con Kaggle. Puede encontrar una variedad de recursos para comenzar a trabajar en su proyecto de datos abiertos.

La mejor parte es que Kaggle te permite publicar y compartir conjuntos de datos de forma privada o pública.

14. LODUM

Es la iniciativa de Datos Abiertos de la Universidad de Münster. Bajo esta iniciativa, cualquier persona puede acceder a cualquier información pública sobre la universidad en formatos legibles por máquina. Puedes acceder fácilmente y reutilizarlo según sus necesidades.

Los datos abiertos sobre artefactos científicos y codificados como datos vinculados están disponibles bajo este proyecto.


Con la ayuda de Linked Data, es posible compartir y utilizar datos, ontologías y varios estándares de metadatos. De hecho, se prevé que será el estándar aceptado para proporcionar metadatos y los propios datos en la Web.

El equipo de LODUM ha co-iniciado en LinkedUniversities.org y LinkedScience.org.


Puedes usar el editor SPARQL o el paquete SPARQL de R para analizar datos.
El paquete SPARQL permite conectarse a un punto final SPARQL a través de HTTP, plantear una consulta SELECCIONAR o una consulta de actualización (CARGAR, INSERTAR, ELIMINAR).

15. UCI Machine Learning Repository

Sirve como un depósito integral de bases de datos, teorías de dominio y generadores de datos que utiliza la comunidad de aprendizaje automático para el análisis empírico de algoritmos de aprendizaje automático.

En este repositorio hay, en la actualidad, 463 conjuntos de datos como servicio a la comunidad de aprendizaje automático.

El Centro de aprendizaje automático y sistemas inteligentes de la Universidad de California, Irvine, lo aloja y lo mantiene. David Aha lo había creado originalmente como estudiante de posgrado en UC Irvine.

Desde entonces, estudiantes, educadores e investigadores de todo el mundo lo utilizan como una fuente confiable de conjuntos de datos de aprendizaje automático.

La forma en que funciona es que cada conjunto de datos tiene su página web distinta que incluye todos los detalles conocidos, incluidas las publicaciones relevantes que lo investigan. Puedes descargar estos conjuntos de datos como archivos ASCII, a menudo el útil formato CSV.

Los detalles de los conjuntos de datos se resumen por aspectos como tipos de atributos, número de instancias, número de atributos y año de publicación que se pueden ordenar y buscar.

Portales de datos abiertos y buscadores:

Si bien hay muchos conjuntos de datos publicados por numerosas agencias cada año, muy pocos conjuntos de datos se reconocen y establecen.

La razón por la que muy pocos conjuntos de datos de este tipo se sostienen como un recurso útil es que es un desafío desarrollar, administrar y proporcionar los datos de manera que las personas y las organizaciones los encuentren útiles y fáciles de usar.

Sin embargo, a continuación encontrarás una lista de otros portales y plataformas de datos abiertos importantes que permiten a los usuarios acceder a datos abiertos con bastante facilidad, estudiar el impacto y obtener información valiosa.

  1. Google dataset search
  2. Dataverse
  3. Open Data Kit
  4. Ckan
  5. Open Data Monitor
  6. Plenar.io
  7. Open Data Impact Map

Conclusión

Los datos abiertos son la nueva orden del día. El mundo ha empezado a moverse gradualmente hacia sistemas de datos abiertos.

Los negocios y las organizaciones que aprovechen los datos abiertos ganarán una ventaja competitiva de cara al futuro.