Artigo original: These Are The Best Free Open Data Sources Anyone Can Use
O que são dados abertos?
Se queremos uma explicação simples, dados abertos (open data, em inglês) são os dados que estão disponíveis para quem quiser e que todos podem acessar, modificar, reutilizar e compartilhar.
A expressão "dados abertos" vem de vários outros "movimentos abertos", como o código aberto, hardware aberto, governo aberto, ciência aberta e outros.
Governos, organizações independentes e agências vem buscando "abrir as comportas" e deixar os dados fluírem para criar mais e mais dados abertos para o acesso gratuito e fácil.
Por que os dados abertos são importantes?
Os dados abertos são importantes (link para um texto em inglês), pois o mundo vem se tornando cada vez mais orientado aos dados. Se, no entanto, temos restrições ao acesso e ao uso dos dados, a ideia de governança e empresas orientadas aos dados não poderá se materializar.
Assim sendo, os dados abertos possuem seu lugar exclusivo e próprio. Eles podem permitir uma compreensão mais completa dos problemas mundiais e de questões universais. Eles podem dar um grande impulso às empresas, além de serem um grande motivador para a aprendizagem de máquina. Eles podem ajudar a combater problemas globais, como doenças, criminalidade ou a fome. Os dados abertos podem dar poder aos cidadãos e, assim, fortalecer a democracia. Eles podem simplificar os processos e sistemas criados pela sociedade e pelos governos, bem como ajudar a transformar o modo como entendemos e nos relacionamos com o mundo.
Assim, segue aqui a minha lista de 15 fontes incríveis de dados abertos:
1. World Bank Open Data
Por ser um repositório dos dados mais abrangentes do mundo com relação ao que está acontecendo em diferentes países do mundo, o World Bank Open Data é uma fonte vital de dados abertos. Ele também fornece acesso a outros conjuntos de dados, os quais são mencionados no catálogo de dados.
O World Bank Open Data é gigantesco, com seus mais de 3 mil conjuntos de dados (em inglês, datasets) e mais de 14 mil indicadores, que compreendem microdados, estatísticas com séries temporais e dados geoespaciais.
O acesso e a descoberta dos dados que você deseja também são bem fáceis. Tudo o que você precisa fazer é especificar os nomes dos indicadores, países ou tópicos e uma mina de ouro em dados abertos se abrirá para você. Ele também permite que você faça o download dos dados em formatos diversos, como CSV, Excel e XML.
Se você for um jornalista ou um acadêmico, ficará surpreso com a variedade de ferramentas disponíveis para você. Você pode obter acesso a ferramentas de análise e visualização que podem impulsionar sua pesquisa, podendo facilitar um entendimento melhor e mais profundo dos problemas globais.
Você pode obter acesso à API, que pode ajudá-lo a criar as visualizações de dados de que você precisa, combinações ao vivo com outras fontes de dados e muitos outros recursos.
Portanto, não surpreende que o World Bank Open Data esteja no topo de qualquer lista de fontes de dados abertos!
2. Organização Mundial da Saúde — Repositório de dados abertos
O repositório de dados abertos da OMS (WHO, em inglês) é a maneira como a organização mantém o controle de estatísticas específicas da saúde de seus 194 países membros.
O repositório mantém os dados sistematicamente organizados. Eles podem ser acessados de acordo com as diversas necessidades. Por exemplo, sejam dados de mortalidade, ou influência de certas doenças, é possível acessar dados classificados em 100 ou mais categoriais, como as metas de desenvolvimento do milênio (nutrição infantil, saúde infantil, saúde materna e reprodutiva, imunização, HIV/AIDS, tuberculose, malária, doenças negligenciadas, água e higienização), doenças não transmissíveis e fatores de risco, doenças que podem gerar epidemias, sistemas de saúde, saúde ambiental, violência e ferimentos, equidade etc.
Para suas necessidades específicas, você pode pesquisar os datasets de acordo com temas, categorias, indicadores e países.
Outro ponto positivo é o fato de ser possível fazer o download dos dados de que você necessita em formato Excel. Você também pode monitorar e analisar os dados fazendo uso do portal de dados.
A API do conteúdo estatístico e de dados da Organização Mundial da Saúde também está disponível.
3. Explorador de dados públicos do Google
Lançado em 2010, o explorador de dados públicos do Google pode ajudá-lo a explorar grandes quantidades de datasets de interesse público. Você pode visualizar e comunicar os dados para seus usos respectivos.
Ele disponibiliza os dados de diversas agências e fontes. Por exemplo, você pode acessar dados do Banco Mundial, do Escritório americano de estatísticas do trabalho, o Censo dos EUA, OCDE, FMI e outros.
Interessados diversos acessam esses dados por várias razões. Seja você um estudante, seja um jornalista, seja ainda um legislador ou acadêmico, você pode tirar proveito desta ferramenta para criar visualizações de dados públicos.
Você pode implantar várias formas de representar esses dados como gráficos de linhas, gráficos de barras, mapas e gráficos de bolhas com a ajuda do explorador de dados.
A melhor parte é o fato – que você logo perceberá – de que essas visualizações são bastante dinâmicas. Em outras palavras, você consegue ver as mudanças com o passar do tempo. Você pode alterar tópicos, concentrar-se em diferentes entradas e modificar a escala.
Ele também é facilmente compartilhável. Tão logo você tenha o gráfico pronto, pode anexá-lo ao seu site da web ou blog ou simplesmente compartilhar um link com seus amigos.
4. Registro de dados abertos da AWS (RODA)
Este é um repositório contendo datasets públicos. São dados disponíveis de recursos da AWS.
No que diz respeito ao RODA, você pode descobrir e compartilhar os dados que estão publicamente disponíveis.
No RODA, você pode usar palavras-chave e tags para tipos de dados comuns, como dados genômicos, imagens de satélite e de transportes para buscar os dados que você está procurando. Tudo isso é possível em uma interface da web simples.
Para cada dataset, você descobrirá uma página de detalhes, exemplos de uso, informações sobre licença e tutoriais e aplicações que utilizam esses dados.
Ao fazer uso de uma ampla gama de produtos de cálculos e analítica de dados, você pode analisar os dados abertos e criar os serviços que você quiser.
Embora os dados que você acessa estejam disponíveis pelos recursos da AWS, tenha em mente que eles não são fornecidos pela AWS. Esses dados pertencem a agências, organizações governamentais, pesquisadores, empresas e indivíduos diversos.
5. Portal de dados abertos da União Europeia
Você pode acessar todos os dados abertos que instituições, agências e outras organizações da UE publicarem em uma única plataforma, o Portal de Dados Abertos da União Europeia.
O portal é onde ficam dados abertos vitais pertencentes aos domínios das políticas da UE. Esses domínios das políticas incluem economia, empregos, ciência, meio ambiente e educação.
Cerca de 70 instituições, organizações ou departamentos da UE, como a Eurostat, a Agência Ambiental Europeia, o Centro de Pesquisa Conjunta e outras agências ou diretorados gerais de comissões europeias, vem tornando públicos os seus datasets e permitindo o acesso a eles. Esses datasets já passaram de 11.700 nesse momento.
O portal permite o acesso fácil. Você pode pesquisar, explorar, fazer links, fazer download e reutilizar facilmente os dados por meio de um catálogo de metadados comuns. Você pode fazer isso para fins específicos, que podem ser comerciais ou não.
Você pode pesquisar o catálogo de metadados por meio de um mecanismo de pesquisa interativa (data tab) e de consultas SPARQL (data tab vinculado).
Ao fazer uso desse catálogo, você pode ter acesso aos dados armazenados em diversos sites da web de instituições, agências e organizações da UE.
6. FiveThirtyEight
É um ótimo site para o jornalismo orientado pelos dados e para a narração de histórias.
Ele fornece diversas fontes de dados para uma variedade de setores, como a política, os esportes, a ciência, a economia, entre outros. Você também pode fazer o download dos dados.
Quando você acessa os dados, encontra uma breve explicação com relação a cada dataset que diz respeito à sua origem. Você também vem a conhecer para que ele serve e como usá-lo.
Para tornar esses dados de fácil acesso para o usuário, o site fornece datasets em formatos simples e não proprietários, como arquivos CSV, sempre que possível. Não é preciso dizer que esses formatos podem ser acessados e processados facilmente tanto por humanos quanto por máquinas.
Com a ajuda desses datasets, você pode criar histórias e visualização de acordo com suas necessidades e preferências.
7. U.S. Census Bureau
O U.S. Census Bureau (escritório responsável pelo censo nos EUA) é a maior agência estatística do governo federal americano. Ele armazena e fornece fatos confiáveis e dados com relação a pessoas, locais e economia nos EUA.
O Census Bureau considera sua missão estender seus serviços de maneira nobre como o provedor mais confiável de dados de qualidade.
Seja um governo federal, estatal, local ou tribal, todos eles fazem uso dos dados do censo para uma variedade de finalidades. Esses governos usam os dados para determinar o local de novos alojamentos e instalações públicas. Também o utilizam na época de examinar características demográficas de comunidades, estados e do próprio país.
Os dados também são utilizados no planejamento de sistemas de transporte e rodovias. Eles são muito úteis na decisão de cotas e na criação de departamentos de polícia e dos bombeiros. Quando os governos criam áreas localizadas para as eleições, escolas, serviços de utilidade pública, entre outros, eles fazem uso desses dados. É uma prática comum compilar informações sobre a população uma vez a cada dez anos. Esses dados são muito úteis para se conseguir fazer isso.
Existem várias ferramentas, como o American Fact Finder, o Census Data Explorer e os Quick Facts, que são propícios caso você queira pesquisar, customizar e visualizar dados.
O Quick Facts, por exemplo, contém estatísticas de todos os estados, condados, cidades e até mesmo cidades pequenas com uma população de mais de 5 mil habitantes.
Do mesmo modo, o American Fact Finder pode ajudar você a descobrir fatos populares, como população, renda, entre outros. Ele fornece informações que são solicitadas com frequência.
Um ponto positivo do local é o fato de você poder pesquisar, interagir com os dados, conhecer estatísticas populares e ver os gráficos relacionados por meio do Census Data Explorer. Além disso, você também pode usar uma ferramenta visual para personalizar os dados em uma experiência interativa com mapas.
8. Data.gov
O Data.gov é a mina de ouro dos dados abertos do governo americano. É bastante recente a decisão de tornar todos os dados do governo disponíveis gratuitamente.
Quando foi lançado, havia apenas 47 datasets. Agora, eles chegam a 180 mil.
O Data.gov é um ótimo recurso, onde você pode encontrar dados, ferramentas e recursos que você pode implantar para uma variedade de fins. Você pode fazer sua pesquisa, desenvolver suas aplicações para a web e dispositivos móveis e até projetar visualizações de dados.
Tudo o que precisa fazer é inserir palavras-chave na caixa de pesquisa e navegar entre os tipos, tags, formatos, grupos, tipos de organização, organizações e categorias. Isso facilitará o acesso a dados ou aos datasets de que você precisa.
O Data.gov segue o projeto Open Data Schema — um conjunto de campos obrigatórios (Título, Descrição, Tags, Última atualização, Quem publicou, Nome de contato etc.) para todos os dados que são exibidos nele.
9. DBpedia
Como você sabe, a Wikipédia é uma grande fonte de informações. O objetivo da DBpedia é obter o conteúdo estruturado das informações valiosas criadas pela Wikipédia.
Com a DBpedia, você pode pesquisar semanticamente e explorar relações e propriedades dos recursos da Wikipédia. Isso também inclui links para outros datasets relacionados.
Há cerca de 4,58 milhão de entidades no dataset da DBpedia. 4,22 milhões são classificados por ontologia, incluindo 1.445.000 pessoas, 735.000 locais, 123.000 álbuns musicais, 87.000 filmes, 19.000 videogames, 241.000 organizações, 251.000 espécies e 6.000 doenças.
Existem etiquetas e resumos para essas entidades em cerca de 125 idiomas. Há 25,2 milhões de links para imagens. Há 29,8 milhões de links para páginas externas da web.
Tudo o que você precisa fazer para usar a DBpedia é escrever consultas SPARQL para o endpoint ou fazer o download de seus dumps.
A DBpedia já serviu várias empresas, como a Apple (via Siri), Google (via Freebase e Google Knowledge Graph) e a IBM (via Watson), e em especial seus projetos respectivos de prestígio associados com inteligência artificial.
10. Dados abertos do freeCodeCamp
O freeCodeCamp é uma comunidade de código aberto. Qual a sua importância? Ela permite que você programe e crie projetos voluntários a partir de sua organização sem fins lucrativos e consiga um emprego como desenvolvedor.
Para fazer isso acontecer, a comunidade do freeCodeCamp.org disponibiliza quantidades enormes de dados todos os meses. Eles os transformaram em dados abertos.
Você encontrará uma variedade de coisas nesse repositório. Você verá datasets, análise deles e até mesmo demonstrações de projetos com base nos dados do freeCodeCamp. Você também achará links para projetos externos envolvendo os dados do freeCodeCamp.
Ele pode ajudar você com uma diversidade de projetos e tarefas que você possa ter em mente. Seja com analíticas da web, analíticas de mídias sociais, análise de redes sociais, análise educacional, visualização de dados, desenvolvimento orientado aos dados para a web ou bots, os dados oferecidos por essa comunidade são extremamente úteis e eficazes.
11. Dataset aberto da Yelp
O dataset da Yelp é basicamente um subconjunto de nada além de nossas próprias empresas, avaliações e dados de usuário para serem utilizados em objetivos pessoais, educacionais e acadêmicos.
São mais de 6 milhões de avaliações, 188.593 empresas, 280.991 imagens e 10 áreas metropolitanas incluídas nos datasets abertos da Yelp.
Você pode usá-los para diversos fins. Por estarem disponíveis como arquivos JSON, você pode usá-los para ensinar os alunos sobre bancos de dados. Você pode usá-los para ensinar Processamento de Linguagem Natural ou para dados de exemplo de produção enquanto entende como criar apps para dispositivos móveis.
Nesse dataset, você encontrará cada arquivo composto de um tipo único de objeto, um objeto JSON por linha.
12. Dataset da UNICEF
Como a UNICEF se preocupa com uma grande variedade de questões fundamentais, ela compilou dados relevantes à educação, trabalho infantil, crianças com deficiência, mortalidade infantil, mortalidade materna, água e higiene, baixo peso de nascença, cuidados pré-natais, pneumonia, malária, desordem por deficiência de iodo, mutilação/amputação genital feminina e adolescentes.
Os datasets abertos da UNICEF estão publicados no IATI Registry: http://www.iatiregistry.org/publisher/unicef. Eles foram extraídos diretamente do sistema operacional da UNICEF (VISION) e de outros sistemas de dados, refletindo as entradas feitas pelos escritórios individuais da UNICEF.
Um ponto positivo está na atualização regular desses datasets. Todo mês, os dados são atualizados para torná-los mais abrangentes, confiáveis e precisos.
Você pode acessar esses dados gratuita e facilmente. Para fazer isso, faça o download desses dados no formato CSV. Você também pode ter uma pré-visualização de dados de exemplo antes de fazer o download.
Embora qualquer um possa explorar e visualizar os datasets da UNICEF, há três editores principais:
O portal de transparência a assistência da UNICEF: você pode acessar os datasets com muito mais facilidade se usar este portal. Ele também inclui detalhes para cada país onde a UNICEF trabalha.
Publisher d-portal : ele está, de momento, em estágio BETA. Como esse portal, você consegue explorar os dados da IATI.
Você pode pesquisar as informações relacionadas às atividades de desenvolvimento, orçamentos etc. Também pode explorar essas informações por país.
Plataforma de dados do editor : nesta plataforma, você pode acessar com facilidade estatísticas, gráficos e métricas sobre os dados acessados por meio do IATI Registry. Se você clicar nos cabeçalhos, também poderá ordenar as tabelas que você vê na plataforma. Também poderá encontrar muitos dos datasets as plataformas em formato JSON, legível por máquinas.
13. Kaggle
A Kaggle é ótima, pois promove o uso de diversos formatos de publicação de datasets. No entanto, a melhor parte está no fato de ela recomendar que os editores do dataset compartilhem seus dados em um formato acessível e não proprietário.
A plataforma dá suporte a formatos de dados abertos e acessíveis. É importante não apenas para o acesso, mas para seja o que você quiser fazer com os dados. Portanto, o dataset da Kaggle define com clareza os formatos de arquivo que são recomendados ao compartilhar dados.
O que há de exclusivo nos datasets da Kaggle é o fato de que ela não é apenas um repositório de dados. Cada dataset representa uma comunidade que permite que você discuta os dados, encontre códigos e técnicas públicas e idealize seus próprios projetos em Kernels.
CSV, JSON, SQLite, Archive, Big Query, entre outros são todos tipos de arquivos com suporte da Kaggle. Você pode encontrar uma variedade de recursos para começar a trabalhar em seu projeto de dados abertos.
A melhor parte é o fato de a Kaggle permitir que você publique e compartilhe os datasets em modo privado ou público.
14. LODUM
É a iniciativa de dados abertos da Universidade de Münster. Essa iniciativa tornou possível que todos pudessem acessar informações públicas sobre a universidade em formatos legíveis por máquinas. Você pode acessá-los e reutilizá-los facilmente, de acordo com as suas necessidades.
Dados abertos sobre artefatos científicos e codificados como dados vinculados foram disponibilizados pelo projeto.
Com a ajuda de dados vinculados, é possível compartilhar e utilizar os dados, ontologias e vários padrões de metadados. É, de fato, previsto que esse será o padrão aceito para o fornecimento de metadados – e até dos próprios dados pela web.
A equipe do LODUM iniciou em conjunto os sites LinkedUniversities.org e o LinkedScience.org.
Você pode usar o editor de SPARQL ou o pacote de SPARQL do R para analisar os dados.
O pacote SPARQL permite que você se conecte a um endpoint de SPARQL por HTTP, faça uma consulta com SELECT ou uma consulta de atualização (LOAD, INSERT, DELETE).
15. Repositório de Aprendizagem de Máquina da UCI
Ele serve como um amplo repositório de bancos de dados, teorias de domínio e geradores de dados que são usados pela comunidade de aprendizagem de máquina para análises empíricas dos algoritmos de aprendizagem de máquina.
Nesse repositório, há, de momento, 463 datasets como serviço para a comunidade de aprendizagem de máquina.
O Centro para a Aprendizagem de Máquina e Sistemas Inteligentes da University da Califórnia, Irvine, o hospeda e o mantém. David Aha o criou originalmente quando era aluno da pós-graduação na UCI.
Desde então, alunos, educadores e pesquisadores de todo o mundo fazem uso dele como uma fonte confiável de datasets de aprendizagem de máquina.
Ele funciona assim: cada dataset tem sua página da web distinta, que lista todos os detalhes conhecidos, incluindo publicações relevantes que investiguem esses detalhes. Você pode fazer o download desses datasets como arquivos ASCII, geralmente no formato útil de CSV.
Os detalhes dos datasets são resumidos por aspectos como tipos de atributos, número de instâncias, número de atributos e ano de publicação, que podem ser ordenados e pesquisados.
Portais de dados abertos e mecanismos de busca:
Embora existam muitos datasets publicados por numerosas agências todos os anos, pouquíssimos datasets se tornam reconhecidos e se estabelecem.
O motivo para que poucos datasets se sustentem como recursos úteis é o fato de que é um desafio desenvolver, gerenciar e fornecer os dados de modo que as pessoas e as organizações achem que eles são úteis e fáceis de usar.
Entretanto, abaixo, trazemos uma lista de outros portais e plataformas de dados abertos importantes que permitem que os usuários acessem dados abertos com facilidade, estudem seu impacto e obtenham insights valiosos.
- Pesquisa de datasets do Google
- Dataverse
- Open Data Kit
- Ckan
- Open Data Monitor
- Plenar.io
- Open Data Impact Map
Conclusão
Os dados abertos estão na ordem do dia. O mundo, gradualmente, está indo na direção de sistemas abertos. Os dados abertos estão em sintonia com essa tendência.
As empresas e organizações que aproveitarem os dados abertos terão uma vantagem competitiva e conseguirão dominar o futuro.