Google acaba de publicar 25 milhões de conjuntos de dados gratuitos

Views: 519
0 0
Read Time:1 Minute, 54 Second

Nota: A nova ferramenta de pesquisa de conjunto de dados do Google foi lançada publicamente em 23 de janeiro de 2020.

O Google lançou recentemente o datasetsearch, uma ferramenta gratuita para pesquisar 25 milhões de conjuntos de dados disponíveis publicamente.

A ferramenta de pesquisa inclui filtros para limitar resultados com base em sua licença (gratuita ou paga), formato (csv, imagens, etc) e tempo de atualização.

Os resultados também incluem descrições do conteúdo do conjunto de dados, bem como citações de autores.

A metodologia de agregação de conjunto sdados do Google difere de outros repositórios de conjuntode dados, como o registro de dados abertos da Amazon. Ao contrário de outros repositórios que curam e hospedam os próprios conjuntos de dados, o Google não faz a curadoria ou fornece acesso direto diretamente aos 25 milhões de conjuntos de dados diretamente.

Em vez disso, o Google conta com os editores de conjunto de dados para usar os padrões abertos de schema.org para descrever os metadados de seus conjuntos de dados. O Google então indexa e torna esses metadados pesquisáveis entre os editores.

Uma vez que os editores ainda são obrigados a hospedar os próprios conjuntos de dados, editores com fins lucrativos que estejam em conformidade com schema.org padrões também terão seus conjuntos de dados indexados pelo Google. Na minha experiência anedótica, descobri que cerca de metade dos conjuntos de dados nos resultados de pesquisa eram de agregadores com fins lucrativos, com uma porcentagem ainda maior na busca por conjuntos de dados relacionados ao mercado.

Outros editores populares de conjuntos de dados na plataforma incluem agências governamentais e instituições de pesquisa. O Google afirma que as agências governamentais dos EUA publicaram apenas mais de 2 milhões de conjuntos de dados.

De acordo com o Google, a maioria dos conjuntos de dados está relacionada a “geociências, biologia e agricultura”.

Para publicar seus próprios conjuntos de dados, você pode simplesmente usar os padrões abertos de schema.org. O número de conjuntos de dados disponíveis publicamente provavelmente continuará crescendo à medida que mais editores se conformam com o padrão.

Neste momento, o Google não fornece uma API para pesquisar ou baixar os conjuntos de dados gratuitos.

Mais informações sobre o lançamento estão disponíveis no blog do Google.

FONTE: TOWARDS DATA SCIENCE

POSTS RELACIONADOS