Nos meus últimos dias como membro da equipe do W3C * , gostaria de registrar algumas considerações sobre o que vejo como possíveis direções futuras nas áreas em que me envolvi mais intimamente, particularmente desde que assumi o 'Data brief', há 4 anos.
Fundamentos
As Boas Práticas de Dados na Web (DWBP), que se tornaram uma recomendação em janeiro deste ano, formam a base dos padrões de Dados na Web. Como destaquei na ocasião, as Boas Práticas estabelecem as etapas que qualquer pessoa deve seguir ao compartilhar dados na Web, sejam dados abertos ou não, incentivando o compartilhamento de informações reais, e não apenas informações sobre onde um conjunto de dados pode ser baixado. Uma extensão específica do domínio Dados são as Boas Práticas de Dados Espaciais nas Web, que está praticamente pronta. Assim como o DWBP, a ênfase é disponibilizar os dados diretamente na Web para que, por exemplo, os mecanismos de pesquisa possam encontrá-los diretamente e não apenas apontar para uma página de destino de onde um conjunto de dados possa ser baixado - o que eu chamo de usar a Web como um pen-drive admirável..
Dados espaciais
Esse documento de boas práticas especializado é um produto do Grupo de Trabalho Dados Espaciais na Web, no qual colaboramos com a nossa organização irmã, o Open Geospatial Consortium, para criar conjuntamente os padrões. Planos estão sendo estabelecidos para termos uma relação de longo prazo, que traz possibilidades muito animadoras nas área de , Realidade Virtual, Web das Coisas, Building Information Models, Earth Observations e um documento de boas práticas que examina dados estatísticos.
Dados de pesquisa
Outra área em que eu espero muito que o W3C trabalhe em estreita colaboração com outras instituições é a de dados de pesquisa: ciências da vida, astronomia, oceanografia, geologia, cristalografia e muitas outras. Com apoio do projeto VRE4EIC , o Grupo de Trabalho Dataset Exchange nasceu desta área em e está proporcionando conversas bem interessantes com outras organizações, como Research Data Alliance , CODATA e até mesmo a ONU. Sendo um complemento aos interesses dos governos na disponibilização de dados. Ambas as comunidades estão fortemente representadas no Grupo de Trabalho DXWG que, de acordo com o seu estatuto, fará grandes melhorias na interoperabilidade em diferentes domínios e comunidades.
Dados Conectados
The Gartner Hype Cycle. CC: BY-SA Jeremykemp na Wikipedia em inglês
O uso de dados conectados continua a crescer. Se aceitarmos o Ciclo Hype do Gartner como modelo, então acredito que, seguindo o Trough of Disillusionment, estamos bem na Slope of Illumination. Eu vejo isso usado particularmente em ciências ambientais e de vida, dados do governo e patrimônio cultural. Ou seja, é amplamente utilizado como meio de compartilhar e consumir dados em departamentos e disciplinas. No entanto, seria bobo sugerir que a maioria dos desenvolvedores Web esteja construindo seus aplicativos nos endpoints do SPARQL. Além disso, é verdade que se você criar um endpoint de SPARQL completo disponível de forma aberta, então é relativamente fácil que se escreva uma consulta computacionalmente poderosa que faça com que o sistema caia. É por isso que a BBC, a OpenPHACTS e outras instituições não disponibilizam publicamente endpoints de SPARQL. Você faria sua interface SQL disponível abertamente? Em vez disso, eles fornecem uma API simples que executa consultas em background. No caso da BBC, mesmo a API não é pública, mas enriquece muitos conteúdos em seu site.
O lado positivo desta abordagem é que, pot meio dessas APIs, é fácil acessar dados integrados de alto valor como objetos JSON para desenvolvedores. Do ponto de vista do publicador de conteúdo, a API é mais estável e confiável. O inconveniente é que as pessoas não vêem e, portanto, não reconhecem a infra-estrutura de Dados Conectados por trás da API, permitindo o questionamento contínuo do valor da tecnologia.
Web Semântica, IA e Aprendizado de Máquina
As principais especificações de Web Semântica foram atualizadas no início de 2014 e não há planos para revisar as especificações RDF e OWL do núcleo em breve. No entanto, isso não significa que ainda não há coisas para fazer.
Uma especificação que pode ser atualizada em breve é JSON-LD. O community group continuou a desenvolver as especificações desde que foi formalmente publicada como uma Recomendação e agora gostaria de submeter essas novas especificações para o processo de recomendação. Enquanto isso a linguagem SHACL passou por uma jornada difícil, mas agora está em Proposed Rec, atraindo interesse e gerando implementações.
Mas, o que eu ouço da comunidade é que a "próxima coisa" mais urgente para a Web Semântica deve ser o que eu chamo de "triplas anotadas". RDF é muito ruim ao descrever e refletir a mudança: alguém muda de emprego, um ingresso de um show não é mais válida, a temperatura média global é agora y, não x, e assim por diante. Além disso, nem todos os "fatos" são afirmados com igual confiança. Processamento de linguagem natural, por exemplo, pode reconhecer um "fato" dentro de um texto com apenas 75% de certeza.
É perfeitamente possível expressar estes fatos utilizando named graphs, no entanto, nas palestras que dei recentemente, onde mencionei isso, inclusive para o time que está por trás do Alexa da Amazon, tem sido forte o suporte para a idéia de uma sintaxe que permita cada tupla ser ser estendida com 'validFrom', validTo e 'probabilidade'. Outras possíveis anotações podem estar relacionadas a privacidade, proveniência e muito mais. Tais anotações podem ser semanticamente equivalentes a criar e anotar um grafo nomeado, e RDF 1.1 percorre um longo caminho nesta direção, mas recebi uma boa quantidade de evidências de que uma sintaxe simples pode ser muito mais fácil de processar. Isso é muito relevante em áreas como Inteligência Artificial, deep learning e análise estatística.
Eses tópicos foram discutidos recentemente no congresso ESWC e espero muito que haja um workshop do W3C no próximo ano, talvez levando a um novo GT. Uma proposta de projeto foi recentemente submetida à Comissão Europeia.
Outro possível trabalho futuro na Web Semântica inclui um vocabulário comum para compartilhar os resultados da análise de dados, processamento de linguagem natural, etc. O Formato de Intercâmbio de Linguagem Natural , por exemplo, pode ser facilmente padronizado através do processo de recomendação.
Vocabularios e schema.org
Os vocabulários comuns, mantidos pelas comunidades, são uma parte essencial da interoperabilidade. Quer se trate de pesquisadores, governos ou empresas, a manutenção melhor e mais fácil de vocabulários e uma abordagem mais uniforme para compartilhar mapeamentos, crosswalks e linksets, devem ser uma prioridade. Internamente, pelo menos, reconhecemos há anos que o W3C precisa ser melhor nisso. O que não é tão conhecido é que podemos fazer muito agora. Os Grupos da Comunidade (community groups) são uma ótima maneira de reunir um grupo de pessoas e trabalhar em seu novo esquema e, se você quiser, você pode até ter um www.w3.org/ns (diretamente ou via redirecionamento). Mais uma vez, por meio de um projeto financiado pela UE, o W3C vai melhorar isso.
O W3C continuará a apoiar o desenvolvimento do schema.org que está transformando a quantidade de dados estruturados incorporados nas páginas da Web. Se você quiser desenvolver uma extensão para schema.org, um community group. A lista public-vocabs@w3.org é um ótimo começo.
Resumo
Para resumir, minhas prioridades pessoais para o W3C em relação aos dados são:
- Continuar e aprofundar o relacionamento com o OGC para uma melhor interoperabilidade entre a Web e os sistemas de informação geoespacial.
- Desenvolver uma relação similarmente profunda com a comunidade de pesquisa.
- Explora a noção de anotações de triplas RDF, como fatores temporais e probabilísticos.
- Melhorar o suporte ao desenvolvimento e suporte de vocabulários.
- Continuar a promover a abordagem Linked Data e Web Semântica para a integração de dados.
Eu estarei acompanhando ...
A partir de 1 de julho, estarei na GS1 , trabalhando na melhoria do uso do mundo varejista na Web. Mantenha contato através do meu site pessoal e @ philarcher1 .