robots.txt para Gemini

Introdução

Descreve-se, em seguida, uma adaptação para o Gemini do mecanismo padrão da web robots.txt, que é usado para controlar o acesso aos recursos efetuado por clientes automatizados (doravante "bots").

Os administradores de um servidor Gemini podem usar o robots.txt para anunciar a política de bot desejada, e devem fazê-lo num formato que seja legível por uma máquina.

Os autores de clientes Gemini automatizados (como, por exemplo, rastreadores de motores de pesquisa, web proxies, etc.) são fortemente encorajados a verificar essas políticas e a cumpri-las, quando for aplicável.

Os administradores de um servidor devem estar cientes que é impossível *obrigar* a que a política de robots.txt seja, de facto, cumprida, motivo pelo qual devem estar preparados para usar regras de firewall que bloqueiem o acesso de bots que manifestem um comportamento inadequado. O mesmo é válido para o Gemini e para a web.

Noções fundamentais

Os administradores de um servidor Gemini devem disponibilizar a sua política de bots no URL relativo /robots.txt. Exemplo: o servidor example.net deve disponibilizar a sua política em gemini://example.net/robots.txt.

O ficheiro robots.txt deve ser codificado com um tipo de media MIME de text/plain.

O formato do ficheiro deverá obedecer à especificação original do robots.txt para a web, ou seja:

As linhas que começam por # são comentários

As linhas que começam por "User-agent:" indicam um agente de utilizador ao qual as linhas subsequentes se aplicam

Linhas que começam com "Disallow:" indicam prefixos de caminho de URL que os bots não devem solicitar

Todas as outras linhas devem ser ignoradas

A única diferença significativa entre o robots.txt da web e o robots.txt do Gemini, e uma vez que os administradores do Gemini não conseguem saber facilmente que bots estão a aceder ao seu site e o motivo porque o fazem (porque os clientes Gemini não enviam um User-agent), é o facto dos bots no Gemini serem incentivados a obedecer às diretrizes de "virtual user agents", de acordo com a sua finalidade/função. As diretrizes em causa estão descritas neste documento, já a seguir.

Apesar dessa diferença, os bots no Gemini devem respeitar as diretivas do robots.txt relativas a um User-agent de * e podem, igualmente, respeitar as diretivas destinadas ao seu próprio User-agent, anunciadas, em destaque, na página Gemini de quaisquer serviços públicos que providenciem.

Virtual User Agents (Agentes virtuais de utiizador)

Descrever-se-ão agora as definições dos vários "virtual user agents", correspondendo cada um a uma categoria comum de bot. Os bots Gemini devem respeitar as diretivas destinadas ao virtual user agent específico que se adapte à sua natureza. Obviamente, é impossível chegar a definições perfeitas para os virtual user agents, que sejam capazes de categorizar inequivocamente os bots. Os autores de bots são encorajados, por precaução, a errar por excesso, seguindo o "espírito do sistema" em vez do "espírito da letra". Se um bot cumprir os critérios definidos em vários virtual user agents e não for capaz de adaptar o seu comportamento com parcimónia, ele deverá obedecer ao conjunto mais restritivo de diretivas que decorram da combinação de todos os virtual user agents aplicáveis.

Rastreadores de catalogação

Os bots do Gemini que pesquisem conteúdo destinado à construção de catálogos públicos perenes do Geminispace, com o objetivo de continuar a disponibilizar esse conteúdo mesmo depois da fonte original ter mudado ou desaparecido (uma situação análoga ao que se passa com o "Wayback Machine" do archive.org), devem respeitar as diretivas mencionadas em robots.txt destinadas a um User-agent de "archiver".

Rastreadores de indexação

Os bots do Gemini que pesquisem conteúdo destinado à construção de índices pesquisáveis do Geminispace devem respeitar as diretivas mencionadas em robots.txt destinadas a um User-agent de "indexer".

Rastreadores de pesquisa

Os bots de Gemini que pesquisem conteúdo destinado ao estudo de dados estatísticos em larga escala (por exemplo, número de domínios/páginas, distribuição de tipos de media MIME, tamanhos de resposta, versões de TLS, frequência de links quebrados, etc.), que não façam rehosting, que não possuam links para outras páginas ou que não permitam a pesquisa de qualquer conteúdo pesquisado, devem respeitar as diretivas mencionadas em robots.txt destinadas a um User-agent de "researcher".

Web Proxies

Os bots Gemini que pesquisem conteúdo destinado a ser convertido em HTML para ser disponibilizado por HTTP (S) (a fim de tornar o Geminispace acessível a partir de um navegador da web padrão) devem respeitar as diretivas mencionadas em robots.txt destinadas a um User-agent de "webproxy".

/docs/pt-PT/complementar/