Visualização de Relatório




C1: Distribuição de idiomas das páginas Web (2013)



Definição do indicador


Proporção de páginas dos sítios da Web Governamental Brasileira (.gov.br) de acordo com uma relação pré-definida de idiomas.


Propósito


Obter informações da utilização de diferentes idiomas na Web Governamental Brasileira.


Metodologia


A metodologia de obtenção desse indicador consiste na análise de cada uma das páginas coletadas de modo à comparar seus conteúdos com dicionários de stop word (palavras comuns em um idioma) de algumas línguas pré-estabelecidas. Essa classificação consiste em contar o número de palavras que uma página tem de cada um dos idiomas e, aquele que tiver o maior número será considerado o idioma das páginas. Caso a página não possua palavras suficientes ou caso a diferença entre o número de palavras dos idiomas mais prováveis não seja suficiente para que se possa classificá-la, seu idioma é classificado como "outros".


Apresentação dos resultados


Um resumo descritivo dos dados sobre idioma das páginas Web está apresentado em duas tabelas (C1-1 e C1-2). A distribuição de quatro idiomas pré-definidos (Português, Inglês, Espanhol, e Francês) nas páginas do domínio gov.br pode ser observada na Tabela C1-1. Cabe ressaltar que existe um grupo de páginas HTML para as quais não foi possível identificar o idioma a partir da técnica utilizada. Esse grupo corresponde a 5.277.504 (48,6% do total de páginas). A Tabela C1-2 apresenta a distribuição de idiomas por UF.


Tabela C1-1: Distribuição dos principais idiomas das páginas Web no domínio .gov.br.



Português % Português Inglês % Inglês Espanhol % Espanhol Francês % Francês


Tabela C1-2: Distribuição dos principais idiomas das páginas Web no domínio .gov.br. por UF



UF Português % Português Inglês % Inglês Espanhol % Espanhol Francês % Francês


Análise


Inicialmente deve ser notado que esta análise fica prejudicada uma vez que para uma grande parte das páginas, cerca de 48,6%, o idioma não pode ser identificado devido à certas limitações da técnica utilizada pela ferramenta. Considerando as páginas nas quais foi possível a identificação, a grande maioria, 97,44%, está escrita em português. Isso era esperado por se tratar de um domínio cujo conteúdo é voltado a informar cidadãos brasileiros. Os demais idiomas possuem percentuais menores de páginas (Inglês, Espanhol e Francês). É importante verificar a razão do grande número de páginas para o qual o campo de linguagem não foi preenchido, buscando outras ferramentas que possam auxiliar na identificação do idioma de um maior volume de páginas. Mesmo assim, a ferramenta utilizada é eficiente na análise e consegue dar uma boa representação da utilização de idiomas estrangeiros nas páginas do governo.


Análise Comparativa com estudo anterior e considerações


Ao comparar estes resultados com a pesquisa anterior do Censo da Web Governamental Brasileira (2012), tem-se um cenário similar em termos da quantidade de páginas Web em que foi possível identificar o idioma, sendo agora possível para 51,4%. Comparando-se a distribuição por idiomas os percentuais são bem próximos: português passou de 97,25% para 97,44%; inglês era 2,29% e agora há 2,13% de páginas; espanhol estava presente em 0,44% das páginas e nesta edição em 0,39%; por fim, o francês estava em 0,0027% das paginas e agora esta em 0,038%. Portanto não ocorreu mudança significativa na distribuição de idiomas das páginas.