Proporção de páginas dos sítios da Web Governamental Brasileira (.gov.br) de acordo com uma relação pré-definida de idiomas.
Obter informações da utilização de diferentes idiomas na Web Governamental Brasileira.
A metodologia de obtenção desse indicador consiste na análise de cada uma das páginas coletadas de modo à comparar seus conteúdos com dicionários de stop word (palavras comuns em um idioma) de algumas línguas pré-estabelecidas. Essa classificação consiste em contar o número de palavras que uma página tem de cada um dos idiomas e, aquele que tiver o maior número será considerado o idioma das páginas. Caso a página não possua palavras suficientes ou caso a diferença entre o número de palavras dos idiomas mais prováveis não seja suficiente para que se possa classificá-la, seu idioma é classificado como "outros".
Tabela C1-1: Distribuição dos principais idiomas das páginas Web no domínio .gov.br.
Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|
153.284 | 30,6546 | 70.075 | 14,014 | 5.862 | 1,1723 | 0 | 0,0 |
Um resumo descritivo dos dados sobre idioma das páginas Web está apresentado em duas tabelas (C1-1 e C1-2). A distribuição de quatro idiomas pré-definidos (Português, Inglês, Espanhol, e Francês) nas páginas do domínio gov.br pode ser observada na Tabela C1-1. Cabe ressaltar que existe um grupo de páginas HTML para as quais não foi possível identificar o idioma a partir da técnica utilizada. Esse grupo corresponde a 5.277.504 (48,6% do total de páginas). A Tabela C1-2 apresenta a distribuição de idiomas por UF.
Tabela C1-2: Distribuição dos principais idiomas das páginas Web no domínio .gov.br. por UF
UF | Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|---|
.GOV.BR | 59.183 | 36,53 | 20.038 | 12,37 | 2.905 | 1,79 | 0 | 0,0 |
.Outros | 41 | 36,61 | 9 | 8,04 | 0 | 0,0 | 0 | 0,0 |
AC | 1.129 | 57,31 | 502 | 25,48 | 26 | 1,32 | 0 | 0,0 |
AL | 1.672 | 30,35 | 817 | 14,83 | 80 | 1,45 | 0 | 0,0 |
AM | 1.337 | 37,72 | 401 | 11,31 | 4 | 0,11 | 0 | 0,0 |
AP | 1.290 | 28,09 | 806 | 17,55 | 63 | 1,37 | 0 | 0,0 |
BA | 5.404 | 31,62 | 2.298 | 13,45 | 67 | 0,39 | 0 | 0,0 |
CE | 3.044 | 33,53 | 332 | 3,66 | 76 | 0,84 | 0 | 0,0 |
DF | 191 | 54,11 | 36 | 10,2 | 3 | 0,85 | 0 | 0,0 |
ES | 4.344 | 34,16 | 6.135 | 48,25 | 64 | 0,5 | 0 | 0,0 |
GO | 2.686 | 58,58 | 189 | 4,12 | 84 | 1,83 | 0 | 0,0 |
MA | 322 | 50,95 | 148 | 23,42 | 2 | 0,32 | 0 | 0,0 |
MG | 7.117 | 24,28 | 5.297 | 18,07 | 189 | 0,64 | 0 | 0,0 |
MS | 900 | 33,67 | 81 | 3,03 | 3 | 0,11 | 0 | 0,0 |
MT | 2.134 | 18,14 | 411 | 3,49 | 12 | 0,1 | 0 | 0,0 |
PA | 267 | 3,61 | 611 | 8,26 | 72 | 0,97 | 0 | 0,0 |
PB | 8.946 | 54,08 | 2.407 | 14,55 | 200 | 1,21 | 0 | 0,0 |
PE | 1.524 | 32,47 | 131 | 2,79 | 30 | 0,64 | 0 | 0,0 |
PI | 19 | 11,45 | 5 | 3,01 | 1 | 0,6 | 0 | 0,0 |
PR | 10.739 | 45,94 | 4.544 | 19,44 | 140 | 0,6 | 0 | 0,0 |
RJ | 1.405 | 11,69 | 1.835 | 15,26 | 126 | 1,05 | 0 | 0,0 |
RN | 644 | 71,08 | 11 | 1,21 | 10 | 1,1 | 0 | 0,0 |
RO | 2.438 | 9,83 | 610 | 2,46 | 30 | 0,12 | 0 | 0,0 |
RR | 144 | 5,5 | 9 | 0,34 | 9 | 0,34 | 0 | 0,0 |
RS | 3.926 | 12,95 | 7.846 | 25,89 | 543 | 1,79 | 0 | 0,0 |
SC | 3.759 | 21,45 | 1.588 | 9,06 | 126 | 0,72 | 0 | 0,0 |
SE | 4.104 | 52,28 | 2.777 | 35,38 | 46 | 0,59 | 0 | 0,0 |
SP | 20.992 | 25,99 | 9.740 | 12,06 | 897 | 1,11 | 0 | 0,0 |
TO | 3.583 | 70,23 | 461 | 9,04 | 54 | 1,06 | 0 | 0,0 |
Inicialmente deve ser notado que esta análise fica prejudicada uma vez que para uma grande parte das páginas, cerca de 48,6%, o idioma não pode ser identificado devido à certas limitações da técnica utilizada pela ferramenta. Considerando as páginas nas quais foi possível a identificação, a grande maioria, 97,44%, está escrita em português. Isso era esperado por se tratar de um domínio cujo conteúdo é voltado a informar cidadãos brasileiros. Os demais idiomas possuem percentuais menores de páginas (Inglês, Espanhol e Francês). É importante verificar a razão do grande número de páginas para o qual o campo de linguagem não foi preenchido, buscando outras ferramentas que possam auxiliar na identificação do idioma de um maior volume de páginas. Mesmo assim, a ferramenta utilizada é eficiente na análise e consegue dar uma boa representação da utilização de idiomas estrangeiros nas páginas do governo.
Ao comparar estes resultados com a pesquisa anterior do Censo da Web Governamental Brasileira (2012), tem-se um cenário similar em termos da quantidade de páginas Web em que foi possível identificar o idioma, sendo agora possível para 51,4%. Comparando-se a distribuição por idiomas os percentuais são bem próximos: português passou de 97,25% para 97,44%; inglês era 2,29% e agora há 2,13% de páginas; espanhol estava presente em 0,44% das páginas e nesta edição em 0,39%; por fim, o francês estava em 0,0027% das paginas e agora esta em 0,038%. Portanto não ocorreu mudança significativa na distribuição de idiomas das páginas.