Proporção de páginas dos sítios da Web Governamental Brasileira (.gov.br) de acordo com uma relação pré-definida de idiomas.
Obter informações da utilização de diferentes idiomas na Web Governamental Brasileira.
A metodologia de obtenção desse indicador consiste na análise de cada uma das páginas coletadas de modo à comparar seus conteúdos com dicionários de stop word (palavras comuns em um idioma) de algumas línguas pré-estabelecidas. Essa classificação consiste em contar o número de palavras que uma página tem de cada um dos idiomas e, aquele que tiver o maior número será considerado o idioma das páginas. Caso a página não possua palavras suficientes ou caso a diferença entre o número de palavras dos idiomas mais prováveis não seja suficiente para que se possa classificá-la, seu idioma é classificado como "outros".
Um resumo descritivo dos dados sobre idioma das páginas Web está apresentado em duas tabelas (C1-1 e C1-2). A distribuição de quatro idiomas pré-definidos (Português, Inglês, Espanhol, e Francês) nas páginas do domínio gov.br pode ser observada na Tabela C1-1. Cabe ressaltar que existe um grupo de páginas HTML para as quais não foi possível identificar o idioma a partir da técnica utilizada. Esse grupo corresponde a 5.277.504 (48,6% do total de páginas). A Tabela C1-2 apresenta a distribuição de idiomas por UF.
Tabela C1-1: Distribuição dos principais idiomas das páginas Web no domínio .gov.br.
Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|
5.586.439 | 97,4425 | 122.160 | 2,1308 | 22.266 | 0,3884 | 2.199 | 0,0384 |
Tabela C1-2: Distribuição dos principais idiomas das páginas Web no domínio .gov.br. por UF
UF | Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|---|
.GOV.BR | 1.409.627 | 94,9 | 59.232 | 3,99 | 14.856 | 1,0 | 1.592 | 0,11 |
.Outros | 1.140 | 71,34 | 327 | 20,46 | 97 | 6,07 | 34 | 2,13 |
AC | 16.377 | 98,21 | 297 | 1,78 | 1 | 0,01 | 0 | 0,0 |
AL | 198.968 | 99,66 | 648 | 0,32 | 34 | 0,02 | 2 | 0,0 |
AM | 28.063 | 98,16 | 510 | 1,78 | 10 | 0,04 | 7 | 0,02 |
AP | 16.542 | 99,99 | 1 | 0,01 | 0 | 0,0 | 0 | 0,0 |
BA | 226.729 | 97,53 | 5.618 | 2,42 | 129 | 0,06 | 1 | 0,0 |
CE | 143.311 | 98,79 | 1.684 | 1,16 | 45 | 0,03 | 30 | 0,02 |
DF | 113.241 | 99,11 | 960 | 0,84 | 0 | 0,0 | 59 | 0,05 |
ES | 57.439 | 99,25 | 405 | 0,7 | 28 | 0,05 | 2 | 0,0 |
GO | 96.648 | 97,26 | 2.707 | 2,72 | 12 | 0,01 | 7 | 0,01 |
MA | 33.805 | 99,52 | 153 | 0,45 | 11 | 0,03 | 0 | 0,0 |
MG | 443.143 | 97,76 | 9.403 | 2,07 | 725 | 0,16 | 14 | 0,0 |
MS | 70.005 | 99,25 | 520 | 0,74 | 4 | 0,01 | 2 | 0,0 |
MT | 242.885 | 99,33 | 690 | 0,28 | 859 | 0,35 | 87 | 0,04 |
PA | 116.682 | 91,54 | 10.565 | 8,29 | 52 | 0,04 | 163 | 0,13 |
PB | 46.915 | 98,6 | 660 | 1,39 | 6 | 0,01 | 1 | 0,0 |
PE | 98.967 | 99,96 | 30 | 0,03 | 9 | 0,01 | 0 | 0,0 |
PI | 29.330 | 98,97 | 303 | 1,02 | 0 | 0,0 | 1 | 0,0 |
PR | 351.805 | 98,82 | 3.341 | 0,94 | 831 | 0,23 | 16 | 0,0 |
RJ | 229.848 | 98,92 | 1.985 | 0,85 | 488 | 0,21 | 31 | 0,01 |
RN | 33.673 | 99,88 | 23 | 0,07 | 2 | 0,01 | 16 | 0,05 |
RO | 28.179 | 99,94 | 15 | 0,05 | 1 | 0,0 | 1 | 0,0 |
RR | 2.353 | 97,59 | 56 | 2,32 | 1 | 0,04 | 1 | 0,04 |
RS | 387.325 | 98,89 | 4.114 | 1,05 | 214 | 0,05 | 10 | 0,0 |
SC | 232.779 | 98,13 | 4.282 | 1,81 | 109 | 0,05 | 35 | 0,01 |
SE | 118.514 | 98,85 | 1.275 | 1,06 | 98 | 0,08 | 0 | 0,0 |
SP | 774.777 | 98,09 | 11.466 | 1,45 | 3.581 | 0,45 | 32 | 0,0 |
TO | 37.369 | 97,37 | 890 | 2,32 | 63 | 0,16 | 55 | 0,14 |
Inicialmente deve ser notado que esta análise fica prejudicada uma vez que para uma grande parte das páginas, cerca de 48,6%, o idioma não pode ser identificado devido à certas limitações da técnica utilizada pela ferramenta. Considerando as páginas nas quais foi possível a identificação, a grande maioria, 97,44%, está escrita em português. Isso era esperado por se tratar de um domínio cujo conteúdo é voltado a informar cidadãos brasileiros. Os demais idiomas possuem percentuais menores de páginas (Inglês, Espanhol e Francês). É importante verificar a razão do grande número de páginas para o qual o campo de linguagem não foi preenchido, buscando outras ferramentas que possam auxiliar na identificação do idioma de um maior volume de páginas. Mesmo assim, a ferramenta utilizada é eficiente na análise e consegue dar uma boa representação da utilização de idiomas estrangeiros nas páginas do governo.
Ao comparar estes resultados com a pesquisa anterior do Censo da Web Governamental Brasileira (2012), tem-se um cenário similar em termos da quantidade de páginas Web em que foi possível identificar o idioma, sendo agora possível para 51,4%. Comparando-se a distribuição por idiomas os percentuais são bem próximos: português passou de 97,25% para 97,44%; inglês era 2,29% e agora há 2,13% de páginas; espanhol estava presente em 0,44% das páginas e nesta edição em 0,39%; por fim, o francês estava em 0,0027% das paginas e agora esta em 0,038%. Portanto não ocorreu mudança significativa na distribuição de idiomas das páginas.