Proporção de páginas dos sítios da Web Governamental Brasileira (.gov.br) de acordo com uma relação pré-definida de idiomas.
Obter informações da utilização de diferentes idiomas na Web Governamental Brasileira.
A metodologia de obtenção desse indicador consiste na análise de cada uma das páginas coletadas de modo à comparar seus conteúdos com dicionários de stop word (palavras comuns em um idioma) de algumas línguas pré-estabelecidas. Essa classificação consiste em contar o número de palavras que uma página tem de cada um dos idiomas e, aquele que tiver o maior número será considerado o idioma das páginas. Caso a página não possua palavras suficientes ou caso a diferença entre o número de palavras dos idiomas mais prováveis não seja suficiente para que se possa classificá-la, seu idioma é classificado como "outros".
Um resumo descritivo dos dados sobre idioma das páginas Web está apresentado em duas tabelas (C1-1 e C1-2). A distribuição de quatro idiomas pré-definidos (Português, Inglês, Espanhol, e Francês) nas páginas do domínio gov.br pode ser observada na Tabela C1-1. Cabe ressaltar que existe um grupo de páginas HTML para as quais não foi possível identificar o idioma a partir da técnica utilizada. Esse grupo corresponde a 3.297.589 (47,98% do total de páginas). A Tabela C1-2 apresenta a distribuição de idiomas por UF.
Tabela C1-1: Distribuição dos principais idiomas das páginas Web no domínio .gov.br.
Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|
3.478.879 | 97,25 | 81.795 | 2,29 | 15.683 | 0,44 | 980 | 0,03 |
Tabela C1-2: Distribuição dos principais idiomas das páginas Web no domínio .gov.br. por UF
UF | Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|---|
.GOV.BR | 881.737 | 93,71 | 48.982 | 5,21 | 9.575 | 1,02 | 621 | 0,07 |
.outros | 680 | 73,91 | 180 | 19,57 | 50 | 5,43 | 10 | 1,09 |
AC | 17.513 | 99,58 | 6 | 0,03 | 68 | 0,39 | 0 | 0,0 |
AL | 131.585 | 98,53 | 1.959 | 1,47 | 9 | 0,01 | 0 | 0,0 |
AM | 11.491 | 97,27 | 315 | 2,67 | 0 | 0,0 | 8 | 0,07 |
AP | 11.081 | 99,95 | 4 | 0,04 | 1 | 0,01 | 0 | 0,0 |
BA | 151.533 | 97,82 | 3.348 | 2,16 | 29 | 0,02 | 2 | 0,0 |
CE | 99.565 | 99,08 | 877 | 0,87 | 8 | 0,01 | 35 | 0,03 |
DF | 65.549 | 99,12 | 503 | 0,76 | 1 | 0,0 | 78 | 0,12 |
ES | 21.021 | 98,22 | 338 | 1,58 | 42 | 0,2 | 1 | 0,0 |
GO | 39.636 | 99,79 | 80 | 0,2 | 3 | 0,01 | 0 | 0,0 |
MA | 28.501 | 98,7 | 373 | 1,29 | 0 | 0,0 | 3 | 0,01 |
MG | 277.947 | 95,78 | 10.648 | 3,67 | 1.587 | 0,55 | 22 | 0,01 |
MS | 41.664 | 99,18 | 344 | 0,82 | 0 | 0,0 | 0 | 0,0 |
MT | 189.219 | 99,78 | 370 | 0,2 | 37 | 0,02 | 9 | 0,0 |
PA | 63.164 | 99,36 | 290 | 0,46 | 106 | 0,17 | 8 | 0,01 |
PB | 22.782 | 98,44 | 360 | 1,56 | 0 | 0,0 | 0 | 0,0 |
PE | 47.598 | 99,83 | 81 | 0,17 | 2 | 0,0 | 0 | 0,0 |
PI | 29.164 | 99,97 | 8 | 0,03 | 0 | 0,0 | 1 | 0,0 |
PR | 247.038 | 99,41 | 1.039 | 0,42 | 409 | 0,16 | 9 | 0,0 |
RJ | 156.487 | 98,96 | 1.159 | 0,73 | 465 | 0,29 | 20 | 0,01 |
RN | 12.514 | 87,24 | 1.829 | 12,75 | 1 | 0,01 | 1 | 0,01 |
RO | 26.644 | 99,98 | 5 | 0,02 | 1 | 0,0 | 0 | 0,0 |
RR | 555 | 99,82 | 1 | 0,18 | 0 | 0,0 | 0 | 0,0 |
RS | 203.444 | 99,41 | 1.068 | 0,52 | 139 | 0,07 | 7 | 0,0 |
SC | 141.034 | 98,62 | 1.835 | 1,28 | 107 | 0,07 | 32 | 0,02 |
SE | 85.436 | 99,08 | 744 | 0,86 | 45 | 0,05 | 1 | 0,0 |
SP | 453.785 | 98,33 | 4.676 | 1,01 | 2.950 | 0,64 | 63 | 0,01 |
TO | 20.512 | 97,76 | 373 | 1,78 | 48 | 0,23 | 49 | 0,23 |
Inicialmente deve ser notado que esta análise fica prejudicada uma vez que para uma grande parte das páginas, cerca de 48%, o idioma não pode ser identificado devido à certas limitações da técnica utilizada pela ferramenta. Considerando as páginas nas quais foi possível a identificação, a grande maioria, 97,25%, está escrita em português. Isso era esperado por se tratar de um domínio cujo conteúdo é voltado a informar cidadãos brasileiros. Os demais idiomas possuem percentuais menores de páginas (Inglês, Espanhol e Francês). É importante verificar a razão do grande número de páginas para o qual o campo de linguagem não foi preenchido, buscando outras ferramentas que possam auxiliar na identificação do idioma de um maior volume de páginas. Mesmo assim, a ferramenta utilizada é eficiente na análise e consegue dar uma boa representação da utilização de idiomas estrangeiros nas páginas do governo.
Ao comparar estes resultados com a pesquisa anterior do Censo da Web Governamental Brasileira (2010), tem-se um cenário similar. A análise anterior havia identificado o idioma de 47,8% das páginas Web. Comparando-se a distribuição por idiomas os percentuais são bem próximos: português passou de 97,05% para 97,25%; inglês era 2,54% e agora há 2,29% de páginas; espanhol estava presente em 0,33% das páginas e nesta edição em 0,44%; por fim, o francês estava em 0,08% das paginas e agora esta em 0,027%.