Proporção de páginas dos sítios da Web Governamental Brasileira (.gov.br) de acordo com uma relação pré-definida de idiomas.
Obter informações da utilização de diferentes idiomas na Web Governamental Brasileira.
A metodologia de obtenção desse indicador consiste na análise de cada uma das páginas coletadas de modo à comparar seus conteúdos com dicionários de stop word (palavras comuns em um idioma) de algumas línguas pré-estabelecidas. Essa classificação consiste em contar o número de palavras que uma página tem de cada um dos idiomas e, aquele que tiver o maior número será considerado o idioma das páginas. Caso a página não possua palavras suficientes ou caso a diferença entre o número de palavras dos idiomas mais prováveis não seja suficiente para que se possa classificá-la, seu idioma é classificado como "outros".
Um resumo descritivo dos dados sobre idioma das páginas Web está apresentado em duas tabelas (C1-1 e C1-2). A distribuição de quatro idiomas pré-definidos (Português, Inglês, Espanhol, e Francês) nas páginas do domínio gov.br pode ser observada na Tabela C1-1. Cabe ressaltar que existe um grupo de páginas HTML para as quais não foi possível identificar o idioma a partir da técnica utilizada. Esse grupo corresponde a 5.277.504 (48,6% do total de páginas). A Tabela C1-2 apresenta a distribuição de idiomas por UF.
Tabela C1-1: Distribuição dos principais idiomas das páginas Web no domínio .gov.br.
Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|
4.910.521 | 98,2461 | 70.624 | 1,413 | 9.696 | 0,194 | 7.343 | 0,1469 |
Tabela C1-2: Distribuição dos principais idiomas das páginas Web no domínio .gov.br. por UF
UF | Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|---|
.GOV.BR | 974.452 | 96,7 | 27.726 | 2,75 | 5.374 | 0,53 | 124 | 0,01 |
.Outros | 2.704 | 97,58 | 50 | 1,8 | 16 | 0,58 | 1 | 0,04 |
AC | 9.988 | 98,71 | 131 | 1,29 | 0 | 0,0 | 0 | 0,0 |
AL | 126.313 | 99,48 | 619 | 0,49 | 37 | 0,03 | 1 | 0,0 |
AM | 26.078 | 95,2 | 1.286 | 4,69 | 23 | 0,08 | 7 | 0,03 |
AP | 12.998 | 97,58 | 322 | 2,42 | 1 | 0,01 | 0 | 0,0 |
BA | 168.622 | 97,25 | 4.749 | 2,74 | 12 | 0,01 | 5 | 0,0 |
CE | 130.478 | 98,87 | 1.461 | 1,11 | 10 | 0,01 | 19 | 0,01 |
DF | 88.844 | 96,18 | 3.463 | 3,75 | 60 | 0,07 | 2 | 0,0 |
ES | 51.723 | 98,3 | 582 | 1,11 | 312 | 0,59 | 3 | 0,01 |
GO | 169.397 | 99,16 | 1.437 | 0,84 | 1 | 0,0 | 1 | 0,0 |
MA | 29.084 | 99,17 | 234 | 0,8 | 2 | 0,01 | 6 | 0,02 |
MG | 493.475 | 98,9 | 4.263 | 0,85 | 1.150 | 0,23 | 72 | 0,01 |
MS | 53.156 | 96,96 | 1.634 | 2,98 | 28 | 0,05 | 2 | 0,0 |
MT | 156.429 | 99,46 | 793 | 0,5 | 40 | 0,03 | 9 | 0,01 |
PA | 30.870 | 95,37 | 1.390 | 4,29 | 31 | 0,1 | 79 | 0,24 |
PB | 66.356 | 99,64 | 243 | 0,36 | 0 | 0,0 | 0 | 0,0 |
PE | 98.021 | 97,6 | 2.399 | 2,39 | 4 | 0,0 | 3 | 0,0 |
PI | 22.683 | 99,95 | 11 | 0,05 | 0 | 0,0 | 0 | 0,0 |
PR | 260.907 | 99,38 | 1.402 | 0,53 | 212 | 0,08 | 18 | 0,01 |
RJ | 225.521 | 98,85 | 2.535 | 1,11 | 42 | 0,02 | 43 | 0,02 |
RN | 23.553 | 99,73 | 47 | 0,2 | 1 | 0,0 | 16 | 0,07 |
RO | 17.392 | 99,41 | 100 | 0,57 | 4 | 0,02 | 0 | 0,0 |
RR | 7.899 | 96,69 | 270 | 3,31 | 0 | 0,0 | 0 | 0,0 |
RS | 376.480 | 96,75 | 4.117 | 1,06 | 1.853 | 0,48 | 6.696 | 1,72 |
SC | 380.787 | 99,13 | 3.254 | 0,85 | 59 | 0,02 | 30 | 0,01 |
SE | 77.300 | 98,51 | 1.143 | 1,46 | 26 | 0,03 | 0 | 0,0 |
SP | 692.751 | 99,21 | 4.912 | 0,7 | 397 | 0,06 | 206 | 0,03 |
TO | 136.260 | 99,96 | 51 | 0,04 | 1 | 0,0 | 0 | 0,0 |
Inicialmente deve ser notado que esta análise fica prejudicada uma vez que para uma grande parte das páginas, cerca de 48,6%, o idioma não pode ser identificado devido à certas limitações da técnica utilizada pela ferramenta. Considerando as páginas nas quais foi possível a identificação, a grande maioria, 97,44%, está escrita em português. Isso era esperado por se tratar de um domínio cujo conteúdo é voltado a informar cidadãos brasileiros. Os demais idiomas possuem percentuais menores de páginas (Inglês, Espanhol e Francês). É importante verificar a razão do grande número de páginas para o qual o campo de linguagem não foi preenchido, buscando outras ferramentas que possam auxiliar na identificação do idioma de um maior volume de páginas. Mesmo assim, a ferramenta utilizada é eficiente na análise e consegue dar uma boa representação da utilização de idiomas estrangeiros nas páginas do governo.
Ao comparar estes resultados com a pesquisa anterior do Censo da Web Governamental Brasileira (2012), tem-se um cenário similar em termos da quantidade de páginas Web em que foi possível identificar o idioma, sendo agora possível para 51,4%. Comparando-se a distribuição por idiomas os percentuais são bem próximos: português passou de 97,25% para 97,44%; inglês era 2,29% e agora há 2,13% de páginas; espanhol estava presente em 0,44% das páginas e nesta edição em 0,39%; por fim, o francês estava em 0,0027% das paginas e agora esta em 0,038%. Portanto não ocorreu mudança significativa na distribuição de idiomas das páginas.