Proporção de páginas dos sítios da Web Governamental Brasileira (.gov.br) de acordo com uma relação pré-definida de idiomas.
Obter informações da utilização de diferentes idiomas na Web Governamental Brasileira.
A metodologia de obtenção desse indicador consiste na análise de cada uma das páginas coletadas de modo à comparar seus conteúdos com dicionários de stop word (palavras comuns em um idioma) de algumas línguas pré-estabelecidas. Essa classificação consiste em contar o número de palavras que uma página tem de cada um dos idiomas e, aquele que tiver o maior número será considerado o idioma das páginas. Caso a página não possua palavras suficientes ou caso a diferença entre o número de palavras dos idiomas mais prováveis não seja suficiente para que se possa classificá-la, seu idioma é classificado como "outros".
Um resumo descritivo dos dados sobre idioma das páginas Web está apresentado em duas tabelas (C1-1 e C1-2). A distribuição de quatro idiomas pré-definidos (Português, Inglês, Espanhol, e Francês) nas páginas do domínio gov.br pode ser observada na Tabela C1-1. Cabe ressaltar que existe um grupo de páginas HTML para as quais não foi possível identificar o idioma a partir da técnica utilizada. Esse grupo corresponde a 5.277.504 (48,6% do total de páginas). A Tabela C1-2 apresenta a distribuição de idiomas por UF.
Tabela C1-1: Distribuição dos principais idiomas das páginas Web no domínio .gov.br.
Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|
3.857.933 | 97,7388 | 74.187 | 1,8795 | 14.222 | 0,3603 | 843 | 0,0214 |
Tabela C1-2: Distribuição dos principais idiomas das páginas Web no domínio .gov.br. por UF
UF | Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|---|
.GOV.BR | 842.416 | 94,22 | 39.996 | 4,47 | 11.463 | 1,28 | 239 | 0,03 |
.Outros | 1.454 | 79,67 | 350 | 19,18 | 17 | 0,93 | 4 | 0,22 |
AC | 7.674 | 98,36 | 127 | 1,63 | 1 | 0,01 | 0 | 0,0 |
AL | 116.653 | 99,89 | 109 | 0,09 | 16 | 0,01 | 1 | 0,0 |
AM | 39.547 | 96,37 | 1.452 | 3,54 | 30 | 0,07 | 7 | 0,02 |
AP | 15.011 | 99,99 | 0 | 0,0 | 1 | 0,01 | 1 | 0,01 |
BA | 150.529 | 96,06 | 6.101 | 3,89 | 44 | 0,03 | 35 | 0,02 |
CE | 59.658 | 99,0 | 578 | 0,96 | 2 | 0,0 | 22 | 0,04 |
DF | 95.229 | 96,32 | 3.576 | 3,62 | 52 | 0,05 | 11 | 0,01 |
ES | 27.113 | 99,18 | 204 | 0,75 | 19 | 0,07 | 0 | 0,0 |
GO | 90.666 | 98,94 | 971 | 1,06 | 4 | 0,0 | 0 | 0,0 |
MA | 22.358 | 97,94 | 416 | 1,82 | 52 | 0,23 | 2 | 0,01 |
MG | 317.428 | 99,36 | 1.882 | 0,59 | 118 | 0,04 | 30 | 0,01 |
MS | 73.725 | 99,37 | 462 | 0,62 | 7 | 0,01 | 0 | 0,0 |
MT | 68.357 | 99,49 | 182 | 0,26 | 103 | 0,15 | 68 | 0,1 |
PA | 88.289 | 99,0 | 534 | 0,6 | 81 | 0,09 | 280 | 0,31 |
PB | 43.718 | 99,91 | 38 | 0,09 | 1 | 0,0 | 1 | 0,0 |
PE | 82.864 | 97,39 | 2.203 | 2,59 | 8 | 0,01 | 6 | 0,01 |
PI | 21.391 | 99,91 | 16 | 0,07 | 2 | 0,01 | 2 | 0,01 |
PR | 375.250 | 99,59 | 1.118 | 0,3 | 411 | 0,11 | 10 | 0,0 |
RJ | 152.042 | 97,25 | 4.232 | 2,71 | 59 | 0,04 | 12 | 0,01 |
RN | 8.230 | 99,88 | 10 | 0,12 | 0 | 0,0 | 0 | 0,0 |
RO | 24.088 | 99,83 | 41 | 0,17 | 0 | 0,0 | 0 | 0,0 |
RR | 2.427 | 99,96 | 1 | 0,04 | 0 | 0,0 | 0 | 0,0 |
RS | 252.671 | 99,12 | 1.685 | 0,66 | 550 | 0,22 | 4 | 0,0 |
SC | 201.530 | 98,45 | 3.103 | 1,52 | 36 | 0,02 | 29 | 0,01 |
SE | 79.808 | 98,79 | 951 | 1,18 | 24 | 0,03 | 0 | 0,0 |
SP | 553.607 | 99,11 | 3.791 | 0,68 | 1.121 | 0,2 | 78 | 0,01 |
TO | 44.200 | 99,87 | 58 | 0,13 | 0 | 0,0 | 1 | 0,0 |
Inicialmente deve ser notado que esta análise fica prejudicada uma vez que para uma grande parte das páginas, cerca de 48,6%, o idioma não pode ser identificado devido à certas limitações da técnica utilizada pela ferramenta. Considerando as páginas nas quais foi possível a identificação, a grande maioria, 97,44%, está escrita em português. Isso era esperado por se tratar de um domínio cujo conteúdo é voltado a informar cidadãos brasileiros. Os demais idiomas possuem percentuais menores de páginas (Inglês, Espanhol e Francês). É importante verificar a razão do grande número de páginas para o qual o campo de linguagem não foi preenchido, buscando outras ferramentas que possam auxiliar na identificação do idioma de um maior volume de páginas. Mesmo assim, a ferramenta utilizada é eficiente na análise e consegue dar uma boa representação da utilização de idiomas estrangeiros nas páginas do governo.
Ao comparar estes resultados com a pesquisa anterior do Censo da Web Governamental Brasileira (2012), tem-se um cenário similar em termos da quantidade de páginas Web em que foi possível identificar o idioma, sendo agora possível para 51,4%. Comparando-se a distribuição por idiomas os percentuais são bem próximos: português passou de 97,25% para 97,44%; inglês era 2,29% e agora há 2,13% de páginas; espanhol estava presente em 0,44% das páginas e nesta edição em 0,39%; por fim, o francês estava em 0,0027% das paginas e agora esta em 0,038%. Portanto não ocorreu mudança significativa na distribuição de idiomas das páginas.