Proporção de páginas dos sítios da Web Governamental Brasileira (.gov.br) de acordo com uma relação pré-definida de idiomas.
Obter informações da utilização de diferentes idiomas na Web Governamental Brasileira.
A metodologia de obtenção desse indicador consiste na análise de cada uma das páginas coletadas de modo à comparar seus conteúdos com dicionários de stop word (palavras comuns em um idioma) de algumas línguas pré-estabelecidas. Essa classificação consiste em contar o número de palavras que uma página tem de cada um dos idiomas e, aquele que tiver o maior número será considerado o idioma das páginas. Caso a página não possua palavras suficientes ou caso a diferença entre o número de palavras dos idiomas mais prováveis não seja suficiente para que se possa classificá-la, seu idioma é classificado como "outros".
Um resumo descritivo dos dados sobre idioma das páginas Web está apresentado em duas tabelas (C1-1 e C1-2). A distribuição de quatro idiomas pré-definidos (Português, Inglês, Espanhol, e Francês) nas páginas do domínio gov.br pode ser observada na Tabela C1-1. Cabe ressaltar que foi possível identificar o idioma para um conjunto restrito de páginas. Esse grupo corresponde a 237.063 (5,66% do total de páginas). A Tabela C1-2 apresenta a distribuição de idiomas por UF.
Tabela C1-1: Distribuição dos principais idiomas das páginas Web no domínio .gov.br.
Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|
135.570 | 12,0936 | 96.488 | 8,6072 | 5.008 | 0,4467 | 0 | 0,0 |
Tabela C1-2: Distribuição dos principais idiomas das páginas Web no domínio .gov.br. por UF
UF | Português | % Português | Inglês | % Inglês | Espanhol | % Espanhol | Francês | % Francês |
---|---|---|---|---|---|---|---|---|
.GOV.BR | 56.995 | 17,27 | 35.790 | 10,84 | 742 | 0,22 | 0 | 0,0 |
.Outros | 24 | 15,19 | 7 | 4,43 | 0 | 0,0 | 0 | 0,0 |
AC | 395 | 2,19 | 856 | 4,75 | 179 | 0,99 | 0 | 0,0 |
AL | 997 | 10,36 | 222 | 2,31 | 6 | 0,06 | 0 | 0,0 |
AM | 860 | 30,22 | 360 | 12,65 | 7 | 0,25 | 0 | 0,0 |
AP | 4 | 0,96 | 25 | 6,02 | 0 | 0,0 | 0 | 0,0 |
BA | 2.055 | 7,27 | 2.011 | 7,11 | 32 | 0,11 | 0 | 0,0 |
CE | 1.239 | 5,69 | 1.804 | 8,28 | 234 | 1,07 | 0 | 0,0 |
DF | 60 | 1,88 | 77 | 2,41 | 17 | 0,53 | 0 | 0,0 |
ES | 2.218 | 8,22 | 2.409 | 8,93 | 28 | 0,1 | 0 | 0,0 |
GO | 3.123 | 27,44 | 297 | 2,61 | 39 | 0,34 | 0 | 0,0 |
MA | 348 | 10,13 | 164 | 4,78 | 3 | 0,09 | 0 | 0,0 |
MG | 7.760 | 10,66 | 7.001 | 9,62 | 1.345 | 1,85 | 0 | 0,0 |
MS | 1.569 | 18,36 | 109 | 1,28 | 53 | 0,62 | 0 | 0,0 |
MT | 544 | 3,18 | 935 | 5,47 | 5 | 0,03 | 0 | 0,0 |
PA | 1.786 | 8,22 | 856 | 3,94 | 10 | 0,05 | 0 | 0,0 |
PB | 1.207 | 12,38 | 968 | 9,93 | 12 | 0,12 | 0 | 0,0 |
PE | 587 | 6,06 | 1.596 | 16,47 | 26 | 0,27 | 0 | 0,0 |
PI | 8 | 1,28 | 5 | 0,8 | 5 | 0,8 | 0 | 0,0 |
PR | 7.953 | 19,63 | 2.892 | 7,14 | 495 | 1,22 | 0 | 0,0 |
RJ | 5.667 | 17,62 | 3.523 | 10,95 | 93 | 0,29 | 0 | 0,0 |
RN | 105 | 2,47 | 134 | 3,16 | 10 | 0,24 | 0 | 0,0 |
RO | 213 | 3,61 | 691 | 11,72 | 36 | 0,61 | 0 | 0,0 |
RR | 6 | 3,66 | 0 | 0,0 | 0 | 0,0 | 0 | 0,0 |
RS | 1.577 | 2,38 | 7.663 | 11,55 | 121 | 0,18 | 0 | 0,0 |
SC | 11.039 | 9,99 | 9.758 | 8,83 | 706 | 0,64 | 0 | 0,0 |
SE | 2.470 | 13,46 | 2.899 | 15,8 | 133 | 0,73 | 0 | 0,0 |
SP | 24.603 | 10,62 | 12.133 | 5,24 | 659 | 0,28 | 0 | 0,0 |
TO | 158 | 1,06 | 1.303 | 8,75 | 12 | 0,08 | 0 | 0,0 |
Inicialmente deve ser notado que esta análise fica prejudicada uma vez que para uma grande parte das páginas o idioma não pode ser identificado devido à certas limitações da técnica utilizada pela ferramenta. É importante verificar a razão do grande número de páginas para o qual o campo de linguagem não foi preenchido, buscando outras ferramentas que possam auxiliar na identificação do idioma de um maior volume de páginas. Mesmo assim, a ferramenta utilizada é eficiente na análise e consegue dar uma boa representação da utilização de idiomas estrangeiros nas páginas do governo.
A coleta realizada neste retrato dos dados (2016) foi feita com novo mecanismo de coleta, assim não deve ser diretamente comparado ao ano anterior.