Quando se quer conhecer alguma característica de uma população relativamente pequena (em estatística, população se refere a qualquer conjunto de elementos sobre o qual se tenha algum interesse específico), é muitas vezes viável analisar cada um de seus elementos para se saber com exatidão como se apresenta essa característica. Essa característica da população que se tem interesse em conhecer é chamada parâmetro populacional.
Por exemplo, uma escola com 400 alunos deseja saber quantos desses alunos têm pais separados. A população em questão são os 400 alunos, e é fácil obter a resposta de cada um deles (seja através de entrevista, questionário ou outro meio). Ou então um colecionador de carros que tem 15 veículos deseja saber quantos deles estão em perfeito funcionamento e quantos têm defeitos. Se tiver condições para isso, pode contratar um mecânico para analisar cada um de seus veículos (população de 15 veículos). Em ambos os casos as características populacionais serão conhecidas com exatidão, se desconsiderarmos erros na coleta dos dados, como respostas incorretas fornecidas pelos alunos ou erro do mecânico na avaliação dos carros.
Quando todos os elementos de uma população são observados para se conhecer determinada característica, temos o que se chama de censo, como o censo feito pelo IBGE a cada 10 anos para obter informações diversas sobre a população brasileira, em que todos os domicílios são visitados. Mas realizar censos nem sempre é possível ou viável, normalmente porque os custos para sua realização são impeditivos, seja em função do tamanho da população, dificuldade de acesso, logística de recursos humanos ou outros fatores.
Um bom exemplo são as pesquisas de intenção de voto. Se pensarmos numa eleição presidencial, temos uma população de mais de 130 milhões de eleitores (fonte: TSE) distribuída em uma área imensa e muitos locais remotos e de difícil acesso. O objetivo das pesquisas é saber qual a proporção de eleitores que pretende votar em cada candidato, bem como votos em branco, nulos e indecisos (parâmetros populacionais). As dificuldades citadas acima tornam impossível realizar um censo. Outro exemplo é uma empresa que produz determinado produto a uma taxa de 2.000 unidades por dia e pretende saber qual a proporção de unidades defeituosas de sua produção. Analisar cada unidade produzida implicaria em altíssimos custos de Controle de Qualidade.
A alternativa para esses casos é a estimação por Intervalo de Confiança com base na observação de amostras. Isso significa que apenas uma parte da população (amostra) é observada, e com os dados amostrais é feita uma estimação (inferência) do parâmetro populacional que se deseja conhecer. Como o próprio nome sugere, neste caso a estimação não é um valor específico, mas um intervalo de valores dentro do qual o parâmetro populacional deve se encontrar, e como apenas parte da população é observada, toda estimação por intervalo de confiança tem uma incerteza associada.
As pesquisas de intenção de voto divulgadas na mídia normalmente trabalham com amostras de 2.000 eleitores, possuem margem de erro de 2 a 3 pontos percentuais e nível de confiança de 95%, podendo, obviamente, variar de pesquisa para pesquisa. Portanto, quando uma pesquisa mostra que determinado candidato tem 30% das intenções de voto, margem de erro de 2 pontos percentuais e nível de confiança de 95%, devemos interpretar da seguinte maneira: de acordo com a pesquisa, há 95% de chance que a real intenção de voto dos eleitores para esse candidato esteja no intervalo de 28% a 32%.
Os parâmetros populacionais e suas medidas de dispersão são representados por letras gregas, enquanto as medidas amostrais são representadas por letras do nosso alfabeto comum. Vemos abaixo os principais parâmetros e medidas:

OBS: apenas como esclarecimento (pois os navegadores não exibem algumas letras gregas com clareza), a média populacional é representada pela letra mi, a proporção populacional é representada pela letra pi, enquanto a variância e o desvio-padrão são representados pela letra sigma, sendo a variância o quadrado do desvio-padrão.
É bem comum a confusão entre parâmetros populacionais e medidas amostrais. Os parâmetros populacionais são as características da população que normalmente não conhecemos e desejamos conhecer, como a real intenção de voto para um determinado candidato, o número médio de filhos por casal em uma determinada cidade ou a proporção de peças defeituosas resultantes de certo processo produtivo. As medidas amostrais são medidas referentes a uma ou mais amostras que usamos para estimar os parâmetros populacionais desconhecidos.
Temos ainda outras medidas associadas ao cálculo do IC:
OBS: A letra que aparece nos niveis de significância e de confiança é o alfa grego.
O nível de significância e o nível de confiança são complementares, ou seja, a soma de ambos é sempre 100%.
Essas medidas representam o rigor do intervalo. Se trabalharmos com um nível de significância próximo de 0 (nível de confiança próximo de 1), teremos uma grande chance do intervalo estimado conter o valor real do parâmetro, porém o intervalo será grande e pouco representativo. No limite, se nível de significância = 0, temos 100% de certeza que o intervalo contém o valor real do parâmetro, porém o intervalo será ( -∞ ; +∞ ), o que não é muito representativo...
Por outro lado, se trabalharmos com um alto nível de significância, teremos um intervalo pequeno, em torno do valor amostral, mas com considerável chance de o valor real do parâmetro populacional não estar contido nesse intervalo. A definição do nível de significância é arbitrária, ou seja, é feita por quem faz a estimativa de acordo com seus próprios critérios, e é fundamental na interpretação do resultado. Os valores mais comuns (não são os únicos) de nível de significância utilizados nas estimativas de IC são 90% e 95%.
A referência central para o cálculo do IC de um parâmetro populacional é a medida amostral correspondente. A medida amostral é o centro do intervalo e os limites inferior e superior são obtidos com a subtração e adição, respectivamente, de um fator chamado semi-amplitude intervalar (e). Esse valor também pode ser chamado de erro intervalar ou margem de erro. Ilustrando com as fórmulas:
IC para médias: μ =
± e
IC para proporções: π = p ± e
Portanto, o cálculo do IC consiste em obter a média ou proporção amostral e calcular a semi-amplitude intervalar, que é função do nível de significância e da variância populacional ou amostral.
Suponhamos que estejamos interessados em inferir o peso médio da população de uma cidade. Para isso, pretendemos extrair uma amostra de 400 habitantes e calcular um IC. Mesmo que o peso da população desta cidade não tenha uma distribuição normal,
a distribuição das médias amostrais se aproxima de uma normal, quanto maior for o tamanho da amostra. Por exemplo, se extraíssemos 50 amostras de 400 habitantes desta cidade e calculássemos a média do peso de cada amostra, essas médias teriam uma distribuição
próxima de uma normal, cuja média é μ (o mesmo valor da média populacional) e desvio-padrão
, ou seja, o desvio-padrão das médias amostrais é o desvio-padrão populacional dividido pela
raiz quadrada do tamanho da amostra.
São essas suposições, explicadas muito simplificadamente, que permitem a estimação do IC. Portanto, quando extraímos uma amostra da população, conhecida sua variância, calculamos o intervalo na curva normal cujo centro seja a média amostral e probabilidade acumulada seja igual ao nível de confiança adotado. A chance de que a verdadeira média populacional (μ) esteja nesse intervalo é igual ao nível de significância adotado. A imagem abaixo ilustra essa explicação.

Quando trabalhamos com casos concretos, partimos do nível de confiança e encontramos os valores na curva normal que delimitam essa probabilidade. Porém, todas as tabelas de distribuição normal são baseadas na normal reduzida, que é uma forma de padroonizar qualquer curva normal. A normal reduzida é uma transformação da normal original, com média 0 e desvio-padrão 1, com as mesmas propriedades da original. Os valores da variável reduzida são chamados de z.
Concluindo, os limites do IC são calculados da seguinte forma:
O termo
é o valor da variável normal reduzida cuja probabilidade acumulada é metade do nível de confiança. Isso acontece porque a maioria das tabelas da distribuição normal são
feitas tendo como referência z = 0, ou seja, iniciam a probabilidade acumulada do centro da curva. Há links para download das tabelas de distribuição de probabilidades utilizadas neste artigo no final do texto. Tome cuidado quando for utilizar uma tabela de distriubuição de probabilidades,
certifique-se de como as probabilidades são medidas e suas referências, pois há muitas variações.
EXEMPLO: Pretende-se estimar o peso médio dos habitantes de uma grande cidade, sabendo-se que σ (desvio-padrão populacional) = 8Kg. Para isso, foi tomada uma amostra de 400 habitantes e
(média amostral do peso) = 77Kg.
O intervalo de confiança deve ter α (nível de significância) = 0,10 ou 10%.
Primeiramente, consultamos na tabela normal o valor de z associado ao nível de significância pretendido:
OBS: vemos na tabela que o valor 0,4500 está entre os valores 0,4495 (associado a z = 1,64) e 0,4505 (associado a z = 1,65). Como está exatamente entre esses dois valores, adotamos z = 1,645.
Vamos calcular agora
:

Concluindo, podemos agora calcular os limites do IC:

INTERPRETAÇÃO: O IC calculado indica que há uma probabilidade de 90% de que o real valor do peso médio da população em questão esteja entre 76,342Kg e 77,658Kg.
Quando não conhecemos a variância populacional, o que é mais comum nos casos práticos, devemos utilizar a variância amostral (s2) como estimador da variância populacional (σ2).
OBS: xi é o valor de cada elemento da amostra,
é a média amostral e n-1 é o número de graus de liberdade do estimador.
Usamos então o desvio-padrão amostral (s) na estimativa do desvio-padrão das médias amostrais:
A principal consequência disso é que a variável reduzida das médias amostrais não tem distribuição normal, mas distribuição t-student. A distribuição t-student é similar à normal, porém com maior dispersão. À medida que aumentamos o número de graus de liberdade (tamanho da amostra) a curva t-student se aproxima da curva normal, e é consenso que quando n > 30 podemos usar a distribuição normal como ótima aproximação.

Vimos que mesmo que a distribuição da variável populacional não seja normal, a distribuição das médias amostrais se aproxima de uma normal, quanto maior for o tamanho da amostra. Por isso, quando trabalhamos com pequenas amostras (n < 30), essa conclusão não é válida, e para que possamos aplicar o cálculo do IC nesses casos, a variável deve ter distribuição normal na população.
Temos portanto, duas fórmulas para os limites do IC quando a variância populacional é desconhecida, dependendo do tamanho da amostra:
A fórmula para grandes amostras é semelhante àquela usada quando a variância populacional é conhecida, exceto que ao invés do desvio-padrão populacional (σ) usamos o desvio-padrão da amostra (s).
Já na fórmula para pequenas amostras, além de usarmos s, trabalhamos com a distribuição t-student. A tabela que eu indico no final do texto é unicaudal, portanto o nível de significância deve ser dividido por 2. Essa tabela trabalha com outro parâmetro, que é o número de graus de liberdade, portanto, devemos encontrar o valor de t associado à metade do nível de significância e aos graus de liberdade. Como falado acima, quando trabalhamos com pequenas amostras, a variável de interesse deve ter distribuição normal na população.
EXEMPLO: Em uma grande cidade foi retirada uma amostra de 900 pessoas e a idade média da amostra foi de 34 anos, com desvio-padrão (amostral) de 6,5 anos. Determinar um IC para o valor da média de idade da cidade com um nível de significância de 1%.
Como temos uma amostra grande, mesmo que não saibamos a variância populacional, podemos utilizar a distribuição normal no cálculo do IC.
Primeiramente, consultamos na tabela normal o valor de z associado ao nível de significância pretendido:
OBS: vemos na tabela que o valor 0,4950 está entre os valores 0,4949 (associado a z = 2,57) e 0,4951 (associado a z = 2,58). Como está exatamente entre esses dois valores, adotamos z = 2,575.
Vamos calcular agora
:

Concluindo, podemos agora calcular os limites do IC:

INTERPRETAÇÃO: O IC calculado indica que há uma probabilidade de 99% de que o real valor da idade média da população em questão esteja entre 33,44 anos e 34,56 anos.
EXEMPLO: Uma empresa estuda o atraso na entrega dos pedidos recebidos. Supõe-se que o atraso nas entregas possui distribuição normal e os tempos de atraso (em dias) dos últimos 20 pedidos são dados abaixo:
5 1 0 3 6 10 2 3 4 1 5 3 1 6 6 9 0 0 1 0
Qual é o IC para o atraso médio nas entregas com α = 10%?
Estamos trabalhando com uma amostra pequena. Como o exercício supõe distribuição normal nos atrasos, podemos aplicar a teoria apresentada anteriormente.
A primeira coisa a fazer é calcular média e desvio-padrão da amostra. Veja aqui como fazer isso usando a HP 12C.
Calculando, obtemos os valores
= 3,3 e s = 3,0105
Como a amostra é pequena e não conhecemos o desvio-padrão populacional, utilizamos a tabela t-student. Devemos encontrar o valor t associado a α/2 = 0,05 e graus de liberdade (n-1) = 19:
Vamos calcular agora
:

Concluindo, podemos agora calcular os limites do IC:

INTERPRETAÇÃO: O IC calculado indica que há uma probabilidade de 90% de que o real valor da média dos atrasos nos recebimentos esteja entre 2,1362 dias e 4,4638 dias.
Muitas variáveis são descritas como proporção, como percentual de mulheres em uma cidade, intenção de voto, percentual de peças defeituosas em uma linha de produção, entre muitas outras. Nesses casos, o cálculo do IC tem a mesma fundamentação teórica, com pequenas diferenças nos cálculos.
Abaixo vemos as fórmulas dos limites inferior e superior para o IC:
Nas fórmulas acima, p é a proporção da característica de interesse na amostra, z é a variável normal reduzida relativa ao nível de significância adotado e
é
o desvio-padrão das proporções amostrais, calculado da seguinte forma:
, sendo q = 1 - p
Para que as fórmulas dos limites do IC apresentadas acima sejam válidas, é preciso que p tenha distribuição aproximadamente normal, o que ocorre quando:
EXEMPLO: Foi tirada uma amostra aleatória de 900 habitantes de uma cidade, sendo que 400 deles declararam ser favoráveis a um novo modelo de transporte público. Com base nessa amostra, qual é o IC para a proporção da população favorável a esse novo modelo de transporte público, a um nível de confiança de 95%?
Primeiramente, consultamos na tabela normal o valor de z associado ao nível de confiância pretendido:
Calculando p e q e fazendo a validação do modelo:

Vamos calcular agora σp:

Concluindo, podemos agora calcular os limites do IC:

INTERPRETAÇÃO: O IC calculado indica que há uma probabilidade de 95% de que o real valor da proporção populacional favorável ao novo modelo de transporte público esteja entre 41,2% e 47,7%.
Nos cálculos apresentados anteriormente de IC para médias, havia uma suposição implícita de que as populações eram infinitas (na verdade, muito grandes). Mas quando trabalhamos com populações pequenas, como no caso de alunos de uma Universidade,
trabalhadores de uma empresa, aposentados de uma pequena cidade, por exemplo, devemos fazer uma correção nos cálculos. Se a variância populacional é conhecida, vimos que o desvio-padrão das médias amostrais é dado por
.
Quando trabalhamos com populações finitas fazemos uma correção nesse cálculo, com base no tamanho da população (m) e no tamanho da amostra (n):
Se a variância populacional não é conhecida, o estimador do desvio-padrão das médias amostrais é corrigido pelo mesmo fator:
O cálculo dos limites do IC não muda, bastando apenas fazer a correção no desvio-padrão das médias amostrais, como mostrado acima. No caso de IC para proporções não há necessidade de fazer essas correções, porém o tamanho da amostra deve ser relativamente pequeno em relação ao tamanho da população (< 5%).
EXEMPLO: Uma Universidade com 3.000 alunos quer fazer uma campanha de comunicação para estimular melhoria nos hábitos alimentares e faz uma amostragem de 200 alunos calculando o consumo diário de calorias. A média da amostra foi de 2.200 Kcal / dia com desvio-padrão de 420 Kcal. Calcular um IC para a média diária de consumo de calorias com nível de significância de 5%.
Embora não conheçamos o desvio-padrão populacional, utilizamos a tabela normal, pois o tamanho da amostra é maior que 30. Obtendo o valor de z:

Vamos calcular agora
:

Concluindo, podemos agora calcular os limites do IC:

INTERPRETAÇÃO: O IC calculado indica que há uma probabilidade de 95% de que o real valor da média de consumo diário de calorias dos alunos da Universidade esteja entre 2.143,77 Kcal e 2.256,24 Kcal.
Como vimos, a amplitude do IC (limite superior - limite inferior) depende do nível de significância e do desvio-padrão das médias amostrais, que por sua vez depende do tamanho da amostra.
Podemos definir a amplitude desejada do IC e então determinar o tamanho da amostra necessário para se atingir a amplitude desejada. Quanto menor a amplitude desejada, maior deverá ser o tamanho da amostra. Normalmente se define a semi-amplitude, chamando-a de margem de erro ou erro intervalar.
Por exemplo, se quisermos estimar um IC para o peso médio de uma população com α = 5% e amplitude de 4Kg, qual deverá ser o tamanho da amostra? Nesse caso, o IC seria [
- 2Kg ;
+ 2Kg], com 95% de probabilidade de conter o real valor da média de peso populacional. Quando numa pesquisa eleitoral vemos que determinado candidato tem 30% das intenções de voto com margem de erro de 2%, o tamanho da amostra foi pré-determinado para se
chegar a essa margem de erro.
a) Se conhecemos a variância populacional ou se o tamanho da amostra resultar em valor > 30, a margem de erro é dada pela expressão:
Isolando n, obtemos o seguinte resultado:
b) Quando trabalhamos com proporções, a margem de erro é dada pela expressão:
Isolando n, obtemos o seguinte resultado:
Neste caso estamos usando um valor de p para determinar o tamanho da amostra que será feita. Se não houver uma estimativa prévia desse valor, podemos usar p = 0,5, que maximiza o valor de n. Dessa forma a margem de erro será sempre menor que a desejada.
c) Se temos uma população finita e sabemos seu desvio-padrão, a margem de erro é dada pela expressão:
Isolando n, obtemos o seguinte resultado:
EXEMPLO: Foi feita uma pesquisa para saber a satisfação de uma população com relação ao seu governo. Foram entrevistadas 1.000 pessoas, das quais 585 declararam estar insatifeitas. Sabendo isso, para se conseguir um IC com margem de erro de 2,5% a um nível de significância de 5%, qual deverá ser o tamanho da amostra?
Sabemos que se α = 5% então z = 1,96. Sabemos também que p = 0,585 , q = 0,415 e e = 0,025. Substituindo esses valores na fórmula de n para proporções:

Sempre arredondamos o valor encontrado de n para cima, dessa forma o ´tamanho da amostra deve ser de 1.493 pessoas para que a margem de erro seja de 2,5% a um nível de significância de 5%.
Vimos como buscar os valores de t e z nas respectivas tabelas, mas é possível obter esses valores com o Excel, inclusive com maior precisão.
Para obter o valor de z dado um nível de significância α, usamos a função INV.NORM, que exige três argumentos: probabilidade acumulada partindo de - ∞; média da distribuição; desvio-padrão da distribuição. Como trabalhamos com a normal reduzida, o valor da média é sempre 0 e o valor do desvio-padrão é sempre 1.
Além disso, todo IC é bicaudal, portanto devemos lançar os valores adequadamente para obtermos o correto z. Um modo de fazer isso é colocar um sinal negativo antes da função e lançar α/2 na probabilidade. Desse modo, vamos calcular o z para um nível de significância de 5% (lembrando que nível de confiança = 1 - nível de significância):
O Excel devolve o resultado com o número de casas decimais desejado: 1,959964 (6 casas). Vemos que há um sinal negativo antes da função, o primeiro argumento é metade do nível de significância , o segundo argumento é a média da variável reduzida (sempre 0) e o terceiro argumento é o desvio-padrão da variável reduzida (sempre 1).
No caso de t, usamos a função INVT, cujos argumentos são a probabilidade das caudas e o número de graus de liberdade. Essa função é configurada para intervalos bicaudais, portanto basta informar o grau de significância diretamente no primeiro argumento, sem necessidade de ajustes.
No último exemplo da parte 1 deste artigo utilizamos o valor de t com α = 10% e n - 1 = 19. Com o Excel, fazemos da seguinte forma:
O Excel devolve o resultado com o número de casas decimais desejado: 1,729133 (6 casas). a função INVT é ainda mais fácil de usar, não é preciso fazer ajuste. Lançamos o nível de significância no primeiro argumento e o número de graus de liberdade no segundo argumento.
Bibliografia utilizada:
HOFFMANN, R. Estatística para Economistas. 4ª Edição revista e ampliada. São Paulo: Pioneira Thomson Learning, 2006.
MILONE, G. Estatística Geral e Aplicada. 2ª Edição. São Paulo: Pioneira Thomson Learning, 2004.