13 Estimadores

13.1 Introdução

Os conteúdos desta seção, das seções 13.2, 13.2.1 e 13.2.2 podem ser visualizados neste vídeo.

Em capítulos anteriores, foram introduzidos diversos conceitos que serão a partir de agora utilizados para tratar do problema da inferência estatística. O dogma central da inferência estatística é que podemos caracterizar propriedades de uma população de indivíduos a partir de dados colhidos a partir de uma amostra de indivíduos dessa população. A partir de uma amostra, estimativas de parâmetros de uma população, por exemplo a média e a variância, podem ser calculadas. Existem diferentes estimadores para cada parâmetro e algumas propriedades de bons estimadores serão apresentadas. Finalmente será apresentado um teorema fundamental em estatística, denominado teorema do limite central, o qual destaca a importância da distribuição normal para a inferência estatística.

13.2 Estimativas de parâmetros populacionais

Três conceitos importantes em inferência estatística são: parâmetro, estatística e estimador. Nos capítulos 10 e 11, foram apresentadas diversas distribuições de probabilidades, tanto para variáveis aleatórias discretas quanto contínuas. A distribuição binomial, por exemplo, é caracterizada pelos parâmetros n (número de experimentos) e p (probabilidade de ocorrência do evento de interesse na população). Já a distribuição normal é totalmente determinada pelos parâmetros \(\mu\) (média) e \(\sigma\) (desvio padrão). Conhecendo-se os valores dos parâmetros de uma distribuição, é possível calcular probabilidades de ocorrência de valores (ou faixa de valores) a partir da distribuição de probabilidades.

Os parâmetros de uma distribuição de probabilidades são medidas que descrevem a população. Em geral não conhecemos os parâmetros de uma distribuição de probabilidades já que, para isso, precisaríamos medir a variável descrita pela distribuição de probabilidades em todos os indivíduos da população. Um dos problemas centrais da inferência estatística é justamente o de estimar os parâmetros de uma dada distribuição de probabilidades na população a partir de amostras extraídas da população referida. Assim, a partir de uma amostra de pacientes de uma população, poderíamos estimar a probabilidade de um dado evento ocorrer ou a média de uma certa variável. Expressões de cálculo que geram números a partir dos elementos de uma amostra são chamadas de estatísticas. As estimativas de um parâmetro obtidas a partir de estatísticas, em geral, não coincidem com o parâmetro correspondente na população. Métodos estatísticos foram desenvolvidos para caracterizar a precisão dessas estimativas O restante do capítulo irá apresentar diversos estimadores utilizados para estimar alguns parâmetros da população e as propriedades desses estimadores.

Resumindo, podemos assim definir os conceitos de parâmetro e estatística.

Parâmetro: é um número ou medida usada para descrever a população, como, por exemplo, a percentagem ou proporção de indivíduos com colesterol acima de 250 mg/dl na população do Rio de Janeiro, ou a média da estatura de mulheres adultas brasileiras.

Estatística: é um número que pode ser calculado a partir dos dados de uma amostra, como, por exemplo, a média da amostra. Uma regra para calcular uma estatística que representa uma estimativa de um determinado parâmetro é chamada de estimador.

Um exemplo de estimador seria o uso da média aritmética de uma amostra de valores de uma população para estimar a média dessa população.

13.2.1 Amostras de uma distribuição de probabilidades

Vamos considerar uma variável aleatória contínua X, com uma função densidade de probabilidade normal com média 20 e variância 16 (desvio padrão = 4). Vamos a seguir extrair 15 amostras de tamanho 10 (10 observações por amostra) dessa distribuição. A figura 13.1 mostra como acessar a caixa de diálogo no R Commander (figura 13.2) para obter essas amostras.

Menu para obter amostras de uma distribuição normal no R Commander.

Figura 13.1: Menu para obter amostras de uma distribuição normal no R Commander.

Na figura 13.2, demos um nome para o conjunto de dados contendo as 15 amostras que serão geradas, configuramos os parâmetros da distribuição normal (média e desvio padrão) o número de amostras (impropriamente traduzido como tamanho da amostra) e o número de observações em cada amostra (que deveria ser chamado de tamanho da amostra). Também solicitamos que sejam geradas a média e o desvio padrão de cada amostra.

Caixa de diálogo para obter amostras de uma distribuição normal. Nesse exemplo, serão obtidas 15 amostras de tamanho 10 (10 observações em cada amostra) de uma distribuição normal com média 20 e variância 16. As amostras serão armazenadas no conjunto de dados AmostrasNormal, juntamente com a média e o desvio padrão de cada amostra.

Figura 13.2: Caixa de diálogo para obter amostras de uma distribuição normal. Nesse exemplo, serão obtidas 15 amostras de tamanho 10 (10 observações em cada amostra) de uma distribuição normal com média 20 e variância 16. As amostras serão armazenadas no conjunto de dados AmostrasNormal, juntamente com a média e o desvio padrão de cada amostra.

Ao pressionarmos o botão OK na caixa de diálogo da figura 13.2, um conjunto de dados com as amostras geradas, chamado AmostrasNormal, é criado (figura 13.3) e basta clicar no botão Ver conjunto de dados para visualizá-lo. A figura 13.4 mostra as amostras geradas. Como essas amostras são aleatórias, o leitor obterá valores diferentes dos apresentados na figura 13.4.

Após pressionarmos OK na caixa de diálogo da figura 13.2, um conjunto de dados (AmostrasNormal) foi gerado. Para visualizá-lo, basta clicarmos no botão Ver conjunto de dados.

Figura 13.3: Após pressionarmos OK na caixa de diálogo da figura 13.2, um conjunto de dados (AmostrasNormal) foi gerado. Para visualizá-lo, basta clicarmos no botão Ver conjunto de dados.

Podemos observar na figura 13.4 que a média amostral (e também o desvio padrão) varia de amostra para amostra e, em geral, não coincide com o valor da média da população.

15 amostras de tamanho 10 da distribuição normal N(20, 16). As duas últimas colunas mostram o desvio padrão e a média de cada amostra (em vermelho).

Figura 13.4: 15 amostras de tamanho 10 da distribuição normal N(20, 16). As duas últimas colunas mostram o desvio padrão e a média de cada amostra (em vermelho).

Vamos supor agora que não conhecemos os parâmetros da distribuição da variável aleatória X na população (média e variância) e somente temos as amostras para estimar os valores desses parâmetros. Vamos inicialmente considerar a média da população. Como poderemos estimá-la a partir de uma amostra de tamanho n?

A média da população pode ser estimada de diversas maneiras. Vamos chamar de \(\hat{\mu}\) o estimador da média da população \(\mu\). Abaixo serão apresentados dois possíveis estimadores da média da população.

  1. um estimador natural é a média aritmética da amostra, \(\bar{X}\), chamada de média amostral:

\[\begin{align} \hat{\mu} = \bar{X} = \frac{\sum_{i=1}^{n}X_i}{n} \tag{13.1} \end{align}\]

  1. pode-se também estimar a média da população, tomando-se o primeiro elemento da amostra (ou qualquer outro elemento):

\[\begin{align} \hat{\mu} = X_1 \tag{13.2} \end{align}\]

Já que podemos ter diversos estimadores para a média da população, que critérios devemos utilizar para escolher um deles. A seguir, serão apresentadas algumas propriedades de estimadores que, em muitos casos, permitem caracterizar quando um estimador é melhor que outro.

13.2.2 Propriedades de estimadores

Vamos chamar de \(\theta\) um parâmetro de uma distribuição de probabilidades e \(\hat{\theta}\) um estimador para esse parâmetro. \(\hat{\theta}\) é uma função dos valores de uma amostra. Diversos critérios para avaliar estimadores estão disponíveis na literatura científica: não tendenciosidade, consistência, mínima variância, suficiência, etc. Vamos abordar a seguir três desses critérios.

13.2.2.1 Estimadores não tendenciosos

Um estimador é considerado não tendencioso se o seu valor esperado é igual ao parâmetro estimado, ou seja, \(E[\hat{\theta}] = \theta\)

No caso de estimadores da média de uma distribuição de probabilidades, podemos verificar facilmente que a média aritmética amostral e o primeiro elemento da amostra são estimadores não tendenciosos.

Valor esperado da média amostral:

\(E[\hat{\mu}] = E[\bar{X}] = E\left[\frac{\sum_{i=1}^{n}X_i}{n}\right] = \frac{\sum_{i=1}^{n}E[X_i]}{n} = \frac{\sum_{i=1}^{n}\mu}{n} = \frac{n\mu}{n}\)

\[\begin{align} E[\bar{X}] = \mu \tag{13.3} \end{align}\]

Valor esperado do primeiro elemento da amostra:

\(E[\hat{\mu}] = E[X_1] = \mu\)

A aplicação Propriedades de estimadores da média de uma distribuição normal permite a visualização de propriedades dos estimadores aqui discutidos. A figura 13.5 mostra a tela de entrada dessa aplicação.

Aplicação que permite a visualização de como dois estimadores da média se comportam à medida que o tamanho da amostra aumenta. As amostras foram extraídas de uma distribuição normal.

Figura 13.5: Aplicação que permite a visualização de como dois estimadores da média se comportam à medida que o tamanho da amostra aumenta. As amostras foram extraídas de uma distribuição normal.

Os dois estimadores para a média de uma distribuição normal apresentados acima (média amostral e primeiro elemento da amostra) são calculados para um certo número de amostras, sendo cada amostra de um tamanho especificado. A aplicação permite variar os parâmetros da distribuição normal, o número de amostras (n_amostras) e o tamanho de cada amostra (tamanho_amostra). Após selecionarmos os valores dos parâmetros, clicamos no botão Submeter.

No gráfico superior à esquerda, o estimador da média da população baseado na média aritmética é calculado para amostras aleatórias de tamanho 1, 2 e assim sucessivamente até uma amostra com tamanho igual a n_amostras x tamanho_amostra; nesse caso, 500 x 4 = 2000.

No gráfico superior à direita, o estimador da média da população baseado somente no primeiro elemento da amostra é obtido para amostras aleatórias de tamanho 1, 2 e assim sucessivamente até uma amostra com tamanho igual a n_amostras x tamanho_amostra.

Os dois gráficos na parte inferior mostram os histogramas das médias aritméticas, à esquerda, e dos primeiros elementos da amostra para as n_amostras de tamanho tamanho_amostra extraídas da distribuição normal com os parâmetros da distribuição normal escolhidos.

Os histogramas na parte inferior mostram que cada estimador possui uma certa variabilidade nos valores calculados para a média da distribuição.

Entretanto o ponto médio dos dois histogramas, indicado pelas linhas verticais azuis, coincidem ou estão bastante próximos da média da distribuição (linha vertical vermelha), ilustrando a não tendenciosidade dos estimadores, ou seja, a média dos valores amostrais dos estimadores converge para a média da distribuição de probabilidades de onde as amostras foram extraídas, à medida que o número de amostras aumenta. Isso é sempre verdadeiro tanto para a média amostral quanto para o primeiro elemento da amostra.

13.2.2.2 Variância de estimadores

É desejável que os estimadores de um determinado parâmetro da população possuam um valor de variância que seja o mínimo possível, isso porque uma variância baixa significa uma precisão maior da estimativa do que uma variância alta.

Podemos observar na figura 13.5 que o histograma das médias aritméticas possui uma variabilidade menor do que o histograma dos primeiros valores das amostras. Além disso, ao aumentarmos o tamanho de cada amostra (aumentando o valor da variável tamanho da amostra na aplicação e clicando em submeter) a variabilidade da média aritmética da amostra vai diminuindo, enquanto que a variabilidade do primeiro valor da amostra não diminui à medida que o tamanho da amostra aumenta.

Pode-se mostrar que a média aritmética da amostra é o estimador de menor variância entre todos os estimadores lineares da média de uma população.

13.2.2.3 Estimadores consistentes

Seja um estimador de \(\hat{\theta}\) baseado em uma amostra de tamanho n. \(\hat{\theta}\) será um estimador consistente de \(\theta\) se:

\(\begin{aligned} &\ \lim_{n\to\infty} P(|\hat{\theta}-\theta|\geq \epsilon) = 0 \end{aligned}\)

ou seja, à medida que o tamanho da amostra aumenta, o estimador se aproxima cada vez mais do parâmetro da população, no sentido probabilístico, significando que a variância do estimador tende a zero, assim como o valor do estimador tende para o valor do parâmetro estimado, quando o tamanho da amostra aumenta indefinidamente.

Essa propriedade é mostrada nos gráficos da figura 13.5.

No gráfico acima e à esquerda da figura 13.5, vemos que a média aritmética converge para a média da distribuição normal (indicada pela linha horizontal vermelha) à medida que o tamanho da amostra aumenta. Na seção anterior, vimos que variância do estimador baseado na média aritmética diminui à medida que o tamanho da amostra aumenta. Essas duas características fazem com que a média aritmética da amostra seja um estimador consistente para a média da população.

No gráfico acima e à direita, o estimador baseado no primeiro valor da amostra oscila em torno da média da distribuição e não converge para a média da distribuição. Além disso, a sua variância não diminui à medida que o tamanho da amostra aumenta. Essas duas características fazem com que o primeiro elemento da amostra seja um estimador não consistente para a média da população.

Resumindo, para a média de uma população, a média amostral (média aritmética da amostra) é um estimador não tendencioso, consistente e de mínima variância. O primeiro valor da amostra (ou o segundo, terceiro, etc) é um estimador não tendencioso, mas não é consistente e a sua variância não se altera à medida que o tamanho da amostra aumenta.

Portanto a média amostral é um melhor estimador para a média da população do que qualquer estimador que seleciona apenas um elemento da amostra como estimador da média.

13.2.3 Estimadores da variância de uma população

O conteúdo desta seção pode ser visualizado neste vídeo.

No capítulo 3, ao calcularmos a variância de um conjunto de dados, utilizamos a seguinte fórmula:

\[\begin{align} S^2 =\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2 \tag{13.4} \end{align}\]

Vamos considerar agora que temos uma amostra de tamanho n de uma variável aleatória X que segue uma certa distribuição de probabilidades na população e desejamos estimar a variância dessa variável aleatória na população a partir da amostra. Intuitivamente, poderíamos considerar o seguinte estimador para a variância:

\[\begin{align} S_{n}^2 =\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2 \tag{13.5} \end{align}\]

obtido a partir de (13.4) substituindo-se (n-1) por n no denominador.

Sendo \(\sigma^2\) o valor real da variância de X, pode-se mostrar que o estimador (13.4) é um estimador não tendencioso dessa variância, enquanto que (13.5) é um estimador tendencioso da mesma variância. Mais precisamente:

\[\begin{align} E[S^2] = \sigma^2 \ \ \ \ e \ \ \ \ E[S_n^2] = \frac{n-1}{n}\sigma^2 \end{align}\]

Assim, para amostras pequenas, os valores esperados dos dois estimadores podem apresentar valores bastante diferentes. Por exemplo, para uma amostra de tamanho 4: \(E[S_n^2] = 0,75 E[S^2]\).

A figura 13.6 mostra a tela de entrada da aplicação Estimadores da variância de uma distribuição. Ela mostra as propriedades dos estimadores (13.4) e (13.5) para a variância de uma distribuição normal com média e variância, número de amostras e o tamanho de cada amostra selecionados pelo usuário. Após selecionarmos os valores dos parâmetros, clicamos no botão Submeter.

Aplicação que permite a visualização de como dois estimadores da variância se comportam à medida que o tamanho da amostra aumenta.

Figura 13.6: Aplicação que permite a visualização de como dois estimadores da variância se comportam à medida que o tamanho da amostra aumenta.

Os gráficos da parte superior da figura 13.6 mostram os valores da variância estimada pelo estimador não tendencioso (à esquerda) e pelo estimador tendencioso (à direita) para amostras aleatórias de tamanho 1, 2 e assim sucessivamente até uma amostra com tamanho igual a n_amostras x tamanho_amostra; nesse caso, 500 x 4 = 2000.

Podemos observar nos dois gráficos da parte superior da figura 13.6 que o valor da variância amostral converge para a variância da distribuição normal (indicada pela linha horizontal vermelha) à medida que o tamanho amostral aumenta, para ambos os estimadores da variância.

Os gráficos da parte inferior mostram os histogramas dos valores dos estimadores (13.4) e (13.5) para a variância amostral para o número de amostras e tamanho de cada amostra escolhidos pelo usuário. Cada histograma foi construído a partir dos 500 valores de variância calculados para cada amostra de tamanho 4 extraídas aleatoriamente da distribuição N(20, 16). A linha vertical azul indica a média das variâncias amostrais e a linha vertical vermelha indica o valor da variância da distribuição.

Observamos que a média das variâncias amostrais das 500 amostras é próxima ao valor exato da variância da distribuição para o estimador não tendencioso (histograma à esquerda), mas é bastante diferente do valor exato para o estimador tendencioso (histograma à direita), daí o fato dele ser dito estimador tendencioso da variância.

Ao aumentarmos o tamanho de cada amostra, iremos verificar que a média da variância amostral para o estimador tendencioso vai convergir para o valor exato da variância e que a variabilidade dos valores das variâncias amostrais também irá reduzir.

Assim, para amostras pequenas, os dois estimadores tendem a apresentar valores bastante diferentes, mas, à medida que o tamanho da amostra aumenta, o estimador tendencioso aproxima-se cada vez mais da variância da distribuição.

A variabilidade de ambos os estimadores diminui à medida que o tamanho da amostra aumenta. Assim os dois estimadores são consistentes.

13.3 Teorema do limite central

O conteúdo desta seção pode ser visualizado neste vídeo.

Resumindo o que foi visto acima, temos que distinguir duas distribuições de probabilidades. A primeira é a distribuição da variável aleatória de interesse na população, que é um modelo teórico para o problema de nosso interesse. A segunda é a distribuição amostral que é a distribuição de probabilidades associada a uma estatística obtida a partir de amostras da população.

A média e a variância são duas estatísticas que podemos obter da amostra e, como vimos nas seções anteriores, elas variam de amostra para amostra sendo variáveis aleatórias que possuem uma distribuição associada.

Vamos considerar a média amostral. Vimos na seção 13.2.2.1 que a média amostral é um estimador não tendencioso da média de uma população. Também foi visto na seção 13.2.2.2 que a variância da média amostral diminui à medida que o tamanho da amostra aumenta. Vamos explorar esse tema com mais profundidade.

A aplicação Teorema do Limite Central (figura 13.7) mostra histogramas da média amostral para diferentes distribuições (normal, uniforme e gama), diferentes parâmetros dessas distribuições e permite variar o tamanho de cada amostra, o número de amostras extraídas da população e o número de classes do histograma. Ao selecionarmos uma distribuição, escolhemos os valores dos parâmetros da distribuição selecionada.

Aplicação que mostra o histograma da média amostral para diferentes distribuições de probabilidade e tamanhos amostrais.

Figura 13.7: Aplicação que mostra o histograma da média amostral para diferentes distribuições de probabilidade e tamanhos amostrais.

Vamos inicialmente considerar uma distribuição normal (média 10 e desvio padrão 1) e variar o tamanho de cada amostra extraída da população e verificar o comportamento da média amostral. Na figura 13.7, fixamos o número de amostras em 10000 e o histograma com 10 classes.

A figura 13.8 mostra três histogramas obtidos a partir de 10000 amostras de tamanhos iguais a 1, 4 e 16, respectivamente. Podemos verificar que as médias das distribuições amostrais são aproximadamente iguais à média da distribuição normal e que as variâncias das médias amostrais são aproximadamente iguais à variância da população (1) dividida pelo tamanho amostral (n). Assim a variância da média amostral para n = 1 é aproximadamente 1 (1/1), para n = 4, 0,25 (1/4) e para n = 16, 0,0625 (1/16).

Histogramas da média amostral para amostras de tamanho 1, 4 e 16, respectivamente, de uma distribuição normal N(10, 1). Observem que as médias das distribuições amostrais são aproximadamente iguais à média da distribuição normal e que as variâncias das médias amostrais são aproximadamente iguais a 1 (1/1), 0,25 (1/4) e 0,0625 (1/16), respectivamente.

Figura 13.8: Histogramas da média amostral para amostras de tamanho 1, 4 e 16, respectivamente, de uma distribuição normal N(10, 1). Observem que as médias das distribuições amostrais são aproximadamente iguais à média da distribuição normal e que as variâncias das médias amostrais são aproximadamente iguais a 1 (1/1), 0,25 (1/4) e 0,0625 (1/16), respectivamente.

Ao selecionarmos uma distribuição uniforme na aplicação da figura 13.7, podemos selecionar os valores mínimo e máximo da distribuição uniforme e repetir o procedimento utilizado para obtermos os histogramas da figura 13.8. A figura 13.9 mostra a distribuição uniforme com valores mínimo e máximo iguais, respectivamente a 5 e 15.

Distribuição Uniforme com min = 5,0 e max = 15,0.

Figura 13.9: Distribuição Uniforme com min = 5,0 e max = 15,0.

A média e variância da distribuição uniforme da figura 13.9 são, respectivamente:

\(\begin{aligned} &\ \mu = \frac{max - min}{2} = 10 \\ &\ \sigma^2 = \frac{(max - min)^2}{12} = 8,33 \end{aligned}\)

A figura 13.10 mostra três histogramas obtidos a partir de 10000 amostras de tamanhos iguais a 1, 4 e 16, respectivamente, da distribuição uniforme da figura 13.9. Novamente, podemos verificar que as médias das distribuições amostrais são aproximadamente iguais à média da distribuição uniforme e que as variâncias das médias amostrais são aproximadamente iguais à variância da população (1) dividida pelo tamanho amostral (n). Assim a variância da média amostral para n = 1 é aproximadamente 8,33 (8,33/1), 2,08 para n = 4 (8,33/4), e 0,52 para n = 16 (8,33/16).

Além disso, pode-se observar que, à medida que o tamanho amostral aumenta, a forma dos histogramas se aproxima cada vez mais da forma de uma distribuição normal.

Histogramas da média amostral para amostras de tamanho 1, 4 e 16, respectivamente, de uma distribuição uniforme U(5, 15). Observem que as médias das distribuições amostrais são aproximadamente iguais à média da distribuição uniforme e que as variâncias das médias amostrais são aproximadamente iguais a 8,33 (8,33/1), 2,08 (8,33/4) e 0,52 (8,33/16), respectivamente.

Figura 13.10: Histogramas da média amostral para amostras de tamanho 1, 4 e 16, respectivamente, de uma distribuição uniforme U(5, 15). Observem que as médias das distribuições amostrais são aproximadamente iguais à média da distribuição uniforme e que as variâncias das médias amostrais são aproximadamente iguais a 8,33 (8,33/1), 2,08 (8,33/4) e 0,52 (8,33/16), respectivamente.

Vamos selecionar agora a distribuição gama na aplicação da figura 13.7. A distribuição gama é uma distribuição de probabilidades para variáveis contínuas, com dois parâmetros (\(\alpha\) e r). Não iremos entrar em detalhes dessa distribuição neste texto, mas é importante salientar que a distribuição gama é bastante utilizada em estatística, da qual diversas outras distribuições são casos especiais, como a distribuição exponencial e a distribuição qui-quadrado. Vamos repetir o procedimento utilizado para obtermos os histogramas da figura 13.8. A figura 13.11 mostra a distribuição gama para os parâmetros \(\alpha=1\) e \(r=2\).

Distribuição gama com parâmetros \(\alpha\) = 1 e \(r = 2\).

Figura 13.11: Distribuição gama com parâmetros \(\alpha\) = 1 e \(r = 2\).

A média e variância de uma distribuição gama são respectivamente:

\(\begin{aligned} &\ \mu = \frac{r}{\alpha} = 2 \\ &\ \sigma^2 = \frac{r}{\sqrt{\alpha}} = 2 \end{aligned}\)

A figura 13.12 mostra três histogramas obtidos a partir de 10000 amostras de tamanhos iguais a 1, 4 e 16, respectivamente, da distribuição gama da figura 13.11. Novamente, podemos verificar que as médias das distribuições amostrais são aproximadamente iguais à média da distribuição gama e que as variâncias das médias amostrais são aproximadamente iguais à variância da população (1) dividida pelo tamanho amostral (n). Assim a variância da média amostral para n = 1 é aproximadamente 2 (2/1), 0,5 para n = 4 (2/4), e 0,125 para n = 16 (2/16).

Novamente, pode-se observar que, à medida que o tamanho amostral aumenta, a forma dos histogramas se aproxima cada vez mais de uma distribuição normal.

Histogramas da média amostral para amostras de tamanho 1, 4 e 16, respectivamente, de uma distribuição gama (1, 2). Observem que as médias das distribuições amostrais são aproximadamente iguais à média da distribuição gama e que as variâncias das médias amostrais são aproximadamente iguais a 2 (2/1), 0,5 (2/4) e 0,125 (2/16), respectivamente.

Figura 13.12: Histogramas da média amostral para amostras de tamanho 1, 4 e 16, respectivamente, de uma distribuição gama (1, 2). Observem que as médias das distribuições amostrais são aproximadamente iguais à média da distribuição gama e que as variâncias das médias amostrais são aproximadamente iguais a 2 (2/1), 0,5 (2/4) e 0,125 (2/16), respectivamente.

Esses três exemplos nos leva a intuir que a variância da média amostral de uma variável aleatória X é igual à variância dessa variável na população dividido pelo tamanho da amostra. De fato, isso pode ser demonstrado facilmente a partir da definição de variância de uma variável aleatória. Assim, sendo \(\sigma^2\) a variância da variável aleatória X, então a variância da média amostral é calculada por:

\(\begin{aligned} &\ var(\bar{X}) = var \left(\frac{1}{n}\sum_{i=1}^{n}X_i\right) = \frac{1}{n^2}var\left(\sum_{i=1}^{n}X_i\right) \end{aligned}\)

Considerando que cada elemento da amostra possui a mesma distribuição da variável aleatória X e são independentes uns dos outros, temos que:

\[\begin{align} var(\bar{X}) &= \frac{1}{n^2}\sum_{i=1}^{n}var(X_i)= \frac{1}{n^2}\sum_{i=1}^{n}\sigma^2 \\ &= \frac{1}{n^2}n\sigma^2 \\ &=\frac{\sigma^2}{n} \tag{13.6} \end{align}\]

Além disso, os três exemplos também nos induzem a pensar que, à medida que o tamanho amostral aumenta, as distribuições da média amostral tendem para uma distribuição normal com a mesma média da população e variância igual à da população dividida pelo tamanho da amostra. Esse fato é mostrado pelo Teorema do Limite Central que é um dos principais teoremas da Estatística. Esse teorema afirma que:

Sejam X1, X2, …, Xn n variáveis aleatórias independentes, todas com a mesma distribuição. Sejam \(\boldsymbol{\mu=E[X_i]}\) e \(\boldsymbol{\sigma^2 = var(X_i) < \infty}\) a média e a variância comuns. Seja \(\boldsymbol{S = \sum_{i=1}^{n}X_i}\) a soma das variáveis aleatórias X1, X2, …, Xn. Então \({\boldsymbol{E[S] = n\mu}}\) e \(\boldsymbol{var(S) = n\sigma^2}\) Além disso, a distribuição de S tende para a distribuição normal \(\boldsymbol{N(n\mu, n\sigma^2)}\) à medida que n aumenta.

Aplicado à média amostral \(\bar{X}=\frac{S}{n}\), o teorema do limite central fornece os resultados:

\(\boldsymbol{E[\bar{X}] = \mu}\)

\(\boldsymbol{var(\bar{X}) = \frac{\sigma^2}{n}}\)

O desvio padrão de uma estatística de interesse, no caso a média amostral, é denominada de erro padrão. Assim, para a média amostral, o erro padrão é ígual \(\frac{\sigma}{\sqrt{n}}\).

13.4 Aproximação pela normal da proporção de eventos

Para valores grandes de n, a distribuição de uma variável X que representa o número de sucessos em n experimentos de Bernoulli e da proporção \(\hat{P}\) desses eventos é aproximadamente normal. Esse resultado vem do Teorema do Limite Central. A média e a variância para a distribuição normal aproximada de X são np e np (1-p) respectivamente, sendo p a probabilidade de ocorrência do evento em um experimento de Bernoulli. Para a proporção amostral, temos que:

\(\begin{aligned} &\ \hat{P} = \frac{X}{n} \end{aligned}\)

Logo:

\(\begin{aligned} &\ E[\hat{P}] = \frac{E[X]}{n}=\frac{np}{n}= p \end{aligned}\)

\(\begin{aligned} &\ var(\hat{P}) = \frac{var(X)}{n^2}=\frac{np(1-p)}{n^2}= \frac{p(1-p)}{n} \end{aligned}\)

Assim a média e a variância da proporção amostral são então dadas por p e p(1-p)/n. A aproximação pela distribuição normal será melhor nos casos em que a média np > 10 e np(1-p) > 10.

A figura 13.13 mostra uma distribuição binomial (13.13a) e um histograma da proporção de eventos de Bernoulli (13.13b), obtido a partir de 10000 experimentos de Bernoulli. Em cada experimento, a proporção é zero, se o evento não ocorreu, ou 1, se o evento ocorreu. Observem que o valores da média das proporções e da variância são muito próximos dos valores teóricos.

a) gráfico da distribuição binomial para p  = 0,5 e n = 1; b) histograma da proporção de eventos em 1 experimento de Bernoulli (p = 0,5). O histograma foi construído a partir de 10000 repetições do experimento de Bernoulli. A média da proporção de eventos foi de 0,5 e a variância 0,25, sendo os valores teóricos iguais a 0,5 e 0,25, respectivamente

Figura 13.13: a) gráfico da distribuição binomial para p = 0,5 e n = 1; b) histograma da proporção de eventos em 1 experimento de Bernoulli (p = 0,5). O histograma foi construído a partir de 10000 repetições do experimento de Bernoulli. A média da proporção de eventos foi de 0,5 e a variância 0,25, sendo os valores teóricos iguais a 0,5 e 0,25, respectivamente

A figura 13.14 mostra uma distribuição binomial com p = 0,5 e n = 16 (13.14a) e um histograma da proporção de eventos (13.14b), obtido a partir de 10000 amostras dessa distribuição binomial. Além dos valores da média e variância das proporções serem próximos aos valores teóricos, o histograma já começa a adquirir um formato de uma distribuição normal.

a) gráfico da distribuição Binomial para p = 0,5 e n = 16; b) histograma da proporção de eventos em 10000 amostras extraídas da distribuição binomial de a). A média da proporção de eventos foi de 0,50 e a variância 0,0158, sendo os valores teóricos iguais a 0,5 e 0,015625, respectivamente.

Figura 13.14: a) gráfico da distribuição Binomial para p = 0,5 e n = 16; b) histograma da proporção de eventos em 10000 amostras extraídas da distribuição binomial de a). A média da proporção de eventos foi de 0,50 e a variância 0,0158, sendo os valores teóricos iguais a 0,5 e 0,015625, respectivamente.

A figura 13.15 mostra uma distribuição binomial com p = 0.5 e n =100 (13.15a) e um histograma da proporção de eventos (13.15b), obtido a partir de 10000 amostras dessa distribuição binomial. Além dos valores da média e variância das proporções serem iguais aos valores teóricos, o histograma apresenta um formato de uma distribuição normal.

a) gráfico da distribuição binomial para p = 0,5 e n = 100; b) histograma da proporção de eventos em 10000 amostras extraídas da distribuição binomial de a). A média da proporção de eventos foi de 0,50 e a variância 0,0025, sendo os valores teóricos iguais a 0,5 e 0,0025, respectivamente.

Figura 13.15: a) gráfico da distribuição binomial para p = 0,5 e n = 100; b) histograma da proporção de eventos em 10000 amostras extraídas da distribuição binomial de a). A média da proporção de eventos foi de 0,50 e a variância 0,0025, sendo os valores teóricos iguais a 0,5 e 0,0025, respectivamente.

A partir do teorema do limite central, podemos utilizar a distribuição normal como uma aproximação para a distribuição de muitas estatísticas para grandes amostras e, assim, calcular a precisão dessas estatísticas. Assim podemos ter uma estimação dos valores e precisão dos parâmetros de uma distribuição na população a partir de amostras extraídas dessa população, quando não conhecemos esses parâmetros a priori. O próximo capítulo irá mostrar como realizar essas inferências.

13.5 Exercícios

  1. Qual a diferença entre parâmetros de uma distribuição e estatísticas?

  2. Dê exemplo de dois possíveis estimadores para a média de uma população?

  3. Há sentido em dizer que um estimador da média possui uma variância? Justifique.

  4. Se \(X \sim N(\mu, \sigma^2)\), qual a distribuição da média amostral de X com n elementos? Explique porque, intuitivamente, essa distribuição faz sentido.

  5. Qual o nome que se dá ao desvio padrão da média amostral? Qual a diferença em relação ao desvio padrão da variável?

  6. Em que casos a média amostral segue uma distribuição normal?

  7. Qual a importância do teorema do limite central?

  8. Suponhamos que a variável aleatória X tenha uma distribuição normal \(N(\mu, \sigma^2)\), mas não sabemos a variância. Como obter uma estimativa desse parâmetro?

  9. Dê exemplo de um estimador do parâmetro p em uma distribuição binomial a partir de uma amostra e da variância desse estimador?