6 Introdução à Inferência Estatística

6.1 Introdução

Neste capítulo, serão apresentados os conceitos básicos de teste de hipótese, valor de p e intervalo de confiança a partir de dados de um estudo prospectivo que avalia os níveis de ácido fólico em três grupos de pacientes. Esses conceitos serão ilustrados por meio de um teste de randomização, que não faz nenhuma suposição sobre a distribuição dos dados, de modo que nenhum conhecimento prévio de distribuição de probabilidades será necessário para a compreensão dos conceitos. Capítulos posteriores irão aprofundar esses temas. A forma como a randomização foi utilizada para realizar o teste de hipótese e calcular o intervalo de confiança neste capítulo foi inspirada em Manly (Manly 1997).

6.2 Apresentação de resultados de estudos

O conteúdo desta seção pode ser visualizado neste vídeo.

A figura 6.1 mostra os resultados de um estudo de coortes realizado para verificar a influência do diabetes mellitus sobre a perviedade da fístula arteriovenosa para hemodiálise (Cruz et al. 2015). Os pacientes foram divididos em dois grupos: 26 pacientes com diabetes mellitus e 66 pacientes sem diabetes mellitus. Diversos desfechos foram avaliados e comparados entre os dois grupos. Dois dos desfechos foram: 1) se houve uma oclusão precoce (variável binária); 2) o tempo (meses) até a oclusão (variável numérica contínua). Para a primeira variável, os autores apresentaram o número de pacientes que tiveram oclusão precoce em cada grupo com o respectivo percentual: 20 (40,82%) no grupo de diabéticos e 50(41,82%) no grupo dos não diabéticos. Para a segunda variável, os autores apresentaram o tempo médio de oclusão em cada grupo com o respectivo desvio padrão, 9,03 (11,6) no grupo de diabéticos e 15,97 (27,92) no grupo dos não diabéticos. Para cada variável de desfecho, os autores realizaram um teste de hipótese para verificar se as diferenças observadas entre os dois grupos são estatisticamente significativas. Na última coluna, os autores apresentam o valor de p obtido em cada teste. Esses termos serão explicados mais adiante.

Exemplo de apresentação de resultados de testes de hipóteses para diversos tipos de variáveis. Fonte: tabela 3 do estudo de (Cruz et al. 2015) (CC BY).

Figura 6.1: Exemplo de apresentação de resultados de testes de hipóteses para diversos tipos de variáveis. Fonte: tabela 3 do estudo de (Cruz et al. 2015) (CC BY).

O estudo de Haijanen et al. (Haijanen et al. 2019) realiza uma comparação de custos do tratamento com antibióticos x apendectomia para o tratamento da apendicite aguda sem complicações. Parte dos resultados estão mostrados na figura 6.2. Por exemplo, para custos hospitalares em 5 anos de acompanhamento, os autores apresentaram o custo médio para cada grupo de tratamento (2730 x 2056 euros), bem como a diferença de custos entre os dois grupos (674). Ao lado de cada custo, foram mostrados entre parênteses os intervalos de confiança ao nível de 95%. Para a diferença de custos hospitalares em 5 anos de acompanhamento, o intervalo de confiança é dado pelo intervalo [465, 883]. Na última coluna, os autores apresentam o valor de p resultante dos testes de hipóteses para verificar a significância estatística da diferença em cada desfecho analisado. Para todos os desfechos da tabela, o valor de p foi menor que 0,001.

Apresentação do valor de p e intervalo de confiança para a diferença de custos entre dois tratamentos para apendicite aguda. Fonte: tabela 1 do estudo de (Haijanen et al. 2019) (CC BY).

Figura 6.2: Apresentação do valor de p e intervalo de confiança para a diferença de custos entre dois tratamentos para apendicite aguda. Fonte: tabela 1 do estudo de (Haijanen et al. 2019) (CC BY).

Comparando as duas figuras anteriores, é possível verificar que a figura 6.2 apresenta além do valor de p, a diferença dos desfechos com o respectivo intervalo de confiança. Veremos mais adiante que o intervalo de confiança é mais informativo do que o valor de p.

A figura 6.3 mostra os resultados de um estudo de caso-controle sobre a exposição precoce ao leite de vaca e ocorrência de Diabetes Mellitus tipo 1 (Medeiros et al. 2003). 64 diabéticos (casos) e 64 não diabéticos (controles) foram avaliados para verificar se houve exposição precoce ao leite de vaca (antes de 4 meses). 54 pacientes diabéticos foram expostos precocemente ao leite de vaca contra 41 no grupo controle. A razão de chances para esse estudo é igual 3,03 com um intervalo de confiança ao nível de 95% igual a [1,21, 7,72]. O valor de p foi igual 0,01.

Exemplo de um teste de hipótese e intervalo de confiança para a razão de chances. Fonte: tabela 5 do estudo de (Medeiros et al. 2003) (CC BY-NC).

Figura 6.3: Exemplo de um teste de hipótese e intervalo de confiança para a razão de chances. Fonte: tabela 5 do estudo de (Medeiros et al. 2003) (CC BY-NC).

O estudo de Kho et al. (Kho et al. 2019) é um ensaio controlado randomizado piloto multicêntrico que comparou a ergometria na cama juntamente com fisioterapia x fisioterapia somente em pacientes ventilados mecanicamente. Alguns resultados são mostrados na figura 6.4 em três instantes diferentes: ao acordar na UTI (ICU Awakening), após alta da UTI (ICU discharge) e após alta hospitalar (Hospital discharge). As variáveis são numéricas (PFIT, Blinded PFIT-s, MRCSS, 30STS, MWT, Quadriceps strength), com exceção de MRCSS<48, que é dicotômica. A legenda da tabela mostra o significado de cada sigla. Para as variáveis numéricas, para cada momento em que foram avaliadas, os resultados são apresentados como média e desvio padrão para cada grupo de estudo (ergometria x rotina), bem como a diferença de médias com o respectivo intervalo de confiança para as variáveis PFIT, Blinded PFIT-s e MRCSS. Já para a variável dicotômica MRCSS<48, os resultados são mostrados como o número de pacientes que apresentaram o valor de MRCSS < 48 em cada instante e o respectivo percentual em parênteses. Também são apresentados o risco relativo e o respectivo intervalo de confiança em cada instante de avaliação.

Exemplo de intervalos de confiança para a diferença de médias e o risco relativo para diversas variáveis. Fonte: adaptado do suplemento eletrônico 3 do estudo de (Kho et al. 2019) (CC BY-NC).

Figura 6.4: Exemplo de intervalos de confiança para a diferença de médias e o risco relativo para diversas variáveis. Fonte: adaptado do suplemento eletrônico 3 do estudo de (Kho et al. 2019) (CC BY-NC).

Os diversos exemplos acima mostram que o uso de testes de hipótese e o cálculo de intervalos de confiança são comumente utilizados para apresentar os resultados de estudos clínico-epidemiológicos. Nas próximas seções, serão apresentados os conceitos de teste de hipótese, valor de p e intervalo de confiança, sem o uso de qualquer expressão matemática, utilizando um teste de randomização.

6.3 Teste de hipótese usando randomização

Os conteúdos das subseções desta seção e da seção 6.4 podem ser visualizados neste vídeo, sendo recomendada a visualização prévia deste vídeo.

6.3.1 Contexto do problema

Amess et al. (Amess et al. 1978) realizaram um estudo prospectivo, onde avaliaram os níveis de ácido fólico (microgramas por litro) nas células vermelhas em pacientes com bypass cardíaco que receberam três métodos diferentes de ventilação durante a anestesia:

  • N2O+O2,24h: 50% de óxido nitroso e 50% de oxigênio, continuamente por 24 horas (8 pacientes);
  • N2O+O2,op: 50% de óxido nitroso e 50% de oxigênio, somente durante a operação (9 pacientes);
  • O2,24h: sem óxido nitroso, mas com 35%–50% de oxigênio por 24 horas (5 pacientes).

Os dados de cada paciente são mostrados abaixo.

##    folate ventilation
## 1     243  N2O+O2,24h
## 2     251  N2O+O2,24h
## 3     275  N2O+O2,24h
## 4     291  N2O+O2,24h
## 5     347  N2O+O2,24h
## 6     354  N2O+O2,24h
## 7     380  N2O+O2,24h
## 8     392  N2O+O2,24h
## 9     206   N2O+O2,op
## 10    210   N2O+O2,op
## 11    226   N2O+O2,op
## 12    249   N2O+O2,op
## 13    255   N2O+O2,op
## 14    273   N2O+O2,op
## 15    285   N2O+O2,op
## 16    295   N2O+O2,op
## 17    309   N2O+O2,op
## 18    241      O2,24h
## 19    258      O2,24h
## 20    270      O2,24h
## 21    293      O2,24h
## 22    328      O2,24h

Vamos desconsiderar o grupo O2, 24h e verificar se, estatisticamente, existe alguma diferença entre os níveis de ácido fólico entre os grupos N2O+O2,24h e N2O+O2,op.

Estatisticamente, devemos conceber duas populações de pacientes com bypass cardíaco, uma delas sendo submetida ao tratamento N2O+O2,24h e outra ao tratamento N2O+O2,op. Os 8 pacientes submetidos ao tratamento N2O+O2,24h podem ser pensados como constituindo uma amostra aleatória extraída da população de pacientes com bypass cardíaco que seriam tratados com N2O+O2,24h. Analogamente, os 9 pacientes submetidos ao tratamento N2O+O2,op podem ser pensados como constituindo uma amostra aleatória extraída da população de pacientes com bypass cardíaco que seriam tratados com N2O+O2,op.

Que podemos inferir para as populações mais amplas de pacientes submetidos aos dois tratamentos a partir da análise das duas amostras do estudo?

Vamos abrir a aplicação Teste de Hipótese e Intervalo de Confiança (figura 6.5).

Aplicação que permite realizar um teste hipótese para a comparação de médias e calcular o intervalo de confiança por meio da randomização.

Figura 6.5: Aplicação que permite realizar um teste hipótese para a comparação de médias e calcular o intervalo de confiança por meio da randomização.

O painel à esquerda da aplicação mostra a variável numérica que está sendo avaliada, seguida da descrição dos grupos de tratamento e os valores da variável numérica para os pacientes alocados em cada grupo (amostras).

O campo nível de confiança especifica o nível de confiança que será utilizado para calcular o intervalo de confiança. O seu complemento em relação a 100 fornece o nível de significância do teste de hipótese.

Cada botão na porção inferior do painel irá gerar um gráfico na área principal da aplicação. Ao clicarmos no primeiro botão (Mostrar um diagrama Stripchart), o gráfico de Stripchart dos valores de ácido fólico nos dois grupos de tratamento é mostrado no painel principal (figura 6.6). É possível observar que os valores de ácido fólico tendem a ser mais elevados no grupo N2O+O2,24h, mas existe uma superposição entre os valores de ácido fólico nos dois grupos.

Stripchart dos valores de ácido fólico em dois grupos submetidos a diferentes tipos de ventilação.

Figura 6.6: Stripchart dos valores de ácido fólico em dois grupos submetidos a diferentes tipos de ventilação.

As médias dos valores de ácido fólico nos dois grupos são mostradas abaixo:

##                mean n
## N2O+O2,24h 316.6250 8
## N2O+O2,op  256.4444 9

Ao realizar um estudo como esse, geralmente os autores desejam responder, dentre outras, às seguintes perguntas:

  1. Será que podemos afirmar que a diferença observada nos valores de ácido fólico nos dois grupos (60,2 \(\mu\)g/l – N2O+O2,24h - N2O+O2,op) pode ser generalizada para as populações de pacientes com bypass cardíaco submetidos a um ou outro tratamento, ou essa diferença é apenas fruto do acaso?

  2. Será que, se repetíssemos o mesmo estudo em outra amostra de pacientes, resultados semelhantes seriam observados, ou talvez nenhuma diferença entre os grupos seria evidente?

  3. Nesse estudo, a média da diferença dos valores de ácido fólico entre os dois grupos foi igual a 60,2 \(\mu\)g/l. Se repetíssemos o estudo com o mesmo número de pacientes em cada grupo, provavelmente as diferenças observadas seriam diferentes. Que faixa de valores da diferença entre as médias de ácido fólico dos dois grupos conteria o real valor da diferença dos valores de ácido fólico nas populações submetidas aos dois tipos de tratamento?

6.3.2 Hipótese nula e nível de significância

Em estatística, um procedimento utilizado para responder às duas primeiras perguntas acima é o de realizar um teste de hipótese. Em tais testes, uma hipótese é formulada, um nível de significância é estabelecido e, em seguida, verifica-se o quão os dados obtidos no estudo são compatíveis com a hipótese formulada.

Vamos ilustrar cada um desses passos com o exemplo da seção anterior. Para testar se as médias de ácido fólico em pacientes submetidos aos dois diferentes métodos de ventilação são diferentes, iremos partir da hipótese de que as médias não são diferentes, ou seja, a diferença de médias é nula, e que os resultados observados nesse estudo foram simplesmente devido à aleatoriedade das amostras de pacientes submetidas aos dois tratamentos. Essa hipótese é chamada de hipótese nula. Como iremos verificar o quanto os dados obtidos são compatíveis com essa hipótese nula?

Vamos considerar o seguinte argumento: supondo que a hipótese nula seja verdadeira, ou seja, que não há diferença entre as duas populações de valores de ácido fólico de pacientes submetidos aos tratamentos N2O+O2,op ou N2O+O2,24h, então podemos considerar as duas amostras do estudo acima como proveniente da mesma população. Assim sendo, podemos juntar as duas amostras numa só contendo 17 valores e obter a distribuição das diferenças de valores de ácido fólico para todas as maneiras possíveis de esse conjunto de 17 valores ser dividido aleatoriamente em duas amostras de 8 pacientes (grupo N2O+O2,24h) e 9 pacientes (grupo N2O+O2,op).

Na verdade, não é necessário obter todas as divisões possíveis, um número muito grande delas, por exemplo, 20000, é suficiente para os nossos propósitos. A figura 6.7, obtida ao clicarmos no botão Distribuição sob a hipótese nula da aplicação da figura 6.5, mostra a distribuição dos valores da diferença de ácido fólico, supondo que a hipótese nula fosse verdadeira.

Teste para verificar a hipótese nula de igualdade das médias de ácido fólico nos dois tipos de ventilação cujas amostras são mostradas na figura 6.6.

Figura 6.7: Teste para verificar a hipótese nula de igualdade das médias de ácido fólico nos dois tipos de ventilação cujas amostras são mostradas na figura 6.6.

Podemos observar que, se a hipótese nula for verdadeira, na maior parte das vezes, as diferenças de médias de ácido fólico entre as duas amostras se situa na área branca da figura, mas que, eventualmente, diferenças maiores (tanto positivas quanto negativas) podem ocorrer com uma certa probabilidade. A área em vermelho representa duas regiões onde os valores de diferenças de médias de ácido fólico entre as duas amostras são maiores do que 54,07 \(\mu\)g/l ou abaixo de de -53,98 \(\mu\)g/l. A área destas duas regiões corresponde à probabilidade de 5% (2,5% de cada lado), ou seja, se extraíssemos aleatoriamente duas amostras de 9 e 8 elementos respectivamente do conjunto de 17 valores, calculássemos a diferença das médias do ácido fólico nas duas amostras e repetíssemos esse procedimento um número muito grande de vezes, em aproximadamente 5% das vezes a diferença das médias cairia na região em vermelho. Esse valor de 5% é o nível de significância do teste de hipótese e a região em vermelho é chamada de região crítica. Outros valores poderiam ser usados, como 1%, 10% ou qualquer outro valor. O mais comumente usado é 5%.

Se usássemos o nível de significância igual a 10%, a área em vermelho seria maior e os valores que delimitam as duas áreas em vermelho seriam menor em valor absoluto do que os obtidos para o nível de 5%. O nível de significância é escolhido a priori, antes de coletar os dados e realizar os cálculos.

Para testar a hipótese nula ao nível de 5%, verificamos em qual região da distribuição dos valores de diferenças de médias sob a hipótese nula a diferença observada no estudo se situa. Se o valor estiver na região crítica, rejeitamos a hipótese nula de igualdade das médias de ácido fólico entre os dois tipos de ventilação. O argumento para rejeitar a hipótese nula nesse caso é que a probabilidade de observar uma diferença de médias na região crítica é 5% se a hipótese nula for verdadeira e consideramos essa probabilidade tão baixa que, se o valor de diferença de médias observado no estudo cair nessa região, preferimos acreditar que a hipótese nula é falsa e a diferença observada no estudo é considerada estatisticamente significativa.

Se o valor observado da diferença de médias não estiver na região crítica, não rejeitamos a hipótese nula de igualdade das médias de ácido fólico entre os dois tipos de ventilação e consideramos que a diferença observada foi devida ao acaso, sendo a diferença observada considerada não estatisticamente significativa.

Como, nesse exemplo, a região crítica possui uma área inferior e uma área superior, ou seja, a hipótese nula será rejeitada se uma diferença de média observada for suficientemente grande em valor absoluto tanto para um lado quanto para o outro, esse teste é chamado de teste bilateral.

6.4 Valor de p

Ao clicarmos no botão Testar hipótese nula da aplicação da figura 6.5, iremos obter a figura 6.8. Nessa figura, a linha vertical azul indica o valor da diferença de médias do ácido fólico entre os dois grupos do estudo, situada à direita da linha vertical vermelha que indica o limite da região crítica superior. Como o valor observado da diferença de médias do ácido fólico está situado na região crítica, a hipótese nula é rejeitada.

A área em azul à direita do valor observado no estudo é o valor de p unilateral superior (0,013 na legenda), que indica a probabilidade de se obter, supondo que a hipótese nula é verdadeira, um valor de diferença de médias igual ou superior ao valor observado no estudo. Em um teste bilateral, como esse, o valor de p é o dobro do valor de p unilateral superior (ou unilateral inferior, o que for menor). Assim, nesse estudo, o valor de p = 0,026.

Teste para verificar a hipótese nula de igualdade das médias de ácido fólico nos dois tipos de ventilação cujas amostras são mostradas na figura 6.6.

Figura 6.8: Teste para verificar a hipótese nula de igualdade das médias de ácido fólico nos dois tipos de ventilação cujas amostras são mostradas na figura 6.6.

Outra forma de decidir sobre a rejeição ou não da hipótese nula é comparar o valor de p com o nível de significância. Se o valor de p for menor do que o nível de significância, a hipótese nula é rejeitada, caso contrário, a hipótese nula não é rejeitada. Nesse exemplo, como o valor de p = 0,026 < nível de significância = 0,05, a hipótese nula é rejeitada.

6.5 Intervalo de confiança (IC)

O conteúdo desta seção pode ser visualizado neste vídeo.

Na seção anterior, rejeitamos a hipótese nula de que a diferença observada entre as médias de ácido fólico para os dois métodos de ventilação é nula. Porém a diferença de médias observada no estudo não necessariamente é o valor real da diferença de médias nas populações de pacientes submetidos aos dois tratamentos, já que ela foi obtida em duas amostras pequenas de pacientes das duas populações. Como poderíamos responder à terceira questão apresentada ao final da seção 6.3.1:

que faixa de valores da diferença entre as médias de ácido fólico dos dois grupos conteria o real valor da diferença dos valores de ácido fólico nas populações submetidas aos dois tipos de tratamento?

Vamos ver que não podemos afirmar com certeza que uma faixa de valores contém o valor rela da diferença das médias entre os dois grupos. Na seção anterior, se a diferença de médias observada no estudo se situasse fora da região crítica do teste de hipótese, não rejeitaríamos a hipótese de igualdade de médias entre os dois grupos. Podemos considerar que a hipótese nula é compatível com todos os valores de diferença de médias compreendidos entre o limites inferior e superior da região crítica. Como a diferença observada no estudo está dentro dos limites da região crítica, então a hipótese nula não é compatível com a diferença observada entre as médias das duas amostras do estudo.

Apesar de a hipótese nula frequentemente se referir a diferenças de médias igual a zero, nada impede que se teste uma diferença de médias com qualquer valor. Então poderíamos pensar em verificar um conjunto hipóteses nulas que não seriam rejeitadas pelo valor da diferença de médias observado nesse estudo, ou dito de outra forma, um conjunto de hipóteses nulas que seriam compatíveis com a diferença de médias observada nesse estudo. Esse conjunto de diferenças de médias correspondentes a hipóteses nulas compatíveis com a diferença de médias observada no estudo é o intervalo de confiança para a real diferença de médias dos valores de ácido fólico entre os dois tipos de ventilação.

Vamos supor que o efeito da ventilação N2O+O2,op fosse reduzir o valor de ácido fólico de um valor D em relação à ventilação N2O+O2,24h. Então a diferença entre as distribuições dos valores de ácido fólico dos grupos N2O+O2,24h e N2O+O2,op pode ser removida simplesmente subtraindo D do valor de ácido fólico para cada paciente do grupo N2O+O2,24h, e o teste de randomização poderia ser aplicado como na seção anterior. Para obtermos o limite inferior do intervalo de confiança, identificamos o valor de D tal que a diferença de médias observada no estudo seja igual ao valor crítico superior para a hipótese nula cuja diferença de médias é D. Vamos chamar esse valor de LI. Esse valor é obtido por tentativa e erro, testando-se diversos valores de D até encontrar aquele para o qual a distribuição das diferenças de médias sob a hipótese nula tenha como valor crítico superior a diferença de médias observada no estudo (60,2 \(\mu\)g/l).

Ao clicarmos no botão Limite Inferior do Intervalo de Confiança da aplicação da figura 6.5, o valor de LI  será  calculado  para  o exemplo do ácido fólico. A linha verde na figura 6.9  mostra  o  valor  de  LI (10,34 \(\mu g/l\)), sendo esse a média da diferença de médias sob a hipótese nula para a qual a área sob o histograma acima do valor observado da diferença de médias no estudo (linha vermelha) é igual a 2,5% (metade do nível de significância). Como esse processo se baseia em amostras aleatórias, podem ser observados valores não exatamente iguais ao valor de LI acima cada vez que a aplicação é executada.

Cálculo do limite inferior do intervalo de confiança para a diferença das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.6.

Figura 6.9: Cálculo do limite inferior do intervalo de confiança para a diferença das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.6.

Processo análogo é feito para calcularmos o limite superior (LS) do intervalo de confiança para a diferença de médias do ácido fólico entre os dois métodos de ventilação. Ao clicarmos no botão Limite Superior do Intervalo de Confiança da aplicação da figura 6.5, o valor de LS será calculado para o exemplo do ácido fólico. A linha verde na figura 6.10 mostra o valor de LS (110,02 \(\mu\)g/l), sendo esse a média da diferença de médias sob a hipótese nula para a qual a área sob o histograma abaixo do valor observado da diferença de médias no estudo (linha vermelha) é igual a 2,5% (metade do nível de significância). Novamente, como esse processo se baseia em amostras aleatórias, podem ser observados valores não exatamente iguais ao valor de LS acima cada vez que a aplicação é executada.

Cálculo do limite superior do intervalo de confiança para a diferença das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.6.

Figura 6.10: Cálculo do limite superior do intervalo de confiança para a diferença das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.6.

Assim o intervalo de confiança ao nível de 95% para a diferença de médias de ácido fólico entre os métodos de ventilação, N2O+O2,24h e N2O+O2,op, é dado pelo intervalo [10,34 \(-\) 110,02] \(\mu\)g/l. Esse intervalo é bastante amplo, porque as duas amostras desse estudo possuem poucos pacientes. Observemos que esse intervalo de confiança não inclui a hipótese nula de igualdade de médias entre os dois métodos de ventilação.

Assim, para esse exemplo, o intervalo de confiança com nível de confiança 95% pode ser interpretado como:

1) O IC [10,34 – 110,02] ug/l é o conjunto de valores da diferença de médias de ácido fólico entre os dois métodos de ventilação que são compatíveis com a diferença de médias observada no estudo (60,18 ug/l), com um nível de confiança de 95%, no sentido de que esse IC inclui todas as diferenças de médias entre os dois grupos que correspondem a hipóteses nulas que não seriam rejeitadas com o nível de significância de 5% estabelecido no teste.

Todo intervalo de confiança está associado a um nível de confiança que é o complemento do nível de significância do teste de hipótese. Um intervalo de confiança ao nível de 90% seria mais estreito do que o intervalo de confiança ao nível de 95%.

6.6 Exemplo de teste sem rejeição da hipótese nula

Vamos supor que a amostra de pacientes submetidos à ventilação N2O+O2,24h contivesse os valores mostrados no campo Grupo 1 do painel lateral da figura 6.11. O nível de confiança também foi alterado para 90%.

Alteração na aplicação da figura 6.5 nos valores do grupo 1 (N2O+O2,24h) e do nível de confiança para 90%.

Figura 6.11: Alteração na aplicação da figura 6.5 nos valores do grupo 1 (N2O+O2,24h) e do nível de confiança para 90%.

O gráfico de Stripchart dos valores de ácido fólico nos dois grupos de tratamento é mostrado na figura 6.12. É possível observar que os valores de ácido fólico tendem a ser mais elevados no grupo N2O+O2,24h, mas não tão elevados quanto no exemplo anterior.

Stripchart dos valores de ácido fólico mostrados na figura 6.11 para os dois métodos de ventilação.

Figura 6.12: Stripchart dos valores de ácido fólico mostrados na figura 6.11 para os dois métodos de ventilação.

As médias dos valores de ácido fólico nos dois grupos são mostradas abaixo, sendo a diferença entre elas de 24,18 \(\mu\)g/l. :

##                mean n
## N2O+O2,24h 280.6250 8
## N2O+O2,op  256.4444 9

A figura 6.13, mostra a distribuição dos valores da diferença de médias de ácido fólico entre os dois métodos de ventilação, supondo que a hipótese nula fosse verdadeira.

Teste para verificar a hipótese nula de igualdade das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.12.

Figura 6.13: Teste para verificar a hipótese nula de igualdade das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.12.

Podemos observar que a diferença de médias do ácido fólico para os dois grupos observada nesta seção se situa fora da região crítica do teste, o que é confirmado pela figura 6.14, obtida ao clicarmos no botão Testar hipótese nula da aplicação. O valor de p = 2 x 0,068 = 0,136 > 0,10. A hipótese nula não é rejeitada.

Teste para verificar a hipótese nula de igualdade das médias de ácido fólico nos dois tipos de ventilação cujos valores são mostrados na figura 6.11.

Figura 6.14: Teste para verificar a hipótese nula de igualdade das médias de ácido fólico nos dois tipos de ventilação cujos valores são mostrados na figura 6.11.

Os limites inferior e superior do intervalo de confiança nesse exemplo são mostrados nas figuras 6.15 e 6.16, respectivamente.

Cálculo do limite inferior do intervalo de confiança para a diferença das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.11.

Figura 6.15: Cálculo do limite inferior do intervalo de confiança para a diferença das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.11.

Cálculo do limite superior do intervalo de confiança para a diferença das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.11.

Figura 6.16: Cálculo do limite superior do intervalo de confiança para a diferença das médias de ácido fólico entre os dois tipos de ventilação cujas amostras são mostradas na figura 6.11.

Assim o intervalo de confiança ao nível de 90% para a diferença de médias de ácido fólico entre os métodos de ventilação desse exemplo, N2O+O2,24h e N2O+O2,op, é dado pelo intervalo [-2,64; 51,01] \(\mu g/l\). Observemos que esse intervalo de confiança inclui a hipótese nula de igualdade de médias entre os dois métodos de ventilação.

Assim quando o intervalo de confiança inclui o valor estabelecido pela hipótese nula, a mesma não é rejeitada. Quando o intervalo de confiança não contém o valor estabelecido pela hipótese nula, a mesma é rejeitada.

Os intervalos de confiança são mais informativos do que o valor de p, já que a sua inspeção permite não somente a tomada de decisão sobre a rejeição ou não da hipótese nula, como também dá uma ideia da precisão da estimativa do parâmetro que está sendo estimado, nesse exemplo a diferença de médias de ácido fólico entre os dois métodos de ventilação.

6.7 Uso inadequado de testes de hipótese

O conteúdo desta seção e a apresentação de valores de p e intervalos de confiança na literatura médica podem ser visualizados neste vídeo.

O uso de testes de hipótese é pervasivo na literatura na área de saúde. Às vezes, ele é realizado em situações que não justificam a sua utilização. A figura 6.17 mostra um exemplo. Trata-se de um estudo controlado randomizado, onde dois grupos de pacientes foram alocados aleatoriamente em dois grupos: um grupo de intervenção e um grupo controle. A tabela mostrada na figura realiza testes de hipótese para avaliar se a diferença de médias (ou proporções) entre os dois grupos para cada uma das variáveis clínicas da tabela, logo imediatamente após a randomização, é igual a zero. Na última coluna, a tabela apresenta o valor de p para o teste realizado para a variável correspondente. Tais testes de hipótese não fazem sentido. Pense um pouco por que.

Situação em que a realização de um teste de hipótese não é adequado. Fonte: tabela 1 do estudo de (Rocha et al. 2009) (CC BY-NC).

Figura 6.17: Situação em que a realização de um teste de hipótese não é adequado. Fonte: tabela 1 do estudo de (Rocha et al. 2009) (CC BY-NC).

Ora, o que significa o valor de p? Se a hipótese nula for verdadeira, então p está relacionado à probabilidade se observar um valor da estatística utilizada igual ou mais afastado do valor observado na amostra. Nesse exemplo, pela própria natureza de um ensaio controlado randomizado, os dois grupos foram criados aleatoriamente com elementos provenientes da mesma população. Assim, logo após a randomização, qualquer diferença observada entre os dois grupos é fruto do acaso e a hipótese nula é necessariamente verdadeira. Não há cabimento em testá-la.

6.8 Uso de modelos para o cálculo do intervalo de confiança

O conteúdo desta seção e da seção 6.9 podem ser visualizados neste vídeo.

Na seção 6.5, foi utilizado um método de randomização para a obtenção do intervalo de confiança para a diferença de médias do ácido fólico entre os dois métodos de ventilação. Em determinadas situações, existem expressões analíticas que fornecem os limites do intervalo de confiança.

A seção 3.3.5 do capítulo 3 introduziu a distribuição normal para variáveis numéricas. Essa distribuição será vista com mais profundidade no capítulo 11.

Se supusermos que os valores de uma variável numérica para cada uma de duas populações de pacientes tenha uma distribuição normal com mesma variância e com médias \(\mu_1\) e \(\mu_2\) (figura 6.18), então o intervalo com nível de confiança \((100-\alpha)\)% da diferença de médias entre os grupos é dado por:

Distribuições normais para uma variável numérica em duas populações com mesma variância, mas médias diferentes.

Figura 6.18: Distribuições normais para uma variável numérica em duas populações com mesma variância, mas médias diferentes.

\[\begin{align} (\bar{x}{_1}- \bar{x}{_2}) - t_{gl, 1-\alpha/2}\ {s\ \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \leq (\mu_1 - \mu_2) \leq (\bar{x}{_1}- \bar{x}{_2}) + t_{gl, 1-\alpha/2}\ {s\ \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \tag{6.1} \end{align}\]

onde \(\bar{x}{_1}\) e \(\bar{x}{_2}\) são as médias amostrais dos grupos 1 e 2, respectivamente, e \(s\) é uma estimativa do desvio padrão comum das duas distribuições, obtida a partir da média ponderada das estimativas \(s_1^2\) e \(s_2^2\) das variâncias das duas amostras extraídas de cada uma das duas populações. Os pesos nessa média são respectivamente iguais a (n1 – 1) e (n2 – 1), onde n1 é o tamanho da amostra do grupo 1 e n2 é o tamanho da amostra do grupo 2, respectivamente:

\(\begin{aligned} &\ s^2 = \frac{(n_1 - 1)s_1^2+(n_2 - 1)s_2^2}{n_1+n_2-2} \end{aligned}\)

\(t_{gl, 1-\alpha/2}\) é o quantil \(1-\alpha/2\) da distribuição t de Student com (n1 + n2 – 2) graus de liberdade (gl).

A origem da expressão (6.1) e mais detalhes sobre a distribuição t de Student serão objetos dos capítulos 14 e 16.

Por ora, vamos aplicar a fórmula (6.1) ao exemplo do ácido fólico. Nesse exemplo, as médias, variâncias e tamanhos amostrais dos grupos N2O+O2,24h (1) e N2O+O2,op (2), são:

\(\bar{x}{_1} = 316,6\ \mu g/l\)
\(\bar{x}{_2} = 256,4\ \mu g/l\)
\(s_1^2 = 3447,7 (\mu g/l)^2\)
\(s_2^2 = 1378,0 (\mu g/l)^2\)
\(s = 48,41 \mu g/l\)
\(n_1 = 8\)
\(n_2 = 9\)

O valor de gl = 15 e \(t_{15, 0,975} = 2,13\).

Substituindo os dados acima na expressão (6.1), iremos obter o seguinte intervalo de confiança.

IC: [10,04 \(-\) 110,3] \(\mu\)g/l

Esse intervalo é bastante próximo daquele que obtivemos na seção 6.5: [10,34 \(-\) 110,02] \(\mu\)g/l.

6.9 Interpretação do intervalo de confiança

Uma interpretação do intervalo de confiança para o exemplo do ácido fólico foi fornecida ao final da seção 6.5 e vamos repetí-la aqui:

1) O IC (10,34 – 110,02) ug/l é o conjunto de valores da diferença de médias de ácido fólico entre os dois métodos de ventilação que são compatíveis com a diferença de médias observada no estudo (60,18 ug/l), com um nível de confiança de 95%, no sentido de que esse IC inclui todas as diferenças de médias entre os dois grupos que correspondem a hipóteses nulas que não seriam rejeitadas com o nível de significância de 5% estabelecido no teste.

No caso geral, onde um determinado parâmetro (média de uma população, diferença de médias entre duas populações, risco relativo, etc.) está sendo estudado, o intervalo de confiança para esse parâmetro com um nível de confiança igual a \((100-\alpha)\)% é o conjunto de valores do parâmetro estudado que são compatíveis com a estimativa do parâmetro obtida no estudo, no sentido de que esse IC inclui todos os valores do parâmetro que correspondem a hipóteses nulas que não seriam rejeitadas com o nível de significância estabelecido no teste.

Para uma variável numérica que possui uma distribuição normal com média \(\mu\) e desvio padrão \(\sigma\) (figura 6.19) numa população, o intervalo de confiança para a média da população é dado pela expressão:

\[\begin{align} \left[\bar{x} - z_{1-\alpha/2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\right] \tag{6.2} \end{align}\]

onde \(\bar{x}\) é a média da amostra de tamanho n extraída aleatoriamente da população, \(\sigma\) é a variância da população, e \(z_{1-\alpha/2}\) é o quantil \(1-\alpha/2\) da distribuição normal padrão.

Variável numérica com uma distribuição normal em uma população.

Figura 6.19: Variável numérica com uma distribuição normal em uma população.

A expressão (6.2) é utilizada na aplicação Intervalos de confiança (figura 6.20), que nos fornece uma outra interpretação para o intervalo de confiança. Essa aplicação calcula e exibe intervalos de confiança para a média de uma distribuição normal, a partir de um certo número de amostras extraídas dessa distribuição. Os parâmetros da distribuição normal, bem como o nível de confiança, o tamanho de cada amostra e o número de amostras são especificados pelo usuário. O painel principal é atualizado sempre que o usuário pressiona o botão Reamostrar (mais intervalos de confiança são exibidos) ou Limpar (limpa a tela).

Aplicação que calcula e exibe intervalos de confiança para a média de uma distribuição normal calculados a partir de um certo número de amostras extraídas dessa distribuição.

Figura 6.20: Aplicação que calcula e exibe intervalos de confiança para a média de uma distribuição normal calculados a partir de um certo número de amostras extraídas dessa distribuição.

A figura 6.21 exibe intervalos de confiança para 50 amostras de tamanho 10 de uma distribuição normal N(80, 400). Para cada amostra, foi calculado o intervalo de confiança ao nível de 95% conforme a expressão (6.2), com \(z_{1-\alpha/2} = 1,96\) e \(\sigma = 20\). Os 50 intervalos de confiança são exibidos no painel principal da figura.

Intervalos com 95% de confiança para a média de uma distribuição normal N(80, 400), calculados a partir de 50 amostras de tamanho 10.

Figura 6.21: Intervalos com 95% de confiança para a média de uma distribuição normal N(80, 400), calculados a partir de 50 amostras de tamanho 10.

Ao selecionarmos a opção Mostrar média da população na aplicação, uma linha preta, indicando a média real da população, é exibida, e duas linhas verticais em vermelho indicam distâncias iguais a \(z_{1-\alpha/2} \frac{\sigma}{\sqrt{n}}\) acima e abaixo da média da distribuição (figura 6.22). Para cada intervalo de confiança, o centro com uma marcação representa a média da respectiva amostra. Observem que a maioria dos intervalos de confiança contêm a média da distribuição, mas alguns deles (em vermelho) não contêm a média.

Figura 6.21 com retas que mostram a média real da população (linha vertical preta) e indicam distâncias iguais a \(z_{1-\alpha/2} \frac{\sigma}{\sqrt{n}}\) acima e abaixo da média da distribuição (linhas verticais em vermelho).

Figura 6.22: Figura 6.21 com retas que mostram a média real da população (linha vertical preta) e indicam distâncias iguais a \(z_{1-\alpha/2} \frac{\sigma}{\sqrt{n}}\) acima e abaixo da média da distribuição (linhas verticais em vermelho).

É de se esperar que nem sempre o intervalo de confiança contenha o valor real do parâmetro que ele estima. No exemplo da figura 6.22, o nível de confiança é de 95%. Isso significa que, se extraíssemos um número infinito de amostras aleatórias da população e calculássemos os respectivos intervalos de confiança, em 95% das vezes o intervalo de confiança irá incluir a média real da população e em 5% das vezes, o intervalo de confiança não irá incluir a média. Isso equivale a dizer que, a cada 100 intervalos de confiança calculados, em média 5 (5%) não contêm a média da distribuição. Na figura 6.22, 4 intervalos em 50 não contêm a média real da distribuição.

A figura 6.23, mostra o uso da aplicação com a mesma distribuição normal da figura 6.20, com o mesmo número de amostras, mas com três tamanhos amostrais diferentes (1, 10 e 50). Observem que a precisão dos intervalos de confiança aumenta à medida que o tamanho das amostras aumenta de 1 para 10 e de 10 para 50. Isso é de se esperar, porque o erro padrão \(\frac{\sigma}{\sqrt{n}}\), utilizado no cálculo do intervalo de confiança, diminui com n. 

O leitor deve experimentar com diferentes níveis de confiança, número de amostras, tamanhos amostrais e parâmetros da distribuição normal.

Intervalos de confiança para diferentes tamanhos de amostra (a-1, b-10, c-50).

Figura 6.23: Intervalos de confiança para diferentes tamanhos de amostra (a-1, b-10, c-50).

Para qualquer estudo específico, não é possível garantir que o intervalo de confiança calculado contenha o parâmetro real da população.

Resumindo esta seção, podemos interpretar o intervalo de confiança das duas formas seguintes:

1) o intervalo de confiança para um determinado parâmetro com um nível de confiança igual a \(\boldsymbol{(100-\alpha)}\)% é o conjunto de valores do parâmetro estudado que são compatíveis com a estimativa do parâmetro obtida no estudo, no sentido de que esse IC inclui todos os valores do parâmetro que correspondem a hipóteses nulas que não seriam rejeitadas com o nível de significância estabelecido no teste.

2) dado um nível de confiança estabelecido a priori \(\boldsymbol{(100-\alpha)}\)%, temos uma confiança de \(\boldsymbol{(100-\alpha)}\)% que o IC contenha o real valor do parâmetro estudado. Essa confiança deve ser interpretada no sentido de que, se repetíssemos o estudo um número infinito de vezes e, em cada vez, calculássemos o IC, em \(\boldsymbol{(100-\alpha)}\)% das vezes, o IC conteria o real valor do parâmetro estudado.

Para o exemplo específico do ácido fólico, temos as seguintes interpretações para o intervalo de confiança obtido na seção 6.5:

1) O IC (10,34 – 110,02) ug/l é o conjunto de valores da diferença de médias de ácido fólico entre os dois métodos de ventilação que são compatíveis com a diferença de médias observada no estudo (60,18 ug/l), com um nível de confiança de 95%.

2) Com uma confiança de 95%, o intervalo de valores entre 10,34 e 110,02 ug/l inclui o real valor da diferença entre as médias de ácido fólico para os dois métodos de ventilação.

6.10 Significância estatística e relevância clínica

O conteúdo desta seção pode ser visualizado neste vídeo.

Na expressão (6.1) para o cálculo do intervalo de confiança para a diferença de médias entre dois grupos, quando a variável aleatória em cada grupo segue um distribuição normal com mesma variância, vemos que a largura do intervalo de confiança vai diminuir se aumentarmos os valores de n1 e n2, ou seja, se aumentarmos o número de elementos da amostra de pacientes nos dois grupos. Nesse caso, dizemos que a precisão do intervalo de confiança aumenta à medida que o tamanho da amostra aumenta.

Também na expressão (6.2) para o cálculo do intervalo de confiança para a média de uma população, supondo que a variável aleatória segue uma distribuição normal, vemos que a precisão do intervalo de confiança vai aumentar se aumentarmos o tamanho amostral.

Esse é um comportamento geral.

Isso nos leva à conclusão de que podemos fazer com que qualquer diferença entre o valor observado de um parâmetro em uma amostra e o valor do parâmetro sob a hipótese nula seja estatisticamente significativa desde que tenhamos amostras com tamanho suficientemente grande. Por outro lado, mesmo que uma hipótese nula seja rejeitada em um estudo, isso não quer dizer que o efeito observado na amostra seja clinicamente relevante.

Vamos considerar um exemplo fictício para entendermos essa afirmação. Vamos supor que, clinicamente, uma redução da pressão arterial sistólica mínima de 15 mmHg seja um valor considerado clinicamente relevante e reduções abaixo desse valor não sejam interessantes do ponto de vista clínico. Então vamos supor que dois medicamentos, um experimental e outro utilizado como controle, tenham sido utilizados em duas amostras de pacientes hipertensos e, depois de um tempo, verificou-se os valores de pressão arterial sistólica em ambos os grupos, e o intervalo de confiança foi construído para a diferença de médias de pressão arterial sistólica entre os dois grupos.

A figura 6.24 mostra 5 situações possíveis de acontecer, dependendo dos efeitos dos medicamentos e do tamanho amostral utilizado no estudo.

A linha horizontal contínua representa a hipótese nula (o medicamento experimental não altera os valores da média da pressão arterial sistólica em relação ao medicamento controle). A linha horizontal tracejada representa uma diferença média de pressão de 15 mmHg (o valor mínimo considerado clinicamente relevante).

Cada linha vertical representa o intervalo de confiança para a diferença de médias de pressão arterial sistólica entre os dois grupos em um estudo hipotético. Vamos discutir cada um dos possíveis resultados.

Diferentes situações que mostram que não há relação entre a relevância clínica e a significância estatística.

Figura 6.24: Diferentes situações que mostram que não há relação entre a relevância clínica e a significância estatística.

Em 6.24a, o intervalo de confiança está todo acima do valor mínimo considerado clinicamente relevante. Nesse caso, consideramos que o resultado do estudo é clinicamente relevante e, como a hipótese nula é rejeitada, o estudo é também estatisticamente significativo. Dizemos que o medicamento experimental é mais efetivo do que o medicamento controle.

Em 6.24b, o intervalo de confiança não inclui o valor 0 (hipótese nula). Portanto o estudo é estatisticamente significativo, porém o intervalo de confiança contém valores abaixo e acima do mínimo considerado clinicamente relevante. Nesse caso, consideramos que possivelmente o efeito do medicamento experimental é clinicamente relevante, mas seria necessária uma amostra maior para sabermos se o intervalo de confiança estaria todo acima ou todo abaixo do mínimo considerado clinicamente relevante.

Em 6.24c, o intervalo de confiança não inclui o valor 0 (hipótese nula). Portanto o estudo é estatisticamente significativo, porém o intervalo de confiança contém somente valores abaixo do mínimo considerado clinicamente relevante. Apesar de o estudo mostrar um efeito do medicamento experimental na redução da pressão arterial, esse efeito não é considerado clinicamente relevante.

Em 6.24d, o intervalo de confiança inclui o valor 0 (hipótese nula). Portanto o resultado do estudo não é estatisticamente significativo, ou seja, a hipótese nula não é rejeitada, porém o intervalo de confiança contém valores acima e abaixo do mínimo considerado clinicamente relevante. Nesse caso, consideramos que possivelmente o efeito do medicamento experimental é clinicamente relevante, mas seria necessária uma amostra maior para sabermos se o intervalo de confiança estaria todo acima ou todo abaixo do mínimo considerado clinicamente relevante.

Em 6.24e, o intervalo de confiança contém o valor da hipótese nula e está todo abaixo do valor mínimo considerado clinicamente relevante. Nesse caso, consideramos que o resultado do estudo não é clinicamente relevante e, como a hipótese nula não é rejeitada, o estudo também não é estatisticamente significativo.

Concluindo, significância estatística não implica relevância clínica e uma possível relevância clínica não implica significância estatística. É importante observarmos o intervalo de confiança para o efeito que estamos estudando para extrairmos conclusões sobre um estudo e não somente verificarmos a significância estatística do estudo.

Na avaliação da relevância clínica, também devemos levar em conta o contexto. Por exemplo, no caso c, mesmo que a redução de pressão causada pelo medicamento experimental não seja relevante clinicamente, pode ser que esse medicamento provoque menos efeitos adversos do que o medicamento controle, ou custe menos. Nesse caso, o medicamento experimental pode ser mais eficiente, levando em conta um contexto mais amplo do que somente o efeito sobre a pressão arterial sistólica.

6.11 Exercício

  1. Nas tabelas apresentadas nas figuras 6.1, 6.2, 6.3 e 6.4, interprete os intervalos de confiança apresentados e indique, para cada valor de p apresentado, se a respectiva hipótese nula foi ou não rejeitada.

Referências

Amess, J A L, J F Burman, G M Rees, D G Nancekievill, and D L Mollin. 1978. “Megaloblastic Haemopoiesis in Patients Receiving Nitrous Oxide.” Lancet 312 (8085): 339–42. https://doi.org/https://doi.org/10.1016/S0140-6736(78)92941-0.
Cruz, Renan Nunes, Giuliano Retzlaff, Ricardo Zanetti Gomes, and Péricles Martim Reche. 2015. “Influência Do Diabetes Mellitus Sobre a Perviedade Da Fístula Arteriovenosa Para Hemodiálise.” J Vasc Bras 14 (3): 217–23.
Haijanen, Jussi, Suvi Sippola, Risto Tuominen, Juha Grönroos, Hannu Paajanen, Tero Rautio, Pia Nordström, et al. 2019. “Cost Analysis of Antibiotic Therapy Versus Appendectomy for Treatment of Uncomplicated Acute Appendicitis: 5-Year Results of the APPAC Randomized Clinical Trial.” PLoS ONE 14 (7): e0220202. https://doi.org/https://doi.org/10.1371/journal.pone.0220202.
Kho, Michelle E, Alexander J Molloy, France J Clarke, Julie C Reid, Margaret S Herridge, Timothy Karachi, Bram Rochwerg, et al. 2019. “Multicentre Pilot Randomised Clinical Trial of Early in-Bed Cycle Ergometry with Ventilated Patients.” BMJ Open Resp Res 6: e000383. https://doi.org/10.1136/bmjresp-2018-000383.
Manly, Bryan F J. 1997. Randomization, Bootstrap and Monte Carlo Methods in Biology. 2nd ed. London: Chapman & Hall.
Medeiros, Josimar dos Santos, Maria Amélia Amado Rivera, Maria José Cariri Benigna, Maria Aparecida Alves Cardoso, and Maria José de Carvalho Costa. 2003. “Estudo Caso-Controle Sobre Exposição Precoce Ao Leite de Vaca e Ocorrência de Diabetes Mellitus Tipo 1 Em CampinaGrande, Paraíba.” Rev Bras Saúde Matern Infant 3 (3): 271–80.
Rocha, Vanety Silva, Graziella Aliti, Maria Antonieta Moraes, and Eneida Rejane Rabelo. 2009. “Repouso de Três Horas Não Aumenta Complicações Após Cateterismo Cardíaco Diagnóstico Com Introdutor Arterial 6 F: Ensaio Clínico Randomizado.” Rev Bras Cardiol Invas 17 (4): 512–17.