Prefácio

Os profissionais de saúde devem conhecer os princípios básicos de Estatística para planejar a realização de estudos, interpretar estatísticas vitais, dados epidemiológicos e resultados de estudos publicados na literatura científica, interagir com estatísticos etc. Diversos textos voltados para o público da área de saúde que abordam os conceitos básicos de Estatística estão disponíveis, alguns com excelente conteúdo e uma abordagem didática. Então cabe a pergunta: por que mais um texto sobre Estatística?

Após alguns anos ensinando Estatística para alunos da pós-graduação em Medicina, percebi a necessidade de tornar as aulas mais eficientes por meio da combinação de teoria e prática, fazendo uso de um pacote estatístico para aplicar os conceitos teóricos em dados reais. Além disso, diversos conceitos básicos em Bioestatística, como intervalo de confiança, teorema do limite central, curva ROC etc., podem ser ilustrados por meio de aplicações onde o aluno pode visualizar o conceito interagindo com o computador.

O presente texto vem sendo desenvolvido nos últimos três anos, por ocasião da reforma curricular do curso de Medicina da Universidade do Estado do Rio de Janeiro. Este texto combina a apresentação dos conceitos básicos de Estatística com o uso do ambiente para análise de dados R e aplicações que permitem ao leitor interagir com as mesmas, alterando parâmetros e verificando a resposta.

A opção pela adoção do R se justifica pelo fato de sua disponibilização como código aberto (open source), por sua ampla utilização em nível mundial, pelo constante aperfeiçoamento de seus pacotes e constante surgimento de novos pacotes. Apesar de sua utilização por meio de linhas de comando amedrontar alunos e profissionais da área de saúde com pouca familiaridade com programação de computadores, este texto utiliza principalmente um pacote do R que oferece uma interface gráfica para as funcionalidades e as análises estatísticas mais utilizadas. O texto ilustra o passo a passo de como utilizar o R Commander, e eventualmente o RStudio, para realizar as operações no R, seguida de uma explicação do comando gerado a partir da interface gráfica. Em algumas situações, nas quais o R Commander não dispõe de recursos, o texto mostra como escrever um comando que realizar a função desejada.

Além do R, ao longo do texto são inseridas 24 aplicações, desenvolvidas por meio do pacote shiny do R, que ilustram diversos conceitos básicos de Estatística. Espera-se que, com essas aplicações, o aluno possa apreender de maneira mais efetiva alguns dos conceitos abordados.

Para quem deseja aprofundar os conhecimentos do R, o texto disponível neste endereço mostra como utilizar o RStudio e R Commander para manipular um arquivo de dados, criar gráficos, gerenciar uma sessão e obter um conhecimento básico sobre funções e estruturas de controle do R.

Para o aluno que entra em contato pela primeira vez com um conteúdo de Estatística, recomenda-se que os capítulos sejam lido na ordem apresentada. As seções marcadas em negrito podem ser omitidas numa primeira leitura do texto, sem perda de continuidade.

O capítulo 1 apresenta uma introdução sobre como as variáveis são organizadas em arquivos para a realização de análises estatísticas e as escalas de medidas de variáveis.

Em seguida, uma sequência de três capítulos são relativos à obtenção de estatísticas descritivas e visualização de dados. O capítulo 2 mostra como obter e interpretar tabelas de frequências uni e multivariada no R. O capítulo 3 apresenta as medidas de tendência central e dispersão para variáveis numéricas mais utilizadas na literatura médica. O capítulo 4 apresenta diversos gráficos utilizados para visualizar a distribuição dos dados, tanto para variáveis categóricas quanto para variáveis numéricas.

O capítulo 5 resume os principais desenhos de estudos utilizados em epidemiologia clínica.

O capítulo 6 faz uma introdução à inferência estatística, apresentando os conceitos de teste de hipótese e intervalo de confiança, concluindo por apresentar a importante distinção entre relevância clínica e significância estatística.

O capítulo 7 introduz a noção de probabilidades e alguns conceitos fundamentais, como probabilidade condicional e o teorema de Bayes.

O capítulo 8 apresenta diversas medidas de associação utilizadas em epidemiologia clínica para verificar a associação entre duas variáveis categóricas.

Os capítulos 9, 10 e 11 introduzem, respectivamente, o conceito de variável aleatória, algumas distribuições de probabilidades para variáveis numéricas discretas e o conceito de função densidade de probabilidade, com ênfase na distribuição normal ou gaussiana.

O capítulo 12 apresenta as métricas utilizadas para avaliar a acurácia de testes diagnósticos, tanto para testes cujos resultados são categorias de uma variável, quanto para aqueles baseados em uma variável numérica contínua.

Os capítulos 13, 14 e 15 retomam o tema de inferência estatística, sendo que o capítulo 13 introduz o conceito de estimadores e algumas de suas propriedades e apresenta um teorema importante na análise estatística que é o teorema do limite central.

O capítulo 14 aprofunda o conceito de intervalo de confiança, desta vez mostrando o seu cálculo para a média e a variância de uma distribuição normal. No capítulo 15, são desenvolvidos os conceitos de teste de hipótese, valor de p e poder estatístico.

Os capítulos seguintes introduzem algumas análises estatísticas frequentemente utilizadas em saúde. O capítulo 16 apresenta o teste t de Student para dois grupos independentes ou dependentes e os testes não paramétricos alternativos quando as suposições para a realização do teste t não são satisfeitas. O capítulo 17 continua o tema iniciado no capítulo 8 (medidas de associação), desta vez mostrando os cálculos dos intervalos de confiança e o teste qui ao quadrado, tanto para amostras não pareadas quanto para amostras pareadas.

O capítulo 18 introduz a análise de variância, que trata da comparação de médias de uma variável numérica em mais de duas populações.

O capítulo 19 apresenta o modelo de regressão linear simples que trata do relacionamento linear entre duas variáveis numéricas.

Finalmente o capítulo 20 faz uma breve introdução à análise de sobrevida, com ênfase no método de Kaplan-Meier para estimar as curvas de sobrevida em uma ou mais populações de pacientes.

Sergio Miranda Freire, Rio de Janeiro
Dezembro de 2021