Capítulo 2 Um breve tour do R, RStudio e R Commander

Vamos neste capítulo fazer um breve tour dos recursos do R. Não se preocupem em entender todo o processo realizado neste capítulo. Nos capítulos seguintes, serão vistos com mais detalhes como utilizar o R para realizar os procedimentos mostrados neste capítulo e outros recursos.

2.1 Carregando o R Commander

Execute o RStudio.

Vamos carregar um conjunto de dados já disponível em um pacote do R. Trata-se do conjunto de dados juul2 do pacote ISwR (GPL-2 | GPL-3). O pacote ISwR precisa ser instalado. Para instalá-lo, pode-se digitar diretamente o comando abaixo na console do RStudio e pressionar a tecla Enter (figura 2.1).

Console do RStudio, após a digitação da função install.packages("ISwR").

Figura 2.1: Console do RStudio, após a digitação da função install.packages("ISwR").

Em seguida, digitamos os comandos abaixo na console do RStudio e pressionamos a tecla Enter (figura 2.2).

Console do RStudio, após a digitação dos comandos para carregar o pacote Rcmdr.

Figura 2.2: Console do RStudio, após a digitação dos comandos para carregar o pacote Rcmdr.

2.2 Carregando um conjunto de dados

Vamos abrir o conjunto de dados juul2 do pacote ISwR. No R Commander, digitamos o comando abaixo na área de Script e clicamos no botão Submeter (figura 2.3):

Área de Script do R Commander, com o comando para carregar o pacote ISwR.

Figura 2.3: Área de Script do R Commander, com o comando para carregar o pacote ISwR.

Em seguida, selecionamos a opção abaixo no R Commander (figura 2.4):

\[\text{Dados} \Rightarrow \text{Conjunto de dados em pacotes} \Rightarrow \text{Ler dados de pacotes 'atachados'}\]

A partir de agora, toda opção a ser selecionada no menu será apresentada como uma sequência de itens a serem selecionados como acima.

Menu do R Commander com a opção para carregar arquivos de pacotes do R.

Figura 2.4: Menu do R Commander com a opção para carregar arquivos de pacotes do R.

Na tela Leia dados do pacote, observem que alguns pacotes de dados aparecem na área à esquerda da figura 2.5: carData, datasets, ISwR e sandwich. Para vermos a lista dos conjuntos de dados em ISwR, damos um duplo clique nesse pacote e uma lista de conjuntos de dados será mostrada à direita. Rolamos essa lista e selecionamos o conjunto juul2. Para visualizar a estrutura desse conjunto de dados, clicamos no botão Ajuda para o conjunto de dados selecionado (seta verde na figura). Uma descrição desse conjunto de dados será exibida na aba Help do RStudio (figura 2.6). Ao clicarmos no botão OK na figura 2.5, após termos selecionado juul2, esse conjunto de dados será carregado no R Commander (figura 2.7).

Visualizando a lista de conjuntos de dados do pacote ISwR e solicitando a ajuda para o conjunto juul2 (seta verde).

Figura 2.5: Visualizando a lista de conjuntos de dados do pacote ISwR e solicitando a ajuda para o conjunto juul2 (seta verde).

Texto com a descrição do conjunto de dados juul2 exibido no navegador de seu computador.

Figura 2.6: Texto com a descrição do conjunto de dados juul2 exibido no navegador de seu computador.

Tela do R commander após o carregamento do conjunto de dados juul2. Observem a função que foi executada – data(juul2, package="ISwR") – e o nome do conjunto selecionado (seta verde).

Figura 2.7: Tela do R commander após o carregamento do conjunto de dados juul2. Observem a função que foi executada – data(juul2, package="ISwR") – e o nome do conjunto selecionado (seta verde).

Na console do RStudio, aparece a seguinte mensagem abaixo do comando, indicando o número de registros e de variáveis no conjunto de dados juul2:

RcmdrMsg: [2] NOTA: Os dados juul2 tem 1339 linhas e 8 colunas.

2.3 Visualizando o conteúdo do conjunto de dados

O conjunto de dados juul2 possui 1339 registros, cada registro com valores de 8 variáveis . Ele contém uma amostra da distribuição da variável insulin-like growth factor (igf1), com os dados coletados em exames físicos, sendo a maior parte dos dados de pessoas em idade escolar, mas também inclui outras faixas etárias. Vamos obter algumas medidas de tendência central e dispersão para as variáveis idade e igf1.

Para visualizarmos o conjunto de dados no R Commander, clicamos no botão Ver conjunto de dados na tela do R Commander (seta verde na figura 2.8).

Visualizando o conteúdo do conjunto de dados juul2.

Figura 2.8: Visualizando o conteúdo do conjunto de dados juul2.

2.4 Resumos numéricos

No item de menu Estatística do R Commander, vamos clicar em Resumos e, a seguir, em Resumos numéricos:

\[\text{Estatística} \Rightarrow \text{Resumo...} \Rightarrow \text{Resumos numéricos...}\]

Na tela Resumos Numéricos, selecionamos as variáveis na aba Dados. Para selecionarmos mais de uma variável, mantemos a tecla Ctrl pressionada enquanto clicar nas variáveis desejadas. Nesse exemplo, vamos selecionar as variáveis age e igf1 (Figura 2.9). Em seguida, selecionamos a aba Estatísticas (seta verde).

Seleção das variáveis para as quais resumos numéricos serão mostrados. A seta verde indica a aba onde podem ser selecionadas as medidas que serão apresentadas.

Figura 2.9: Seleção das variáveis para as quais resumos numéricos serão mostrados. A seta verde indica a aba onde podem ser selecionadas as medidas que serão apresentadas.

Na aba Estatísticas (figura 2.10), observem que as medidas média, desvio padrão, distância interquartil e quantis já estão marcadas. Se desejarmos outros percentis, basta digitá-los na caixa de texto com o rótulo Quantis, separados por vírgula. Ao clicarmos em OK, os resultados serão apresentados na console do RStudio (figura 2.11).

Tela para a seleção das medidas que serão apresentadas nos resumos numéricos.

Figura 2.10: Tela para a seleção das medidas que serão apresentadas nos resumos numéricos.

Resumos numéricos para as variáveis age e igf1.

Figura 2.11: Resumos numéricos para as variáveis age e igf1.

2.5 Recodificação de variáveis

Vamos recodificar a variável sex de juul2, substituindo o valor 1 por “masculino” e o valor 2 por “feminino”.

A operação de recodificação de variáveis é acessada no R Commander da seguinte forma:

\[\text{Dados} \Rightarrow \text{Modificação de variáveis no conjunto de dados} \Rightarrow \text{Recodificar variáveis}\]

A figura 2.12 mostra a caixa de diálogo do R Commander para recodificar uma ou mais variáveis. Para especificarmos a recodificação da variável sex, selecionamos a variável sex e escrevemos o nome da variável que será criada após a recodificação. Nesse exemplo, colocamos o nome sexo_cat. Caso usemos o mesmo nome da variável que será recodificada, os valores da variável sex seriam substituídos pelos valores recodificados.

Caixa de diálogo para especificar a recodificação de uma variável.

Figura 2.12: Caixa de diálogo para especificar a recodificação de uma variável.

Na caixa de texto Definições p/recodificação, escrevemos em cada linha as recodificações. Por exemplo, a primeira linha na figura especifica que o valor 1 será substituído por masculino, a segunda linha especifica que o valor 2 será substituído por feminino. Se marcarmos a opção Faça de cada nova variável um fator, a nova variável será convertida para fator. clicamos em OK e a variável sexo_cat é criada a partir da recodificação da variável sex e é incorporada ao conjunto de dados juul2 como fator. Observem os registros do conjunto de dados após a recodificação.

2.6 Convertendo uma variável numérica para categórica (fator)

Vamos converter a variável tanner para fator (categórica). Selecione a opção:

\[\text{Dados} \Rightarrow \text{Modificação var. conj. dados} \Rightarrow \text{Converter var. numérica para fator}\]

Na caixa de diálogo Converter Variáveis Numéricas p/ Fator (figura 2.13), selecione a variável que será convertida e escolha uma das opções: manter as categorias expressas como número, ou fornecer nomes às categorias. Vamos dar nomes às categorias neste exemplo. No campo Novo nome da variável …, digite o nome da variável que será criada. Se nenhum nome for especificado nesse campo, os nomes das categorias substituirão os valores numéricos na própria variável que será convertida e não será criada uma nova variável.

Passos para criar as categorias de uma variável: selecionamos a variável na lista da esquerda, escolhemos se as categorias serão dadas como texto e damos o nome da nova variável. Clicamos em OK.

Figura 2.13: Passos para criar as categorias de uma variável: selecionamos a variável na lista da esquerda, escolhemos se as categorias serão dadas como texto e damos o nome da nova variável. Clicamos em OK.

Como selecionamos a opção de fornecer os nomes para as categorias, ao clicarmos em OK na figura 2.13, uma nova caixa de diálogo aparece para darmos os nomes das categorias para cada valor numérico (figura 2.14). Finalmente, ao clicarmos em OK, a nova variável, tanner_cat, será criada com as categorias apropriadas.

Especificação das categorias para a variável Tanner.

Figura 2.14: Especificação das categorias para a variável Tanner.

2.7 Diagrama de Barras

Vamos criar um diagrama de barras para as categorias de Tanner no conjunto juul2. Para criar um diagrama de barras no R Commander, selecione a opção:

\[\text{Gráficos} \Rightarrow \text{Gráfico de barras}\] Na caixa de diálogo Gráfico de Barra, na aba Dados, é possível selecionar a variável categórica desejada. No nosso exemplo, vamos criar um diagrama de barras para a variável categórica tanner_cat (figura 2.15). Na aba Opções desta caixa de diálogo (figura 2.16), é possível especificar o tipo de diagrama de barras, a posição das legendas, as legendas do eixo x e y e o título do gráfico. Ao clicarmos em OK, o gráfico será exibido na aba Plots do RStudio (figura 2.17).

 Caixa de diálogo para geração de um diagrama de barras: selecionando a variável.

Figura 2.15: Caixa de diálogo para geração de um diagrama de barras: selecionando a variável.

Caixa de diálogo para geração de um diagrama de barras: especificando o título do gráfico e as legendas dos eixos x e y.

Figura 2.16: Caixa de diálogo para geração de um diagrama de barras: especificando o título do gráfico e as legendas dos eixos x e y.

Diagrama de barras para a variável tanner_cat. São mostradas as frequências de cada categoria de tanner.

Figura 2.17: Diagrama de barras para a variável tanner_cat. São mostradas as frequências de cada categoria de tanner.

O gráfico da figura 2.17 mostra as frequências de cada uma das cinco categorias da classificação de Tanner no conjunto de dados juul2. A categoria I é a mais frequente, seguida da categoria V. As categorias II, III e IV apresentam frequências próximas umas das outras, mas com frequências bem menores do que as categorias I e V.

Caso desejemos visualizar o diagrama de barras da variável sexo_cat separadamente para cada categoria de Tanner, precisamos selecionar sexo_cat como uma variável de agrupamento. Para isso, clicamos na opção Gráfico por grupos na figura 2.15. Seremos então apresentados à caixa de diálogo da figura 2.18, onde selecionamos a variável de agrupamento (sexo_cat). Ao clicarmos em OK, voltamos à tela da figura 2.15. Clicando na aba Opções, mostrada novamente na figura 2.19, podemos escolher entre duas opções de como o diagrama de barras será construído: barras de cada categoria da classificação de Tanner lado a lado para cada valor da variável sexo_cat, ou empilhadas. Selecionando a primeira opção e clicando em OK, será plotado o gráfico da figura 2.20.

Selecionando uma variável de agrupamento para o diagrama de barras da variável sexo_cat para cada cada categoria da classificação de Tanner.

Figura 2.18: Selecionando uma variável de agrupamento para o diagrama de barras da variável sexo_cat para cada cada categoria da classificação de Tanner.

Selecionando a forma como as barras serão apresentadas: lado a lado ou empilhadas. Nesse exemplo, foi selecionada a opção lado a lado.

Figura 2.19: Selecionando a forma como as barras serão apresentadas: lado a lado ou empilhadas. Nesse exemplo, foi selecionada a opção lado a lado.

(ref:capDiagramaBarrasGrupoT) Diagrama de barras lado a lado das frequências das categorias da variável sexo_cat para cada categoria da variável tanner_cat.

(ref:capDiagramaBarrasGrupoT)

Figura 2.20: (ref:capDiagramaBarrasGrupoT)

2.8 Boxplot

Vamos criar um diagrama de boxplot da variável igf1 (fator de crescimento semelhante à insulina tipo 1) para cada categoria da classificação de Tanner, selecionando a opção:

\[\text{Gráficos} \Rightarrow \text{Boxplot}\]

A figura 2.21 mostra a tela de configuração do boxplot. Na aba Dados, selecionamos a variável igf1.

Caixa de diálogo para a geração do boxplot. Nesse exemplo, estamos selecionando a variável igf1.

Figura 2.21: Caixa de diálogo para a geração do boxplot. Nesse exemplo, estamos selecionando a variável igf1.

Para mostrar o boxplot de igf1 para cada categoria da classificação de Tanner, clicamos no botão Gráfico por grupos… na caixa de diálogo do boxplot (figura 2.21) e selecionamos a variável tanner_cat para compor os grupos.

Na aba Opções, digitamos um título para o gráfico e marcamos a opção de não identificar os outliers (2.22). Ao clicarmos em OK, o resultado é mostrado na figura 2.23.

Aba Opções da caixa de diálogo para a geração do boxplot.

Figura 2.22: Aba Opções da caixa de diálogo para a geração do boxplot.

Boxplots para a variável igf1 para cada categoria de Tanner.

Figura 2.23: Boxplots para a variável igf1 para cada categoria de Tanner.

2.9 Histograma

Para construir um histograma no R Commander, selecionamos a opção:

\[\text{Gráficos} \Rightarrow \text{Histograma}\]

Em seguida, selecionamos a variável desejada, igf1 neste exemplo (figura 2.24). Na aba Opções (figura 2.25), vamos selecionar percentagens em Escala do eixo e digitar a legenda do eixo y. Ao clicarmos em OK, o gráfico resultante é mostrado na figura 2.26.

Caixa de diálogo para a criação de um histograma. Na aba Dados, selecionamos a variável numérica desejada.

Figura 2.24: Caixa de diálogo para a criação de um histograma. Na aba Dados, selecionamos a variável numérica desejada.

Caixa de diálogo para a criação de um histograma. Na aba Opções, podemos especificar o número de faixas de valores (classes), a escala do eixo e as legendas.

Figura 2.25: Caixa de diálogo para a criação de um histograma. Na aba Opções, podemos especificar o número de faixas de valores (classes), a escala do eixo e as legendas.

Histograma de frequência relativa da variável igf1.

Figura 2.26: Histograma de frequência relativa da variável igf1.

2.10 Cálculo de nova variável

Vamos supor que desejamos calcular o índice de massa corporal (IMC) para as observações do conjunto de dados juul2. Para isto, utilizamos a seguinte opção no R Commander:

\[\text{Dados} \Rightarrow \text{Modificação variáveis no conj. de dados...} \Rightarrow \text{Computar nova variável...}\]

A figura 2.27 mostra a caixa de diálogo para computar o IMC a partir das variáveis weight e height. A variável height foi dividida por 100, porque ela está em cm.

Caixa de diálogo para especificar o cálculo de uma nova variável.

Figura 2.27: Caixa de diálogo para especificar o cálculo de uma nova variável.

2.11 Diagrama de dispersão

Após o cálculo do IMC, vamos gerar um diagrama de dispersão do IMC x Idade separadamente para os homens e mulheres. Vamos selecionar a opção:

\[\text{Gráficos} \Rightarrow \text{Diagrama de dispersão...}\]

Na caixa de diálogo do diagrama de dispersão, selecionamos as variáveis age para o eixo X e a variável imc para o eixo Y (figura 2.28). Em seguida, clicamos no botão Gráfico por grupos selecionamos a variável sexo_cat (figura 2.29). Clicamos em OK e, em seguida, na aba Opções (figura 2.30). Digitamos as legendas do eixo X e Y, selecionamos a posição das legendas da variável sex e marcamos a opção Linha de quadrados mínimos. Ao clicarmos em OK, o gráfico resultante é mostrado no RStudio (figura 2.31).

Caixa de diálogo para a geração de um diagrama de dispersão. Seleção das variáveis dos eixos X e Y.

Figura 2.28: Caixa de diálogo para a geração de um diagrama de dispersão. Seleção das variáveis dos eixos X e Y.

Seleção da variável de agrupamento para gerar o diagrama de dispersão.

Figura 2.29: Seleção da variável de agrupamento para gerar o diagrama de dispersão.

Opções para gerar o gráfico de dispersão.

Figura 2.30: Opções para gerar o gráfico de dispersão.

Gráfico de dispersão IMC x Idade para cada categoria de sexo.

Figura 2.31: Gráfico de dispersão IMC x Idade para cada categoria de sexo.

2.12 Geração de relatório

O R Markdown é uma linguagem que permite que um relatório possa ser gerado a partir dos comandos que vão sendo executados no R. No R Commander, ele pode ser visualizado na aba R Markdown (seta verde na figura 2.32).

Acessando o R Markdown no R Commander.

Figura 2.32: Acessando o R Markdown no R Commander.

Esse relatório pode ser personalizado pelo usuário. Por exemplo, no texto da figura 2.33, alteramos o título e o autor (seta verde na figura), depois selecionamos o comando help… (figura 2.34) e o apagamos (figura 2.35). Ao clicarmos no botão Gerar relatório, o relatório será apresentado no navegador padrão de seu computador (figura 2.36)

Personalizando o título e o autor do relatório no R Markdown.

Figura 2.33: Personalizando o título e o autor do relatório no R Markdown.

Selecionando partes do relatório para edição.

Figura 2.34: Selecionando partes do relatório para edição.

Remoção da área selecionada na figura 2.34.

Figura 2.35: Remoção da área selecionada na figura 2.34.

Relatório gerado pelo R Markdown em html para os comandos utilizados nesta seção.

Figura 2.36: Relatório gerado pelo R Markdown em html para os comandos utilizados nesta seção.

2.13 Salvando o conjunto de dados

Para salvar o conjunto de dados ativo em um arquivo que pode ser lido diretamente pelo R, selecionamos a opção

\[\text{Dados} \Rightarrow \text{Conjunto de dados ativo} \Rightarrow \text{Salvar conjunto dados ativo}\]

Na caixa de diálogo Salvar Como (figura 2.37), navegamos para a pasta onde desejamos salvar o arquivo e especificamos um nome para o arquivo, de preferência com a extensão RData. Clicamos em Salvar. O arquivo será gravado na pasta selecionada.

Especificação do nome do arquivo a ser gravado.

Figura 2.37: Especificação do nome do arquivo a ser gravado.