Comentários

0%

NÃO PODE FALTAR

ESTIMATIVAS BASEADAS NA OBSERVAÇÃO DA DISTRIBUIÇÃO DOS DADOS

Gabriel Ferreira dos Santos Silva

Fonte: Shutterstock.

Deseja ouvir este material?

Áudio disponível no material digital.

Praticar para aprender 

Prezado estudante, nesta seção encerraremos o conteúdo das medidas-resumo, que compõe um dos mais importantes conjuntos de ferramentas para a análise de dados. Para tanto, trabalharemos com as medidas relativas à distribuição, mais precisamente, com os quantis. 
Os quantis são medidas utilizadas em diversas áreas de análise, como investimentos, saúde e RH, entre outros, e são capazes de oferecer informações valiosas a respeito de um conjunto de dados, como concentração de valores e características da distribuição. 
Por essa razão, iniciamos a seção trazendo a importância da utilização dessas medidas, bem como a forma de cálculo para sua obtenção. Em seguida, tratamos dos principais quantis, também denominados quantis notáveis, como decis, percentis e quartis. Fixados esses conceitos, trabalharemos com um dos mais importantes gráficos da estatística e probabilidade: o boxplot. 
Assim como nas seções anteriores, buscamos trabalhar os conceitos teóricos e desenvolver um conteúdo prático, que permite uma melhor fixação dos elementos mais importantes da seção. Por essa razão, você encontrará o desenvolvimento dos exercícios na linguagem R, o que permitirá simular um contexto do cotidiano de análise de dados.

Ao término desta seção e, consequentemente, da unidade, você vai dominar as principais medidas-resumo e será capaz de realizar análises exploratórias de dados.

Você é gerente de vendas de uma empresa que tem doze lojas no estado de São Paulo, nove no estado do Rio de Janeiro e onze em Minas Gerais. Após os fechamentos anuais de vendas, você dispõe de dados suficientes para realizar um relatório e irá prepará-lo com informações como média, mediana e quartis. No entanto, o diretor empresa deseja ter essa visualização separada por estado e, se possível, em um único slide. As vendas foram distribuídas conforme a Tabela 2.16:

Tabela 2.16 | Vendas realizadas por loja em cada um dos três estados (São Paulo, Minas Gerais e Rio de Janeiro)
Lojas São Paulo Rio de Janeiro Minas Gerais
1 R$ 49.899 R$ 34.444 R$ 16.357
2 R$ 47.101 R$ 26.223 R$ 13.303
3 R$ 44.777 R$ 41.194 R$ 15.715
4 R$ 25.721 R$ 41.846 R$ 16.569
5 R$ 42.555 R$ 22.262 R$ 20.199
6 R$ 29.781 R$ 14.354 R$ 18.904
7 R$ 42.641 R$ 30.757 R$ 16.428
8 R$ 35.982 R$ 39.891 R$ 20.444
9 R$ 34.953 R$ 33.098 R$ 27.301
10 R$ 26.302 NA R$ 24.687
11 R$ 46.122 NA R$ 27.493
12 R$ 48.999 NA NA
Fonte: elaborada pelo autor.

Realize as análises, considerando as medidas apresentadas.

Uma excelente seção. Bons estudos!

conceito-chave

Nas seções anteriores, trabalhamos dois conjuntos de medidas de grande relevância para a análise da dados: medidas de posição (média, mediana e moda) e medidas de dispersão (amplitude, variância e desvio-padrão, entre outras). Entretanto, na presença de pontos discrepantes, essas medidas são altamente sensíveis. Além disso, nos ajudam a compreender o comportamento central e a dispersão de determinado conjunto de dados, porém pouco informam a respeito de sua distribuição (BUSSAB; MORETTIN, 2017).

Nesse sentido, trazemos, nesta seção, algumas medidas que nos permitem obter alguns padrões de comportamento em termos de distribuição de dados. Quando trabalhamos, por exemplo, com as médias, obtemos informações a respeito do comportamento central de um conjunto. Da mesma forma, quando diante de uma medida de dispersão, obtemos insights a respeito da variação de um conjunto de dados. Nesse sentido, por mais que essas informações sejam de grande relevância, não temos indicativos de padrões de distribuição desses conjuntos. Por isso, é de grande importância explorarmos tais medidas.

O principal conceito envolvido quando discutimos as medidas de distribuição é o quantil, expresso por q(p). A letra  representa uma proporção de determinado conjunto de dados, de modo que 0<p<1. Nesse sentido, quando p=0,5, por exemplo, estamos dividindo um conjunto de dados em 2 partes iguais, considerando o total de observações.

O termo quantil é expresso genericamente. Ao dividirmos um conjunto de dados em quatro intervalos regulares, configura-se o termo quartil, que representa, portanto, a quarta parte de uma distribuição, conforme expresso na Figura 2.4.

Figura 2.4 | Quartis
Fonte: elaborada pelo autor.

Observamos, portanto, a presença de três pontos, que formarão quatro quartis. Em q(0,25), denominado primeiro quartil, temos 25% dos dados da distribuição à esquerda e 75% à direita. Em q(0,50), o segundo quartil, temos 50% para cada lado. Por fim, no terceiro quartil, em que q=0,75, temos 75% dos dados à esquerda e 25% à direita.

Assimile

Note que o segundo quartil divide a amostra em dois grupos iguais quanto ao número de observações. Esse é o mesmo conceito de uma importante medida de localização, a mediana. Logo, obter o segundo quartil de um conjunto de dados é a mesma coisa que obter sua mediana.

Da mesma forma, se dividirmos uma distribuição em dez intervalos regulares, obteremos decis, ou seja, grupos que concentram 10% das observações cada um, conforme apresentado na Figura 2.5.

Figura 2.5 | Decis
Fonte: elaborada pelo autor.

Além dos quartis e decis, é bem comum serem utilizados os percentis, principalmente quando se trabalha com maiores conjuntos de dados. De forma análoga, um percentil representa a centésima parte regular de uma distribuição. 
É importante destacar que os quantis podem assumir diferentes nomes e representar o mesmo conjunto, como nos casos a seguir:

Em relação ao cálculo dos quantis, não existe um padrão definido. O R, por exemplo, possui nove formas distintas de se obter os respectivos valores. Para o desenvolvimento desta seção, utilizaremos o seguinte estimador para cálculo:

q(p)=xp(n+1)

Dessa forma, o valor do quantil  q(p) equivale ao elemento da posição de número p(n+1) . Suponha que uma empresa está avaliando o perfil etário de seus quinze colaboradores. Após realizar um levantamento, foram obtidas as seguintes idades: 23,19, 22, 23, 25, 28, 58, 34, 47, 39, 42, 45, 35, 32, 62. O primeiro passo para a obtenção dos quantis é elencar as observações de forma crescente. Realizada essa etapa, obteremos o conjunto ordenado: {19, 22, 23, 23, 25, 28, 32, 34, 35, 39, 42, 45, 47, 58, 62}.

Considerando as idades dos funcionários, vamos calcular o segundo quartil (q(0,5)) de nosso conjunto, cujo valor, como vimos, equivale à mediana. Substituindo p=0,5 e n=15 na fórmula para cálculo do quantil, temos que

q(0,5)=x0,5(15+1)=x8

Como o oitavo número do conjunto de dados ordenado é 34, x=834 . Neste caso, o valor p(n+1) é um número inteiro, ou seja, conseguimos encontrar facilmente a posição do respectivo valor do quantil. Nos casos em que os valores posicionais são decimais, devemos realizar uma média ponderada entre os dois elementos vizinhos. É o que acontece, por exemplo, quando calculamos q(0,6), que nos apresenta um índice p(n+1)=0,6(16)=9,6. Logo, observamos que o sexto decil do nosso conjunto de dados equivale ao elemento da posição de número 9,6, ou seja, algum valor entre a nona e a décima observação.

Nesse caso, precisaremos realizar uma média ponderada. Com o auxílio da Figura 2.6, podemos perceber que 9,6 está mais próximo de 10 do que de 9. Então, atribuiremos o peso 0,6 à décima observação e 0,4 à nona observação.

Figura 2.6 | Posição relativa do sexto decil para  n=15
Fonte: elaborada pelo autor.

Considerando os pesos atribuídos, o cálculo q(0,6) de  é expresso por:

q(0,6)=xp(n+1)=x9,6=0,4x9+0,6x10=0,435+0,639=37,4

Nesta situação, o valor de p(n+1) está mais próximo da posição imediatamente superior. Por essa razão, atribuímos um peso maior à observação da décima posição, em detrimento da nona. No entanto, se tivéssemos uma situação contrária, deveríamos ter cuidado para atribuir os pesos corretamente. 
Suponha que agora desejamos calcular q(0,4), ou seja, o quarto decil de nosso conjunto de dados. Aplicando a fórmula para a obtenção do quantil, temos que:

q(0,4)=xp(n+1)=x0,4(15+1)=x6,4

Com o auxílio da Figura 2.7, observamos que nosso índice está mais próximo de 6 do que de 7. Por essa razão, devemos atribuir um maior peso à sexta observação.

Figura 2.7 | Posição relativa do quarto decil para n=15  
Fonte: elaborada pelo autor.

Desse modo, o cálculo de q(0,4) é dado por:

q(0,40)=xp(n+1)=x6,4=0,6x6+0,4x7=0,628+0,432=29,6

Para o caso geral, seja  o valor referente à posição imediatamente anterior a p(n+1)p2 o valor referente à posição imediatamente posterior. Então, para encontrarmos o valor do quantil considerando a ponderação, devemos aplicar a seguinte fórmula:

q(p)=[p2p(1+1)]xp1+[p(n+1)p1]xp2

A princípio a fórmula parece um pouco confusa, mas vamos por partes. Quando trabalhamos com q(0,6), obtemos que p(n+1)=9,6. Dessa forma, a posição imediatamente anterior (p1) equivale a 9, e a imediatamente posterior (p2) é equivalente a 10. Além disso, sabemos que o nono elemento do nosso conjunto é 35 (xp1)e o décimo é 39 (xp2). Pronto, já dispomos de todos os elementos necessários para o cálculo de q(0,6). Substituindo os valores, temos que:

q(0,6)=[p2p(1+1)]xp1+[p(n+1)p1]xp2q(0,6)=(109,6)35+(9,69)39=0,435+0,639=37,4

De modo análogo, para q(0,4)p(n+1)=6,4. Assim, p1=6p2=7xp1=28xp2=32. Aplicando a fórmula, temos que:

q(0,4)=(76,4)28+(6,46)32=0,628+0,432=29,6

Perceba, portanto, que esses são exatamente os mesmos valores obtidos anteriormente. 
Além da regra para o caso geral, destacamos duas propriedades importantes: se p(n+1)n, então q(p)=xn. Da mesma forma, se  p(n+1)1, então q(p)=x1. Como exemplo, considerando o mesmo conjunto de idades dos beneficiários da empresa, q(0,95)=x0,95*16=x15,2. Pelo fato de o número de observações ser igual a 15, não é possível encontrar x15,2. Assim, q(0,95)=x15=62. Por outro lado, para q(0,05), temos que p(n+1)=0,80. Dessa forma, como a posição mínima é a de número 1, q(0,05)=x1=19

Com base nos exemplos apresentados, podemos construir a seguinte relação para o cálculo dos quantis:

q(p)={xp(n+1),sep(n+1) é inteiro.xp,sep(n+1)n.x1,sep(n+1)1.[p2p(1+1)]xp1+[p(n+1)p1]xp2,sep(n+1) é não-inteiro.

No contexto das medidas baseadas na distribuição, uma importante ferramenta é o boxplot, utilizado em diversos contextos de análise. O boxplot, ou diagrama de caixas, é um gráfico que nos permite obter informações a respeito dos quartis de um conjunto de dados e de pontos possíveis pontos discrepantes, também denominados outliers.

Figura 2.8 | Esquema da estrutura de um boxplot
Fonte: elaborada pelo autor.

Com base na Figura 2.8, podemos observar que o boxplot apresenta alguns elementos principais:

Nesse sentido, podemos destacar as seguintes estruturas do boxplot:

Também é bem comum os boxplots serem apresentados de forma horizontal, o que não muda a interpretação. Basicamente, é realizado um giro de 90°, no sentido horário, alterando a visualização, conforme disposto na Figura 2.9.

Figura 2.9 | Estrutura de um boxplot apresentado horizontalmente
Fonte: elaborada pelo autor.

a mediana é equivalente a 34, ou seja, q(0,5)=Q2=34. Dessa forma, para construirmos um boxplot, devemos calcular Q1, Q3 e a média dos dados (opcional). Para o cálculo de Q1, temos que:

Q1=q(0,25)=x0,25(15+1)=x4=23

Q3, por sua vez, é obtido por:

Q3=q(0,75)=x0,75(15+1)=x12=45

Com base nos quartis encontrados, podemos sumarizar os valores conforme a Figura 2.10.

Figura 2.10 | Esquema dos quartis encontrados para o exemplo
Fonte: elaborada pelo autor.

Aplicando o cálculo da média, obteremos que:

x¯=i=1nxin=53415=35,6

Além disso, a Amplitude Interquartil é dada por:

AIQ=Q3Q1=4523=22

Assim, podemos obter os limites superior e inferior:

LS=Q3+1,5AIQ=45+1,522=78

LI=Q11,5AIQ=231,522=10

Reflita

Como estamos trabalhando com idade, um limite inferior de dez anos certamente não faz sentido. Já sabemos, portanto, que não teremos pontos discrepantes abaixo desse limite. No entanto, manteremos o valor para a construção do gráfico.

Os valores respectivos aos bigodes são 62 (maior valor antes do LS) e 19 (último valor antes do LI). Assim, dispomos de todos os elementos necessários para elaborarmos o boxplot, apresentado na Figura 2.11.

Figura 2.11 | Boxplot do conjunto de exemplo
Fonte: elaborada pelo autor.

Notamos, portanto, que nosso conjunto de dados não apresenta observações candidatas a pontos discrepantes. Observa-se, também, que a média e a mediana estão próximas, mas que apresentam valores distintos, possivelmente em função da idade equivalente a 62 anos, que acaba por puxar levemente o valor da média para cima, mas não o da mediana.

Exemplificando

Na atividade prática de análise de dados, é muito comum trabalharmos com comparações entre boxplots, no intuito de observar os padrões de comportamento entre grupos distintos. Nessas situações, colocamos os boxplots lado a lado e avaliamos fatores como quartis, tamanho das caixas, medianas e possíveis pontos discrepantes, entre outros. Então, temos uma situação semelhante à observada na Figura 2.12:

Figura 2.12 | Boxplot de uma pesquisa de satisfação de usuários de três marcas distintas
Fonte: elaborada pelo autor.

Nenhuma das marcas apresenta possíveis candidatos a pontos discrepantes. Além disso, a mediana de insatisfação da Marca C é superior à da Marca B que, por sua vez, é maior do que a Marca A. A maior variação se encontra na Marca C, posto que a caixa apresenta grande amplitude interquartil. A menor variação está na Marca B. Olhando somente para os boxplots, há indícios de que a Marca A gera menos insatisfação do que as demais.

Após fixarmos a construção do boxplot, trabalharemos de forma prática, por meio da linguagem R. Para tanto, utilizaremos os mesmos valores de idades, que nos permitirá comparar os valores e avaliar se o método default de cálculo que o R utiliza é o mesmo que desenvolvemos durante o corpo do texto.

Medidas Baseadas na Distribuição

Prezado estudante, nesta seção trabalharemos as medidas de dispersão e a representação gráfica por meio do boxplot. Para tanto, utilizaremos o exemplo das idades dos beneficiários de uma empresa, apresentado no corpo do texto da seção. Para retomarmos, o conjunto apresenta quinze observações, dispostas, ordenadamente, da seguinte forma: 19, 22, 23, 23, 25, 28, 32, 34, 35, 39, 42, 45, 47, 58, 62.

Como nas seções anteriores, o primeiro passo será criar o conjunto de dados no R, utilizando o comando c().

Fonte: Lorem ipsum dolor sit amet.

Vamos obter os quantis de p=0,4p=0,4 e p=0,6p=0,6. Para tanto, utilizamos o comando quantile().

Em seguida, trabalharemos para a obtenção dos quartis do conjunto de dados. Para tanto, podemos utilizar o mesmo comando quantile() ou o summary(), que também apresenta os quartis, junto com outras medidas resumo.

Obtidos os quartis, realizaremos o comando boxplot(), que nos trará os gráficos solicitados.

Figura 2.13 | Bloxplot das idades dos beneficiários
Fonte: elaborada pelo autor.

Para realizarmos o boxplot por meio do pacote ggplot2, devemos apresentar os seguintes comandos:

Figura 2.14 | Boxplot das idades do beneficiários – ggplot2
Fonte: elaborada pelo autor.

 

Para visualizar o vídeo, acesse seu material digital.

Encerramos, portanto, mais um importante conteúdo em Probabilidade e Estatística para Análise de Dados. Os tópicos abordados nesta seção são bastante comuns no dia a dia de um profissional de dados. O boxplot é uma ferramenta amplamente utilizada e difundida na área, e permite reunir diversas informações da distribuição em um só lugar.

Faça a valer a pena

Questão 1

Os quantis são intervalos regulares de um conjunto de dados, ou seja, dividem uma distribuição em grupos com o mesmo número de observações, elencados de forma crescente.

Considerando o contexto, avalie as afirmativas a seguir:

  1. O segundo quartil de um conjunto é equivalente à mediana.
  2. O segundo quartil de um conjunto é equivalente ao quinto decil.
  3. O segundo quartil de um conjunto é equivalente quinquagésimo percentil.
  4. O segundo quartil de um conjunto é equivalente média.

Considerando o contexto apresentado, está correto o que se afirma em:

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Correto!

A questão apresenta a conceituação de quantis e solicita o domínio do entendimento relacionado a quartis. O segundo quartil é dado por q(0,5), valor equivalente à mediana. Olhando para decis, q(0,5) é equivalente ao quinto decil. Ao se avaliar em termos percentis, observa-se que se trata do quinquagésimo percentil. Por essa razão, as afirmativas I, II e III estão corretas. A alternativa IV apresenta um erro conceitual, ao passo que o segundo quartil representa a mediana, em vez da média de um conjunto de dados.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Questão 2

Uma empresa está avaliando o tempo que seus funcionários gastam no trajeto entre suas casas e o trabalho. Com base em um levantamento, foi obtida a seguinte relação, expressa em minutos de deslocamento e apresentada na tabela a seguir:

Tabela | Tempo de deslocamento até o trabalho
Quantil Tempo de deslocamento
1º decil 10 minutos
2º decil 18 minutos
1º quartil 21 minutos
2º quartil 32 minutos
3º quartil 66 minutos
Fonte: elaborada pelo autor.

Com base nas informações apresentadas, assinale a alternativa que apresenta o tempo máximo gasto por metade dos beneficiários da empresa.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Correto!

A questão apresenta um contexto de aplicação dos quantis. A metade de um conjunto de dados também é conhecida pela mediana, ou seja, segundo quartil. Nesse sentido, a alternativa que apresenta o valor máximo gasto por metade dos funcionários da empresa é 2º quartil – 32 minutos.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Questão 3

Uma corretora de investimentos está avaliando dois ativos para indicar a seus clientes. Para tanto, a empresa dispõe de um boxplot, com os retornos diário dos ativos nos últimos doze meses, conforme expresso na figura que segue.

Figura | Boxplot dos ativos analisados
Fonte: elaborada pelo autor.

Com base nas informações apresentadas, assinale a alternativa correta.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Correto!

A questão exige o domínio da estrutura de um boxplot, bem como dos conceitos relacionados a quantis. Avaliando-se o gráfico, é possível perceber que a mediana do Ativo 1, representada pela linha horizontal interna à caixa, está mais distante de zero que do Ativo 2. Além disso, o Ativo 2 apresenta valores mais concentrados, o que lhe confere tanto uma caixa, quanto bigodes menores. Avaliando-se os bigodes das caixas, é possível observar que o Ativo 1 apresenta retornos máximos maiores do que o Ativo 2. Além disso, ao se olhar, novamente, para as linhas horizontais internas às caixas, é possível observar que a mediana do Ativo 1 é matematicamente superior à mediana do Ativo 2. Por fim, quando se observa os limites das caixas, é possível perceber que o terceiro quartil do Ativo 1 está acima do terceiro quartil do Ativo 2. Por essa razão, a afirmativa verdadeira é: O terceiro quartil do Ativo 1 é matematicamente superior ao terceiro quartil do Ativo 2.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

REFERÊNCIAS

BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. São Paulo: Saraiva, 2017.

SCHNEIDER, H.; DA SILVA, C. A. O uso do modelo box plot na identificação de anos-padrão secos, chuvosos e habituais na microrregião de Dourados, Mato Grosso do Sul. Revista do Departamento de Geografia, v. 27, p. 131-146, 2014.

Bons estudos!

AVALIE ESTE MATERIAL

OBRIGADO PELO SEU FEEDBACK!