lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc dignissim euismod urna tincidunt sagittis. Vivamus id vehicula eros, non scelerisque eros.

Fonte: Shutterstock.
Deseja ouvir este material?
Áudio disponível no material digital.
Praticar para aprender
Caro aluno, nesta seção iremos entender o conceito das medidas de tendência central ou posição e também as medidas de dispersão. Tais medidas são fundamentais para você compreender a importância delas nos trabalhos científicos e no dia a dia de sua profissão.
Como exemplo dessa abordagem, podemos considerar uma experimentação de tratamento de poluição hídrica em lago de uma determinada comunidade em que a pesca é o principal recurso de sobrevivência das pessoas daquela região. Como um dos objetivos, você precisa calcular, por exemplo, a concentração média de um determinado composto para fazer o tratamento da água desse lago e também trabalhar com a dispersão dos poluentes nesse lago. Percebe o quanto essas medidas nos trazem informações importantes?
Atualmente, com o crescimento do uso de ferramentas estatísticas, matemáticas e computacionais em análise de dados, nenhuma empresa quer ficar para trás. Nesse aspecto, suponha que você foi contratado por uma empresa para avaliar as concentrações de pH de um determinado rio em que se cria peixes para pesquisa. O valor do pH é uma medida do grau de acidez ou alcalinidade da água, sendo 7 o valor neutro do pH. Sabe-se que em certos ecossistemas, como o de peixes, valores de pH muito baixos ou muito altos podem ser letais para a grande maioria das espécies. Então, a empresa deseja que isso não aconteça com sua criação de peixes. Logo, uma amostragem de valores de pH de dois anos foi realizada nessa empresa com a finalidade de trazer algumas informações sobre tais concentrações, como média, variância, máximo e mínimo, para se ter um devido controle da produção de peixes. Os dados amostrados são:
Mês | Período | ||
---|---|---|---|
1º Ano | 2º Ano | ||
Janeiro | 8,12 | 2,97 | |
Fevereiro | 8,10 | 8,12 | |
Março | 8,18 | 3,08 | |
Abril | 7,94 | 8,11 | |
Maio | 8,23 | 8,11 | |
Junho | 1,98 | 3,97 | |
Julho | 8,16 | 8,21 | |
Agosto | 2,10 | 8,06 | |
Setembro | 7,88 | 8,21 | |
Outubro | 3,03 | 3,01 | |
Novembro | 5,09 | 11,86 | |
Dezembro | 8,06 | 10,10 |
Como você faria o cálculo da média, da variância, do máximo e do mínimo em cada ano? Como apresentaria tais resultados para empresa?
Vamos então começar o entendimento dessas medidas? Você será acompanhado em todo o processo! Iniciaremos com as medidas de tendência central, como média, mediana e moda, e depois passaremos para as medidas de dispersão, como variância, desvio-padrão e coeficiente de variação.
conceito-chave
Em situações práticas, no geral, descrevemos os dados por quantidades, denominadas medidas resumo, que resumem todos os dados do conjunto bruto de dados. Por exemplo, em uma fazenda podemos estar interessados em um valor que descreve o mais típico tipo de árvore; ou o número de árvores presente em 25% da fazenda. Tais medidas são denominadas medidas de tendência central (de posição).
No geral, as medidas de tendência central podem ser definidas como “valor numérico central de uma distribuição de valores” (MAGALHÃES, 2002). Dentre essas medidas, as mais importantes são: média aritmética, mediana, moda e percentis. Antes de prosseguir com as medidas de posição, dois conceitos devem estar bem definidos: população e amostra. Tais conceitos já vimos na seção anterior, mas vamos retomá-los aqui.
População: uma população pode ser definida como um grupo de indivíduos que possuem característica(s) em comum.
Amostra: uma amostra é, basicamente, um “pedaço” da população da qual temos por objetivo estudar para inferir resultados sobre a população. Naturalmente, há diversas formas de selecionar uma amostra, porém, em muitos casos, depende exclusivamente dos recursos disponíveis para a coleta dos dados.
Assimile
É importante destacar que em grande parte dos estudos trabalhamos com a amostra para realizar inferências sobre a população quando ela é inviável de se trabalhar (quantidade de dados exuberantes).
Bom, vamos então dar início ao nosso conteúdo. Iniciaremos com a primeira medida de posição: a média aritmética. Tal medida é a de posição mais popular que temos e trabalhamos em muitos estudos. Ela pode ser calculada em duas situações: amostra e população.
Média populacional: a média populacional é simplesmente calculada somando-se todos os valores obtidos para população e dividindo o resultado pelo total de elementos da população (MAGALHÃES, 2002). Em outras palavras, a média populacional é dada por:
em que N é o tamanho da população e são os elementos da população. É importante destacar que média populacional é sempre denotada por uma letra grega (no caso, ) a qual representa um parâmetro em estatística.
Média amostral: diferente da média populacional, a média amostral trabalha exclusivamente com elementos da amostra (MAGALHÃES, 2002). Nesses termos, a média amostral é dada por:
em que é o tamanho da amostra e são as observações da amostra. É importante destacar que a média amostral, diferente da populacional, é sempre denotada por uma letra minúscula do alfabeto tradicional (no caso, ).
Exemplificando
Suponha que nosso objetivo seja avaliar o número médio de amostras contaminadas de água em uma dada população de lagos. Se o número de amostras contaminadas em um certo ano em cinco lagos é: 42, 43, 36, 32 e 40, o que podemos afirmar a respeito do número médio de amostras contaminadas para uma população de 100 lagos? Nesse caso, temos que e a média dessa amostra é dada por:
Supondo que os dados constituem uma amostra no sentido técnico (isto é, um conjunto de dados do qual podemos tirar generalizações válidas), podemos estimar (hipoteticamente) que o número médio de amostras contaminadas dos 100 lagos é de amostras contaminadas.
Em termos de simplificação de notação, iremos fazer o uso da notação para denotar a soma das n observações da amostra ou população. Nesse caso, a média amostral pode ser reescrita como:
Algumas observações importantes sobre a média:
- A média existe para qualquer conjunto de dados de natureza numérica.
- A média é sempre única.
- A média é útil para outras avaliações estatísticas, como a média global de um conjunto de dados.
- A média é sensível a pontos extremos, isto é, os pontos extremos de uma amostra interferem na representatividade da média para aquela amostra.
- A média leva em conta todos os dados.
Em algumas situações práticas, os dados podem ser apresentados em tabelas de frequências por ponto ou classes. Nesse caso, a média tradicional não pode ser diretamente calculada, uma vez que os dados estão agrupados ou possuem pesos diferentes. Assim, fazemos uma modificação para o cálculo da média, que passa a ser chamada de média ponderada.
Assimile
Média ponderada: A média aritmética ponderada de uma amostra com frequência absoluta é dada por:
em que para uma tabela de frequência que divida em classes ( é dito limite inferior da classe e é dito limite superior da classe).
Exemplificando
Considere a tabela a seguir com a distribuição do número de testes hidráulicos diários realizados por 79 engenheiros a respeito de uma avalição da instalação hidráulica de um determinado veículo.
Número de testes | Número de engenheiros | % |
---|---|---|
5 | 3 | 3,8 |
10 | 23 | 29,1 |
15 | 43 | 54,4 |
20 | 10 |
12,7 |
Total | 79 | 100 |
Nesse caso, inicialmente, determinamos a variável resposta (ou de interesse), que aqui é o número de análises, e reescrevemos a tabela anterior como:
Número de testes () |
Número de engenheiros () | % | |
---|---|---|---|
5 | 3 | 3,8 | 15 |
10 | 23 | 29,1 | 230 |
15 | 43 | 54,4 | 645 |
20 | 10 | 12,7 | 200 |
Total | 79 | 100 | 1090 |
Assim, a média ponderada dessa amostra é dada por:
Com isso, encerramos as duas formas de se calcular a média de um conjunto de dados. Mas você se lembra de que a média é uma medida sensível? Então, nesse caso, precisamos de outra medida que não seja sensível a pontos extremos. Tal medida é conhecida como mediana.
Mediana: é definida como a observação central se o número de elementos na amostra for ímpar, e será a média aritmética dos dois elementos centrais caso o número de observações na amostra seja par. Denotamos mediana de uma amostra por .
Reflita
Considere o pH de 7 amostras de efluentes industriais de uma determinada empresa: 1, 1, 2, 3, 3, 10, 12. Qual medida representa melhor esse conjunto de dados? Média ou mediana?
Certo, vimos como a mediana funciona. Mas será que existe outra medida de posição que se faz importante? Sim, a moda. Essa medida desempenha um papel fundamental em estudos ambientais quando o intuito, por exemplo, é saber qual espécie de árvore é mais frequente em uma determinada região; a raça mais abundante de peixe em uma represa; predador mais comum em determinados ecossistemas; entre outras aplicações.
Moda: é a medida representada pelo valor na amostra que ocorre com maior frequência. A moda não é única, uma vez que podemos ter empate de frequências. A rigor de notação, denotamos moda por .
Para complementar uma boa análise das estatísticas descritivas de uma amostra, além das medidas de posição citadas anteriormente, necessitamos de mais algumas medidas de posição que se fazem importantes: máximo, mínimo e quartil. Essas medidas são fundamentais para algumas técnicas gráficas como o boxplot.
Máximo e mínimo: o mínimo é definido como sendo a menor observação da amostra; já o máximo é definido como sendo a maior observação da amostra.
Quartil: medida que divide o conjunto de dados em basicamente quatro partes iguais, com os dados em ordem crescente. O primeiro quartil, Q1, representa 25% das observações; Q2 representa a mediana que corresponde a 50% das observações; e Q3, representa 75% das observações do banco de dados.
Assim, encerramos nosso conteúdo sobre medidas de posição. Agora, vamos a um pequeno exemplo: considere que uma indústria A tem três tipos de maquinários com o número de falhas dessas máquinas descritos por 72, 76 e 74, enquanto uma indústria B tem os mesmos três tipos de máquinas com o número de falhas de cada máquina dado por 72, 91 e 59. Note que o número médio de falhas de cada máquina de cada indústria é o mesmo, 74, mas observe a diferença de variabilidade. Isto é, enquanto a indústria A tem uma quantidade de falhas equivalente para cada máquina, na indústria B há uma falha muito maior na segunda máquina. Perceba que, nesse caso, a medida de posição “média” é insuficiente para descrever, por exemplo, a homogeneidade das falhas das máquinas. Nesse caso, devemos trabalhar com o que chamamos de medidas de dispersão, que têm por objetivo medir a variação ou dispersão do nosso conjunto de dados.
A primeira medida que vamos trabalhar é a amplitude. Tal medida é usada, preferencialmente, no controle de qualidade industrial para manter o controle imediato de matérias-primas e produtos. Há dois tipos de amplitudes: geral (abrange todos os valores da amostra) e interquartil (abrange mais ou menos 50% dos dados centrais).
Amplitude geral: dado o conjunto de dados ordenado: , a amplitude geral R dos dados é dada por: .
Amplitude interquartil: a amplitude interquartil dos dados é dada por: .
A amplitude geral não é uma medida muito útil da variação dos dados, uma vez que ela não nos diz coisa alguma sobre a dispersão dos valores entre os dois extremos. Considere os três conjuntos de concentração de um determinado efluente a seguir:
Conjunto A: 5, 18, 18, 18, 18, 18, 18, 18, 18, 18
Conjunto B: 5, 5, 5, 5, 5, 18, 18, 18, 18, 18
Conjunto C: 5, 6, 8, 9, 10, 12, 14, 15, 17, 18
Note que a amplitude de cada um dos conjuntos é a mesma e igual a 13, mas suas dispersões entre o primeiro e o último valor são totalmente diferentes. Assim, necessitamos de uma nova medida para lidar com esses dados, que é a variância.
A segunda medida de dispersão que vamos trabalhar é a variância. Essa medida trabalha com a dispersão dos dados ao redor da média e pode ser calculada tanto para a população quanto para a amostra. Isto é:
Variância populacional: dada uma população de N elementos, a variância, nesse caso, é dada por (MAGALHÃES, 2002):
Variância amostral: dada uma amostra de elementos, a variância, nesse caso, é dada por (MAGALHÃES, 2002):
Assimile
É importante fixar que ao trabalhar com a variância amostral, iremos perder 1 grau de liberdade quando comparada à variância populacional devido ao uso da média amostral como estimador.
Exemplificando
Voltando ao nosso exemplo da água contaminada em lagos. Vamos supor que nosso objetivo agora seja avaliar a variância em vez da média. Se o número de amostras contaminadas em cinco lagos é: 42, 43, 36, 32 e 40, o que podemos concluir sobre a variância de amostras contaminadas para uma população de 100 lagos? Nesse caso, temos que n = 5 e a média dessa amostra é 38,6 amostras contaminadas. Portanto, a variância é dada por:
Supondo que os dados constituem necessariamente uma amostra no sentido técnico (isto é, um conjunto de dados do qual podemos tirar generalizações válidas), podemos estimar (hipoteticamente) que a variância populacional de amostras contaminadas dos 100 lagos é de amostras contaminadas.
Depois da variância, uma outra medida de dispersão de suma importância é o desvio-padrão que trabalha o “erro” de estimação. Nesse caso, temos que:
Desvio-padrão populacional: é uma medida de dispersão dada pela equação:
Desvio-padrão amostral: é uma medida de dispersão dada pela equação:
De acordo com a definição de desvio-padrão, observamos que a dispersão de um conjunto de dados se baseia nas disposições dos dados em torno da média, isto é, quanto mais “afastados” da média, mais disperso é o conjunto de dados. Esse conceito nos leva ao último conceito de nossa seção: o Teorema de Tchebichev e o coeficiente de variação.
Teorema de Tchebichev: Em qualquer conjunto de dados, dado uma constante , a proporção dos dados que devem estar a menos de desvios-padrão de qualquer um dos lados da média é pelo menos (MAGALHÃES, 2002).
Para finalizar, podemos definir o coeficiente de variação, que é uma das medidas utilizadas quando nosso interesse é analisar a dispersão em termos relativos a seu valor médio, mas sem levar em conta a influência da ordem de grandeza da variável. Tal medida é definida como:
É importante salientar que o coeficiente de variação está entre 0 e 1, mas pode ser escrito também em porcentagem, multiplicando-se o valor do CV por 100. E com isso encerramos nossa seção sobre medidas de dispersão e tendência central. Deixo também como encerramento a questão: onde podemos utilizar o Teorema de Tchebichev?
Faça valer a pena
Questão 1
Em estatística descritiva, as medidas de tendência central são de suma importância para resumir nosso conjunto de dados. No entanto, algumas dessas medidas podem ser sensíveis a valores extremos, como a média.
Com base na definição dessas medidas, assinale a alternativa correta.
Correto!
De acordo com as definições, a mediana é definida como a observação central se o número de elementos na amostra for ímpar, e será a média aritmética dos dois elementos centrais caso o número de observações na amostra seja par. Denotamos mediana de uma amostra por .
De acordo com essa definição, concluímos que ela não é sensível a valores extremos.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Questão 2
suponha que você tenha que estimar a concentração média de nitrogênio líquido para refrigerar um sistema industrial. Foi lhe fornecida a seguinte amostra de concentrações de nitrogênio líquido: 15, 14.1, 17.2, 20, 10.2, 28.2, 30.
Com base nessa amostra, assinale a alternativa que contém o valor da concentração média.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
Vimos que podemos calcular a média por meio da expressão dada por:
Logo, o valor da concentração média é 19,24 mg/L. Isto é, a concentração média de nitrogênio líquido para refrigerar o sistema industrial em questão é de 19,24 mg/L.
Questão 3
Suponha que você precise calcular a variância de uma amostra de ferro de um certo ferro-velho para saber a variabilidade aproximada da distribuição dos pesos de ferro. Para seu estudo, foi considerada a seguinte amostra de pesos de ferro em toneladas: 15, 14.1, 17.2, 20, 10.2, 28.2, 30, 50, 32.
Com base nessa amostra, assinale a alternativa que contém o valor da variância dos pesos de ferro.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
Vimos que podemos calcular a média e a variância por meio das expressões dadas, respectivamente, por:
e
Logo, a média é dada por 24.08 toneladas de ferro, enquanto a variância é dada por 153.16 toneladas de ferro para a distribuição dos pesos de ferro desse ferro-velho.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Referências
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São Paulo: Editora da Universidade de São Paulo, 2002.
MASIERO, P. C. Introdução à análise de dados ESE. In: Notas de aula, 2017. Disponível em: https://edisciplinas.usp.br/pluginfile.php/3371051/mod_resource/content/1/Aula_5_Analise_Dados_ESExp_2017.pdf. Acesso em: 12 abr. 2021.
NETO, P. L. O. C. Estatística. São Paulo: Blucher, 2006.
THE R Project for Statistical Computing. Disponível em: https://www.r-project.org. Acesso em: 12 abr. 2021.
VIRGILITO, S. B. Estatística Aplicada. São Paulo: Saraiva, 2017.