lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc dignissim euismod urna tincidunt sagittis. Vivamus id vehicula eros, non scelerisque eros.

Fonte: Shutterstock.
sem medo de errar
A situação-problema da seção passa por uma questão de caráter teórico, mas que, dependendo da posição profissional, pode aparecer como um desafio. A ideia é trabalhar com uma diferenciação de quatro distribuições de dados distintas: normal, exponencial, uniforme e binomial. O primeiro passo é analisá-las em termos do tipo de variável, de onde obtemos que:
• Distribuição Normal: proveniente de variáveis aleatórias contínuas.
• Distribuição Exponencial: proveniente de variáveis aleatórias contínuas.
• Distribuição Uniforme: proveniente de variáveis aleatórias contínuas.
• Distribuição Binomial: proveniente de variáveis aleatórias discretas.
Dessa forma, três das quatro distribuições são referentes a variáveis aleatórias contínuas, o que nos fará trabalhar com as funções de densidade de probabilidade e os parâmetros por elas compostos. É sugerido que se trabalhe com um quadro resumo, semelhante aos apresentados ao longo da seção. Assim, podemos considerar o seguinte modelo:
Distribuição | Contínua ou Discreta? | Parâmetros | Se contínua, Se discreta, |
---|---|---|---|
Uniforme | Contínua | • : limite mínimo do intervalo de dados; • : limite máximo do intervalo de dados. |
|
Exponencial |
Contínua | • : indica a taxa de ocorrência por unidade de medida (MAGALHÃES, 2015). | |
Normal | Contínua | • : desvio padrão populacional; • : Média populacional. |
|
Binomial | Discreta | • n: número total de observações (amostra); • p: probabilidade de sucesso do evento. |
Temos construídos os elementos mínimos necessários para diferenciar as distribuições. Conforme solicitado pela situação-problema, o próximo passo é elaborar os histogramas, com auxílio do R.
É sugerido que se rode o script a seguir, que irá gerar a Figura 3.12.
# Uniforme
set.seed(42) # semente utilizada para gerar valores aleatórios fixos
random.unif <- runif(10000, min = 1, max = 3)
hist(random.unif, freq = FALSE, xlab = 'x', density =50, main="Uniforme", ylab="Densidade")
# Exponencial
random.exp = rexp(10000,0.5)
hist(random.exp, freq = FALSE, xlab = 'x', density =50, main="Exponencial", ylab="Densidade")
# Normal
random.normal = rnorm(10000, 10,5)
hist(random.normal,freq = FALSE, xlab = 'x', density =50, main="Normal", ylab="Densidade")
#Bernoulli
# install.packages("Rlab") # caso já tenha este pacote instalado, não é necessário instalá-lo novamente. Caso não o tenha, retire o jogo da velha à esquerda do comando e o execute.
library(Rlab)
random.bern = rbern(10000,0.6)
hist(random.bern,freq = FALSE, xlab = 'x', density =50, , main="Bernoulli", ylab="Densidade")

Estude rapidamente o script executado. O que acontece com os formatos dos gráficos quando se altera o tamanho amostral para 100?
Avançando na prática
Análise de dados de uma distribuição normal
Você, analista de dados de uma fazenda, está realizando uma análise da pluviosidade nos últimos anos. No entanto, em um relatório disponibilizado por um instituto governamental, você obteve as seguintes informações: a distribuição da pluviosidade segue um comportamento normal, com média de 34 mm e variância de 25. Conhecendo sobre as propriedades da distribuição normal, você sugeriu ao seu líder trabalhar com faixas de probabilidade, com o objetivo de obter uma ideia de como as chuvas estão distribuídas. Para tanto, você optou por utilizar limites de , e . Seu chefe, no entanto, gostaria de entender quais serão os valores desses limites e o que cada um deles significa.
A nova situação-problema passa pela aplicação dos conhecimentos relacionados à distribuição normal. O primeiro passo da argumentação é a questão das observações contempladas, quando se trabalha com os intervalos de , e em uma distribuição normal. Para tanto, uma boa alternativa seria apresentar um gráfico semelhante ao apresentado na Figura 3.10, que traz, de maneira clara, as concentrações das observações para cada um dos limites. Em seguida, é importante calcular esses limites e apresentá-los, seja graficamente, seja em formato de tabela. Um ponto importante é que o instituto governamental apresentou a variância da distribuição, enquanto os limites são calculados a partir do desvio padrão. Se simplesmente atribuíssemos o valor de 25 a , estaríamos apresentando uma informação equivocada. Para encontramos o valor de , basta extrairmos a raiz quadrada de 25, que equivale a 5. Dessa forma, podemos construir os limites seguindo a seguinte relação:
Intervalo | Proporção das observações contempladas (probabilidade) | Cálculo dos limites |
---|---|---|
68,26% 95,44% 99,73% |
||
Nesse sentido, poderíamos dizer, por exemplo, que 99,73% das chuvas ocorridas no período estiveram entre 19mm e 59mm. Conseguimos, portanto, mostrar o porquê de se utilizar os limites baseados na média e no desvio padrão e também o que cada um desses valores representa.