Comentários

0%

FOCO NO MERCADO DE TRABALHO

Distribuição dos dados

Gabriel Ferreira dos Santos Silva

lorem ipsum dolor sit amet

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc dignissim euismod urna tincidunt sagittis. Vivamus id vehicula eros, non scelerisque eros.

Fonte: Shutterstock.

sem medo de errar

A situação-problema da seção passa por uma questão de caráter teórico, mas que, dependendo da posição profissional, pode aparecer como um desafio. A ideia é trabalhar com uma diferenciação de quatro distribuições de dados distintas: normal, exponencial, uniforme e binomial. O primeiro passo é analisá-las em termos do tipo de variável, de onde obtemos que:
•  Distribuição Normal: proveniente de variáveis aleatórias contínuas.
•  Distribuição Exponencial: proveniente de variáveis aleatórias contínuas. 
•  Distribuição Uniforme: proveniente de variáveis aleatórias contínuas.
•  Distribuição Binomial: proveniente de variáveis aleatórias discretas.
Dessa forma, três das quatro distribuições são referentes a variáveis aleatórias contínuas, o que nos fará trabalhar com as funções de densidade de probabilidade e os parâmetros por elas compostos. É sugerido que se trabalhe com um quadro resumo, semelhante aos apresentados ao longo da seção. Assim, podemos considerar o seguinte modelo:

Distribuição Contínua ou Discreta? Parâmetros Se contínua, f(x)
Se discreta, P(X=x) 
Uniforme Contínua • α: limite mínimo do intervalo de dados;
• β : limite máximo do intervalo de dados.
1/(βα),α<x<β
Exponencial
Contínua • λ: indica a taxa de ocorrência por unidade de medida (MAGALHÃES, 2015). λeλx, x0
Normal Contínua • σ: desvio padrão populacional;
• μ: Média populacional.
1σ2πexp{(xμσ)2},<x<
Binomial Discreta n: número total de observações (amostra);
p: probabilidade de sucesso do evento.
(nx)px(1-p)n-xx=0,,n

Temos construídos os elementos mínimos necessários para diferenciar as distribuições. Conforme solicitado pela situação-problema, o próximo passo é elaborar os histogramas, com auxílio do R. 
É sugerido que se rode o script a seguir, que irá gerar a Figura 3.12.
# Uniforme
set.seed(42) # semente utilizada para gerar valores aleatórios fixos
random.unif <- runif(10000, min = 1, max = 3)
hist(random.unif, freq = FALSE, xlab = 'x', density =50, main="Uniforme", ylab="Densidade")
# Exponencial
random.exp = rexp(10000,0.5)
hist(random.exp, freq = FALSE, xlab = 'x', density =50, main="Exponencial", ylab="Densidade")
# Normal
random.normal = rnorm(10000, 10,5)
hist(random.normal,freq = FALSE, xlab = 'x', density =50, main="Normal", ylab="Densidade")
#Bernoulli
# install.packages("Rlab") # caso já tenha este pacote instalado, não é necessário instalá-lo novamente. Caso não o tenha, retire o jogo da velha à esquerda do comando e o execute. 
library(Rlab)
random.bern = rbern(10000,0.6)
hist(random.bern,freq = FALSE, xlab = 'x', density =50, , main="Bernoulli", ylab="Densidade")

Figura 3.12 | Distribuições simuladas para a situação-problema
Fonte: elaborada pelo autor.

Estude rapidamente o script executado. O que acontece com os formatos dos gráficos quando se altera o tamanho amostral para 100?

Avançando na prática

Análise de dados de uma distribuição normal

Você, analista de dados de uma fazenda, está realizando uma análise da pluviosidade nos últimos anos. No entanto, em um relatório disponibilizado por um instituto governamental, você obteve as seguintes informações: a distribuição da pluviosidade segue um comportamento normal, com média de 34 mm e variância de 25. Conhecendo sobre as propriedades da distribuição normal, você sugeriu ao seu líder trabalhar com faixas de probabilidade, com o objetivo de obter uma ideia de como as chuvas estão distribuídas. Para tanto, você optou por utilizar limites de μ±σμ±2σμ±3σ. Seu chefe, no entanto, gostaria de entender quais serão os valores desses limites e o que cada um deles significa.

A nova situação-problema passa pela aplicação dos conhecimentos relacionados à distribuição normal. O primeiro passo da argumentação é a questão das observações contempladas, quando se trabalha com os intervalos de μ±σμ±2σμ±3σ em uma distribuição normal. Para tanto, uma boa alternativa seria apresentar um gráfico semelhante ao apresentado na Figura 3.10, que traz, de maneira clara, as concentrações das observações para cada um dos limites. Em seguida, é importante calcular esses limites e apresentá-los, seja graficamente, seja em formato de tabela. Um ponto importante é que o instituto governamental apresentou a variância da distribuição, enquanto os limites são calculados a partir do desvio padrão. Se simplesmente atribuíssemos o valor de 25 a σ, estaríamos apresentando uma informação equivocada. Para encontramos o valor de σ, basta extrairmos a raiz quadrada de 25, que equivale a 5. Dessa forma, podemos construir os limites seguindo a seguinte relação:

Tabela 3.7 | Cálculo e apresentação dos limites
Intervalo Proporção das observações contempladas (probabilidade) Cálculo dos limites
μ±σ
μ±2σ
μ±3σ
68,26%
95,44%
99,73%
μ±σ=(345;34+5)=(29;39)
μ±2σ=(3410;34+10)=(24;44)
μ±3σ=(3415;34+15)=(19;59)
Fonte: elaborada pelo autor.

Nesse sentido, poderíamos dizer, por exemplo, que 99,73% das chuvas ocorridas no período estiveram entre 19mm e 59mm. Conseguimos, portanto, mostrar o porquê de se utilizar os limites baseados na média e no desvio padrão e também o que cada um desses valores representa.

Bons estudos!

AVALIE ESTE MATERIAL

OBRIGADO PELO SEU FEEDBACK!