Comentários

0%

FOCO NO MERCADO DE TRABALHO

Análise da distribuição de dados em R

Gabriel Ferreira dos Santos Silva

lorem ipsum dolor sit amet

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc dignissim euismod urna tincidunt sagittis. Vivamus id vehicula eros, non scelerisque eros.

Fonte: Shutterstock.

sem medo de errar

A situação-problema da seção aborda a temática da reamostragem de um conjunto de dados, no intuito de se obter o parâmetro de viés para a média da saca de soja no Estado do Paraná. Para tanto, você utilizará o método Bootstrap, gerando 5 novas amostras aleatórias a partir da amostra original, considerando um procedimento com reposição. Devido à aleatoriedade, possivelmente não teremos os mesmos conjuntos de dados, porém o resultado deve estar próximo do obtido nesta resolução. Um possível conjunto de amostras bootstrap é apresentado a seguir:

Tabela 3.12 | Conjunto de amostras bootstrap
Observação Preço da Saca BP 1 BP 2 BP 3 BP 4 BP 5
1
2
3
4
5
6
7
8
9
10
167,79
162,11
163,65
153,18
164,58
161,36
160,70
156,11
161,24
169,58
160,70
167,79
156,11
169,58
162,11
153,18
156,11
156,11
169,58
161,36
161,24
153,18
153,18
156,11
156,11
169,58
162,11
153,18
161,36
163,65
161,24
167,79
167,79
161,24
161,24
156,11
161,36
164,58
161,36
160,70
160,70
160,70
156,11
153,18
160,70
169,58
153,18
163,65
167,79
169,58
156,11
161,24
161,36
167,79
163,65
163,65
169,58
153,18
162,11
160,70
Fonte: elaborada pelo autor.

Obteremos as médias aritméticas de cada uma das amostras, tanto a original, quanto as bootstrap. No entanto, compararemos a média original com o valor médio das médias bootstrap. Dessa forma, temos que:

Tabela 3.13 | Conjunto de médias
Observação Preço da Saca BP 1 BP 2 BP 3 BP 4 BP 5
1
2
3
4
5
6
7
8
9
10
167,79
162,11
163,65
153,18
164,58
161,36
160,70
156,11
161,24
169,58
160,70
167,79
156,11
169,58
162,11
153,18
156,11
156,11
169,58
161,36
161,24
153,18
153,18
156,11
156,11
169,58
162,11
153,18
161,36
163,65
161,24
167,79
167,79
161,24
161,24
156,11
161,36
164,58
161,36
160,70
160,70
160,70
156,11
153,18
160,70
169,58
153,18
163,65
167,79
169,58
156,11
161,24
161,36
167,79
163,65
163,65
169,58
153,18
162,11
160,70
Média 162,03 161,26 158,97 162,34 161,52 161,94
Fonte: elaborada pelo autor.

A média das amostras bootstrap é dada por: (161,26+158,97+162,34+161,52+161,94)5=161,21. Nesse sentido, o viés obtido pela diferença entre a média da amostra bootstrap e a média amostral: θ¯BPθi=161,21162,03=0,82. Para essa simulação, o viés amostral é de -0,82, ou R$ 0,82.

Avançando na prática

Jackknife aplicado a uma pesquisa social

Você trabalha em uma empresa de consultoria social e está avaliando o desvio-padrão da idade das pessoas que recebem menos que um salário-mínimo em determinado bairro. A partir de um estudo inicial, foram obtidas a idade de 10 pessoas enquadradas nesse perfil, listadas a seguir:

Tabela 3.14 | Amostra inicial
Observação 1 2 3 4 5 Desvio Padrão
Amostra Inicial 34 25 35 63 44 14,41
Fonte: elaborada pelo autor.

Com base nos valores apresentados, você deverá realizar uma reamostragem Jackknife eliminando uma observação a cada amostra. Qual a diferença entre o desvio padrão da amostra inicial e o desvio padrão das amostras Jackknife?

A resolução da situação-problema passa pela aplicação de dois conceitos: o de desvio padrão amostral e o de reamostragem. Inicialmente, deve-se criar as cinco amostras Jackknife (considerando que, a cada amostra, será deixado um elemento de fora; temos cinco amostras Jackknife).Os conjuntos amostrais são:

Tabela 3.15 | conjuntos amostrais
Observação 1 2 3 4 5
Amostra Inicial 34 25 35 63 44
Jackknife 1
Jackknife 2
Jackknife 3
Jackknife 4
Jackknife 5
NA
34
34
34
34
25
NA
25
25
25
35
35
NA
35
35
63
63
63
NA
63
44
44
44
44
NA
Fonte: elaborada pelo autor.

Para o cálculo dos desvios padrão, sugere-se a abertura por colunas ou o cálculo direto por meio do R ou do Excel. Para a abertura, temos o seguinte procedimento:

Tabela 3.15 | conjuntos amostrais
Observação 1 2 3 4 5 Média i=1n(xix¯)2 n-1 Variância Desvio Padrão
Amostra Inicial 34 25 35 63 44 40,20 830,80 4 207,70 14,41
Jackknife 1
Jackknife 2
Jackknife 3
Jackknife 4
Jackknife 5
NA
34
34
34
34
25
NA
25
25
25
35
35
NA
35
35
63
63
63
NA
63
44
44
44
44
NA
41,75
44,00
41,50
34,50
39,25
782,75
542,00
797,00
181,00
812,75
3
3
3
3
3
260,92
180,67
265,67
60,33
270,92
16,15
13,44
16,30
7,77
16,46
Fonte: elaborada pelo autor.

A média dos desvios padrão das amostras Jackknife é dada por: (16,15+13,44+16,30+7,77+16,46)5=14,02. A diferença entre o desvio padrão da amostra inicial e da média dos desvios padrão das amostras Jackknife é dada por 14,41-14,02=0,39.

Bons estudos!

AVALIE ESTE MATERIAL

OBRIGADO PELO SEU FEEDBACK!