Comentários

0%

Não pode faltar

Testes estatísticos

Gabriel Ferreira dos Santos Silva

Fonte: Shutterstock.

Praticar para aprender

Prezado estudante, nesta última seção do livro, abordaremos alguns conceitos importantes que estabelecem relação com praticamente todo o conteúdo apresentado anteriormente, dentre eles Teste T e Teste Z, intervalos de confiança e Teste Qui-quadrado. De modo geral, essas ferramentas são aplicadas em qualquer contexto do conhecimento, e, com maior ou menor frequência, serão requisitadas durante sua atividade profissional.
Iniciaremos a seção com uma discussão sobre os testes Z, a fim de entender em quais contextos eles se aplicam e quando devemos utilizar a distribuição Z ou distribuição T para realizar os testes. Em seguida, trataremos dos intervalos de confiança, os quais, assim como o p-valor, estudado na seção anterior, estão presentes em praticamente toda análise de dados. Por fim, encerraremos a abordagem teórica cobrindo os Testes Qui-quadrado, que, de modo geral, se dividem em três vertentes: teste para aderência/bondade do modelo, teste para homogeneidade e teste para independência.
Não nos aprofundaremos quanto aos elementos teóricos desta seção, visto que muitos tópicos serão abordados. No entanto, reunimos itens suficientes para explorar uma atividade prática ao final da seção, quando desenvolveremos três exemplos de aplicação. 
Como sempre orientamos, explore todos os recursos disponíveis neste material, pois eles permitirão uma melhor fixação dos conceitos trabalhados ao longo do texto.
Probabilidade e Estatística são áreas que nos permitem explorar dados com o intuito de obter informações a respeito de determinado assunto. A partir das diversas ferramentas disponíveis por ambas as áreas, podemos trabalhar com maior profundidade em análises de experimentos, levantar perguntas (hipóteses) e buscar as respostas por meio dos dados. Experimento, em nosso contexto, não se prende a um conceito estritamente acadêmico. Trata-se de qualquer situação real que nos ofereça dados consistentes passíveis de serem transformados em informação e conhecimento. Neste sentido, para a prática diária de análise de dados, conhecer e saber aplicar corretamente as principais ferramentas estatísticas e probabilísticas é um requisito fundamental.
Desta forma, saber como definir uma hipótese experimental, quais são os tipos de testes estatísticos, como encontrar e interpretar a significância de um parâmetro, como realizar um teste de hipótese e como encontrar um intervalo de confiança são domínios necessários para quem deseja trabalhar com análise de dados.  
Você trabalha no setor de Recursos Humanos de uma empresa e está liderando uma pesquisa que busca compreender a relação entre as horas de sono dos beneficiários e o nível de satisfação com o emprego. Após a realização de um levantamento inicial, foram obtidos os seguintes dados:

Tabela 4.8 | Relação entre as horas de sono dos beneficiários e o nível de satisfação com o emprego
Lorem ipsum Lorem ipsum Column 3 Column 4 Column 4 Column 4
Horas de sono
2 a 4 5 a 6
7 a 8
>8
Satisfação
Insatisfeito
15 16 44 13
Indiferente
8 9 14 7
Satisfeito
13 18 86 21
Fonte: elaborada pelo autor.

Diante disso, você deverá proceder a um Teste Qui-quadrado para avaliar se os eventos “horas de sono” e “satisfação” são independentes entre si.
Chegamos à última seção de nosso livro! Parabéns por ter se empenhado até aqui. Na área de dados, o aprendizado e a atualização são sempre constantes. Em nossos estudos, já desenvolvemos uma série de elementos necessários a um profissional de análise de dados. Sucesso em sua jornada!

conceito-chave

Nas seções anteriores, iniciamos as discussões relacionadas às distribuições de dados, momento em que nos foram apresentadas as distribuições T e Z. Cada uma delas carrega particularidades, porém ambas são de grande importância quando trabalhamos com testes estatísticos, como vimos nas Seções 4.1 e 4.2.
Entendemos que é possível testar diferentes parâmetros populacionais, como a própria distribuição dos dados e as variâncias, por meio de testes como Shapiro-Wilk e de Fisher, mas vimos que as situações mais comuns estão relacionadas às comparações de médias, quando se trabalha com as distribuições T e Z. 
Nos testes de comparação de médias, assim como na maior parte dos experimentos estatísticos, o primeiro passo é a elaboração das hipóteses a serem testadas, que se diferenciam entre hipótese nula ( H0 ) e hipótese alternativa ( H1 ou  Ha). Geralmente, na hipótese nula definimos a igualdade a ser testada, enquanto a hipótese alternativa apresenta o tipo de diferença (ex.: a > b, a < b ou a ≠ b) e será o fator determinante para realizarmos um teste bicaudal/bilateral ou unicaudal/unilateral.
Ao fazer um teste de hipóteses cujos parâmetros são as médias, podemos trabalhar com duas situações distintas: teste para proporções e teste para médias gerais. No teste para proporções, é possível comparar a proporção de uma população (ex.: ; ) e as proporções de duas populações (ex.: H0:pA=pBH1:pApB). Conforme aprendemos na seção anterior, utilizamos a distribuição Z para a realização desses testes. 
Temos, portanto, as seguintes situações possíveis para os testes de proporção:

Em ambas as situações, usamos a distribuição Z para o processo de tomada de decisão. A diferença, no entanto, residirá nos estimadores de Zcalc. No teste para uma proporção, o valor de Zcalc é obtido por meio da seguinte expressão:

Zcalc=p^pp(1p)n~N(0,1)

Para o teste bilateral, utilizaremos o valor crítico de Zα/2. Diante de um teste unilateral, o valor crítico de Z será dado por Zα.

Assimile

A tabela da distribuição Z apresenta valores diferentes quando utilizamos um teste bicaudal ou unicaudal. No teste bicaudal, o nível de significância α se divide em dois, de onde obteremos o valor respectivo à probabilidade 0,5α2. Por outro lado, quando trabalhamos com um teste unicaudal, o valor de Z é obtido por meio da probabilidade 0,5α.

Quando estamos trabalhando com um teste para duas proporções (A e B), o estimador do valor calculado de Z é dado por:

Zcalc=p^Ap^Bp^(1p^)nA+p^(1p^)nB~N(0,1)

Em que p^ é obtido por meio do seguinte estimador:

p^=nAp^A+nBp^BnA+nB

Em relação ao Z crítico, o racional é o mesmo do observado no teste para uma proporção.

Exemplificando

Suponha que um estudo realizado por uma consultoria revelou que 34% das pessoas que trabalham no mercado financeiro apresentam algum tipo de ansiedade, considerando um total de 100 usuários entrevistados. No mesmo estudo, 14% dos colaboradores do setor de energia demonstraram algum tipo de ansiedade, tomando como base 81 entrevistados. Considerando α=5%, verificaremos se essas proporções são iguais ou diferentes. 
O valor de Z crítico é expresso por 1,96, visto que estamos trabalhando com um teste bilateral e com α=5%. O valor de p^ é dado por:

p^=nAp^A+nBp^BnA+nB=100*0,34+81*0,14181=0,2505

A estimativa de Zcalc é dada por:

Zcalc=p^Ap^Bp^(1p^)nA+p^(1p^)nB=0,340,140,2505(10,2505)100+0,2505(10,2505)813,088

Nesse sentido, como Zcalc>Zcrítico, existem evidências para se rejeitar a hipótese nula e, portanto, dizer que há diferença estatística entre as duas proporções testadas

Além dos testes para proporções, também utilizamos a distribuição Z no teste de médias para uma amostra, principalmente quando o tamanho amostral é superior a trinta observações, número proveniente do Teorema do Limite Central (BUSSAB; MORETTIN, 2010). Nesse contexto, como regra decisória sobre qual teste de média adotar, geralmente utilizamos testes T para n<30 e testes Z quando n30
Dessa forma, considerando que desconhecemos a variância populacional, testaremos as seguintes hipóteses:

{H0:μA=μ0H1:μAμ0  ou  {H0:μA=μ0H1:μA<μ0 ou  {H0:μA=μ0H1:μA>μ0

Para esses casos, o estimador de Zcalc é dado por:

Zcalc=X¯μ0sn~N(0,1)

Quando, no entanto, estamos diante de um teste de média para uma amostra com n30, usamos a distribuição T em vez da Z. As hipóteses são elaboradas assim como acontece na distribuição Z. Entretanto, calcularemos a estatística de t, cujo estimador é dado por:

Tcalc=X¯μ0sn

Para a obtenção do valor crítico de T, utilizamos t(α/2;n1) no teste bilateral e t(α;n1) no unicaudal.

Reflita

O Teorema do Limite Central nos permite obter um valor de referência para presumir condições de normalidade: o número 30. Inicialmente, podemos achar que trinta observações é algo fácil de ser obtido. No entanto, há situações em que cada amostra adicional representa algo extremamente custoso, o que pode, até mesmo, inviabilizar algum estudo. Pense em algo nesse sentido. Você tem algum exemplo de amostra com alto custo de coleta?

Ao realizar um teste de médias, em vez de avaliarmos o comportamento de uma única amostra, podemos querer comparar a igualdade estatística entre as médias de duas populações. Nesse caso, utilizamos os testes ts, que podem apresentar duas variações:

Na hipótese de que as variâncias populacionais sejam iguais, o estimador de t é dado por:

T=(X¯AX¯B)(μAμB)sp1nA+1nB

Como vimos na seção anterior, precisamos encontrar um desvio padrão comum às duas populações, também denominado de desvio padrão pooled (sp), o qual pode ser obtido da seguinte maneira:

sp=(nA1)sA2+(nB1)sB2nA+nB2

Para a consulta na Tabela T, o número de graus de liberdade é dado por nA+nB2.
Quando trabalhamos com a hipótese de que as variâncias populacionais são diferentes, temos duas alterações: uma no estimador de T e outra no cálculo dos graus de liberdade. O estimador de T é dado por:

Tcalc=(X¯AX¯B)(μAμB)sA2nA+sB2nB

Para obter os graus de liberdade (v), devemos utilizar a seguinte expressão:

v=(sA2nA+sB2nB)2(sA2nA)2nA1+(sB2nB)2nB1

Assimile

Os intervalos de confiança fazem parte de um grupo da estatística inferencial denominado estimação intervalar. De forma geral, em vez de tentar associar um valor pontual, associamos um intervalo no qual esse possível parâmetro possa transitar, considerando um nível de significância α e, consequentemente, um nível de confiança (1α).

Além das aplicações aos testes de médias e proporções, as distribuições T e Z são utilizadas no cálculo dos intervalos de confiança de médias e proporções. Para o cálculo do intervalo de confiança de uma proporção, temos o seguinte estimador:

IC(p,1α)=(p^Zα2p^(1p^)n;p^+Zα2p^(1p^)n)

Para as médias, podemos calcular o intervalo de confiança para uma média populacional ou para a diferença entre as médias de duas populações distintas. No caso de uma média populacional, considerando a variância populacional conhecida, o estimador do intervalo de confiança é dado por:

IC(μ,1α)=(X¯Zα2σn;X¯+Zα2σn)

Quando a variância populacional é desconhecida, o intervalo de confiança é obtido por meio do seguinte estimador:

IC(μ,1α)=(X¯tα2sn;X¯+tα2sn)

Ao trabalharmos com duas médias populacionais, também é possível calcular o intervalo de confiança, porém em uma situação de avaliação da diferença entre as médias populacionais. Para médias provenientes de populações com variâncias desconhecidas e iguais, o intervalo de confiança da diferença das médias é dado por:

IC(μAμB,1α)=((X¯AX¯B)t(α,α2)sp1nA+1nB;(X¯AX¯B)+t(α,α2)sp1nA+1nB)

Para o caso de médias provenientes de populações com variâncias desconhecidas e diferentes, o IC é obtido a partir do seguinte estimador:

IC(μAμB,1α)=((X¯AX¯B)t(v,α2)sA2nA+sB2nB;(X¯AX¯B)+t(v,α2)sA2nA+sB2nB)

Assimile

Os intervalos de confiança são sempre bilaterais. Isso ocorre pelo fato de estarmos estabelecendo um intervalo com limites inferiores e superiores ao valor de algum parâmetro específico.

Além das distribuições T e Z, a distribuição Qui-quadrado (χ2) é de grande importância no contexto da análise de dados. De modo geral, existem três principais tipos de Testes Qui-quadrado: teste para aderência do modelo; teste para homogeneidade; e teste para independência, todos eles associados a variáveis nominais/categóricas, ou seja, a situações em que trabalhamos com contagens e proporções. 
No teste de aderência do modelo, também denominado teste de bondade do modelo, avaliamos a hipótese de que, em um conjunto amostral com k categorias, os dados seguem uma distribuição teórica específica. Suponha, por exemplo, que estejamos realizando uma pesquisa de diversidade entre os cargos de alta gestão e esperamos que 50% das posições sejam ocupadas por pessoas do sexo feminino, e os outros 50%, por pessoas do sexo masculino. No entanto, após um levantamento feito em 30 empresas, observou-se que somente 9 posições eram ocupadas por pessoas do sexo feminino, enquanto 21 tinham indivíduos do sexo masculino como atuantes. Nesse contexto, temos dois dados diferentes: um relacionado à distribuição efetivamente encontrada e outro relativo a uma distribuição teórica, considerando os 50% de cada sexo. Os valores estão apresentados na Tabela 4.9, a seguir:

Tabela 4.9 | Frequências observada e esperada para o exemplo de distribuição de cargos por sexo
Sexo Freq. Observada Freq. Esperada
F 9 15
M 21 15
Total 30 30
Fonte: elaborada pelo autor.

Testaremos, a partir disso, as seguintes hipóteses:

{H0:pMasc=pfemH1:pMascpfem

A estatística do teste é obtida por meio da seguinte expressão:

χ2=i=1k(OiEi)2Ei

Em que Oi é o valor observado da i-ésima classe de uma categoria e Ei é o valor esperado da i-ésima classe dessa categoria. Seguindo o exemplo, precisaremos calcular a diferença entre os valores observados e os valores esperados para os indivíduos de ambos os sexos, conforme apresentado na Tabela 4.10, a seguir:

Tabela 4.10 | Cálculo das estatísticas de Qui-quadrado para o exemplo de distribuição de cargos por sexo
Sexo Freq. Observada Freq. Esperada OiEi (OiEi)2 (OiEi)2Ei
F 9 15 -6 36 2,4
M 21 15 6 36 2,4
Total 30 30 0 72 4,8
Fonte: elaborada pelo autor.

Obtemos, portanto, que o valor de χ2 é 4,8. Para esse tipo de teste, temos k1 graus de liberdade, ou seja, 21=1, considerando um nível de significância α=5%. Consultando a Tabela 4.11, a seguir, temos que o valor crítico de χ2 equivale a 3,841.

Tabela 4.11 | Tabela de distribuição Qui-quadrada para o nível de significância α
Lorem ipsum Lorem ipsum Column 3 Column 4 Column 4 Column 4 Column 4 Column 4 Column 4 Column 4 Column 4 Column 4 Column 4
G.L.
Nível de significância  α
95% 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 1%
1 0,004 0,016 0,064 0,148 0,275 0,455 0,708 1,074 1,642 2,706 3,841 6,635
2 0,103 0,211 0,446 0,713 1,022 1,386 1,833 2,408 3,219 4,605 5,991 9,210
3 0,352 0,584 1,005 1,424 1,869 2,366 2,946 3,665 4,642 6,251 7,815 11,345
4 0,711 1,064 1,649 2,195 2,753 3,357 4,045 4,878 5,989 7,779 9,488 13,277
5 1,145 1,610 2,343 3,000 3,655 4,351 5,132 6,064 7,289 9,236 11,070 15,086
6 1,635 2,204 3,070 3,828 4,570 5,348 6,211 7,231 8,558 10,645 12,592 16,812
7 2,167 2,833 3,822 4,671 5,493 6,346 7,283 8,383 9,803 12,017 14,067 18,475
8 2,733 3,490 4,594 5,527 6,423 7,344 8,351 9,524 11,030 13,362 15,507 20,090
9 3,325 4,168 5,380 6,393 7,357 8,343 9,414 10,656 12,242 14,684 16,919 21,666
10 3,940 4,865 6,179 7,267 8,295 9,342 10,473 11,781 13,442 15,987 18,307 23,209
11 4,575 5,578 6,989 8,148 9,237 10,341 11,530 12,899 14,631 17,275 19,675 24,725
12 5,226 6,304 7,807 9,034 10,182 11,340 12,584 14,011 15,812 18,549 21,026 26,217
13 5,892 7,042 8,634 9,926 11,129 12,340 13,636 15,119 16,985 19,812 22,362 27,688
14 6,571 7,790 9,467 10,821 12,078 13,339 14,685 16,222 18,151 21,064 23,685 29,141
15 7,261 8,547 10,307 11,721 13,030 14,339 15,733 17,322 19,311 22,307 24,996 30,578
16 7,962 9,312 11,152 12,624 13,983 15,338 16,780 18,418 20,465 23,542 26,296 32,000
17 8,672 10,085 12,002 13,531 14,937 16,338 17,824 19,511 21,615 24,769 27,587 33,409
18 9,390 10,865 12,857 14,440 15,893 17,338 18,868 20,601 22,760 25,989 28,869 34,805
19 10,117 11,651 13,716 15,352 16,850 18,338 19,910 21,689 23,900 27,204 30,144 36,191
20 10,851 12,443 14,578 16,266 17,809 19,337 20,951 22,775 25,038 28,412 31,410 37,566
21 11,591 13,240 15,445 17,182 18,768 20,337 21,991 23,858 26,171 29,615 32,671 38,932
22 12,338 14,041 16,314 18,101 19,729 21,337 23,031 24,939 27,301 30,813 33,924 40,289
23 13,091 14,848 17,187 19,021 20,690 22,337 24,069 26,018 28,429 32,007 35,172 41,638
24 13,848 15,659 18,062 19,943 21,652 23,337 25,106 27,096 29,553 33,196 36,415 42,980
25 14,611 16,473 18,940 20,867 22,616 24,337 26,143 28,172 30,675 34,382 37,652 44,314
26 15,379 17,292 19,820 21,792 23,579 25,336 27,179 29,246 31,795 35,563 38,885 45,642
27 16,151 18,114 20,703 22,719 24,544 26,336 28,214 30,319 32,912 36,741 40,113 46,963
28 16,928 18,939 21,588 23,647 25,509 27,336 29,249 31,391 34,027 37,916 41,337 48,278
29 17,708 19,768 22,475 24,577 26,475 28,336 30,283 32,461 35,139 39,087 42,557 49,588
30 18,493 20,599 23,364 25,508 27,442 29,336 31,316 33,530 36,250 40,256 43,773 50,892
Fonte: elaborada pelo autor.

Dessa forma, considerando a regra de decisão entre o valor crítico e o valor calculado, temos que χcalc2>χcrítico2. Ou seja, a um nível de significância α, há elementos suficientes para dizermos que as proporções dos cargos entre os sexos não são iguais e que, portanto, não estão de acordo com os valores esperados.
No teste para homogeneidade, trabalhamos sob as seguintes hipóteses:

{H0:proporções são homogêneasH1:proporções são heterogêneas

Suponha, para tanto, que estamos coletando informações sobre a satisfação dos colaboradores de uma empresa com base na diferenciação de dois grupos: um com plano de carreira e outro sem. Ao todo foram coletados dados de 100 indivíduos (40 com plano e 60 sem plano), conforme apresentado na Tabela 4.12, a seguir:

Tabela 4.12 | Satisfação dos colaboradores pela presença ou ausência de plano de carreira
Satisfação C/plano S/plano Total
Satisfeito 22 25 47
Indiferente 8 20 28
Insatisfeito 10 15 25
Total
40 60 100
Fonte: elaborada pelo autor.

A partir da coluna referente ao total, temos uma proporção esperada, que será utilizada como referência para o comparativo das proporções entre os indivíduos com plano e sem plano. A ideia, portanto, é avaliar se existe homogeneidade entre os grupos, considerando as três classificações de satisfação. Para isso, devemos encontrar o valor de χ2calculado, que é obtido por meio da seguinte expressão:

χcalculado2=i=1mj=1k(Oi|jEj|i)2Ej|i

Em que m é o número de variáveis (com plano ou sem plano) e k é o número de categorias (Satisfeito, Indiferente e Insatisfeito). Os valores esperados são obtidos por meio do produto entre o valor total de cada variável e a proporção das categorias na coluna totalizadora. Por exemplo, para a satisfação, é esperado que 45% dos indivíduos estejam satisfeitos. Dessa forma, para encontrar o número de indivíduos esperados na categoria “Satisfeito” para a variável “C/plano”, devemos multiplicar 40 (valor total) por 45% (proporção esperada), obtendo um total de 18 pessoas. O procedimento é repetido até obtermos todos os valores esperados, conforme apresentado na Tabela 4.13, a seguir:

Tabela 4.13 | Satisfação dos colaboradores pela presença ou ausência de plano de carreira – distribuição observada e esperada
Satisfação C/plano S/plano Total Esperado c/plano Esperado s/plano
Satisfeito 20 25 45 18 27
Indiferente 10 20 30 12 18
Insatisfeito 10 15 25 10 15
Total
40 60 100 40 60
Fonte: elaborada pelo autor.

Em seguida, calcularemos o valor de χ2, dado por:

χcalculado2=i=1mj=1k(Oi|jEj|i)2Ej|i=(2018)218+(2527)227+(1012)212+(2018)218+(1010)210+(1515)215=0,92593

O número de graus de liberdade é expresso por (m1)(k1)=(21)(31)=1*2=2. Consultando a tabela de distribuição Qui-quadrado, temos que χ20,05;2=5,991. Dessa forma, como χcalc2<χcrítico2, não há evidências para se rejeitar a hipótese nula, ou seja, podemos dizer que as proporções da satisfação entre os beneficiários com plano de carreira e sem plano de carreira são homogêneas. 
Por fim, o teste de independência é utilizado quando se deseja observar alguma associação entre variáveis qualitativas. Para tanto, avaliamos as seguintes hipóteses:

{H0:variáveis e categorias são independentes (não existe associação)H1:variáveis e categorias não são independentes (existe associação)

Podemos, inclusive, utilizar o mesmo exemplo da Tabela 4.12. Para isso, o cálculo do valor esperado será diferente do realizado no teste para homogeneidade. Precisaremos encontrar as probabilidades verticais e horizontais e multiplicá-las pelo valor total de observações, conforme mostra a Tabela 4.14, a seguir:

Tabela 4.14 | Satisfação dos colaboradores pela presença ou ausência de plano de carreira – distribuição observada e esperada – abertura para teste de independência
Nível de Satisfação C/plano S/plano Total
Satisfeito Observado 20 25 45
Esperado (0,45*0,40*100) = 18 (0,45*0,60*100) = 27
Indiferente Observado 10 20 30
Esperado (0,30*0,40*100) = 12 (0,30*0,60*100) = 18
Insatisfeito Observado 10 15 25
Esperado (0,25*0,40*100) = 10 (0,25*0,60*100) = 15
Total 40 60 100
Fonte: elaborada pelo autor.

A partir daqui o procedimento é o mesmo. Ou seja, para encontrar o valor calculado de χ2, deve-se utilizar o seguinte estimador:

χcalculado2=i=1mj=1k(Oi|jEj|i)2Ej|i=(2018)218+(2527)227+(1012)212+(2018)218+(1010)210+(1515)215=0,92593

Perceba que ainda que o teste seja diferente, o estimador é o mesmo, trazendo um valor de χ2 equivalente ao anterior. Dessa forma, considerando que χcalc2<χcrítico2, não existem elementos suficientes para rejeitarmos H0 e, portanto, dizer que o nível de satisfação do beneficiário depende do plano de carreira. 
Finalizamos, portanto, o conteúdo teórico da seção. No exercício em R, trabalharemos alguns dos tópicos abordados, com destaque para os intervalos de confiança e o Teste Qui-quadrado para independência.

Prezado(a) estudante, agora trabalharemos três exercícios práticos, no intuito de fixarmos o conteúdo apresentado durante o corpo do texto. Para tanto, iniciaremos com o cálculo do intervalo de confiança para uma proporção, seguido do intervalo de confiança para uma média e finalizaremos com um teste qui-quadrado para independência. Para fins de cálculo, considere o nível de significância α=0,05 em todos os exemplos

Intervalo de Confiança para uma proporção

Uma amostra de 100 viagens de transporte por aplicativo, 72 apresentam avaliações com cinco estrelas. Com base nestas informações, iremos encontrar o intervalo de confiança para a porporção p.

# Primeiro passo: encontrar o valor crítico de Z. Como trabalharemos com alpha = 5%, definiremos o valor de antemão.


alpha = 0.05

n = 100

# o valor crítico de Z é obtido por meio da função qnorm, ao passo que se trata de uma distribuição normal. Como estamos trabalhando com o intervalo de confiança, utilizamos o valor de alpha/2.


z_critico = qnorm(1-alpha/2, mean = 0, sd = 1)

print(z_critico)

## [1] 1.959964

# Agora iremos obter o valor de p estimado (chapéu)

p_est = 72/100


LI = (p_est - z_critico*sqrt((p_est*(1-p_est))/n))

LS = (p_est + z_critico*sqrt((p_est*(1-p_est))/n))

print(c(LI, LS))

## [1] 0.6319978 0.8080022

Intervalo de Confiança para uma média

Uma empresa está avaliando o tempo médio gasto pelos funcionários para chegarem ao trabalho diariamente. Em uma amostra com 50 colaboradore, foram obtidos os seguintes dados (28, 31, 36, 31, 34, 23, 24, 33, 30, 37, 32, 28, 26, 30, 37, 29, 27, 33, 28, 37, 31, 33, 23, 41, 34, 26, 28, 32, 28, 32, 33, 29, 26, 22, 26, 32, 28, 35, 29, 27, 20, 28, 31, 33, 29, 31, 32, 30, 32, 32). Considerando que a variância é desconhecida, calcule o intervalo de confiança para a média do tempo de deslocamento gasto até o trabalho. Lembrete: para média de uma amostra, com variância populacional desconhecida, utilizamos a Tabela T para realizar os testes.

# Primeiro passo: gerar o conjunto de dados a partir da amostra informada.


tempo = c(28, 31, 36, 31, 34, 23, 24, 33, 30, 37, 32, 28, 26, 30, 37, 29, 27, 33, 28, 37, 31, 33, 23, 41, 34, 26, 28, 32, 28, 32, 33, 29, 26, 22, 26, 32, 28, 35, 29, 27, 20, 28, 31, 33, 29, 31, 32, 30, 32, 32)

n = length(tempo)

alpha = 0.05


# o valor crítico de T é obtido por meio da função qt. Como estamos trabalhando com o intervalo de confiança, utilizamos o valor de alpha/2.


t_critico = qt(1-alpha/2, df = n-1)

print(t_critico)

## [1] 2.009575

# Aplicando a fórmula, já conseguimos obter o intervalo de confiança:


LI = (mean(tempo) - t_critico*sd(tempo)/sqrt(n))

LS = (mean(tempo) + t_critico*sd(tempo)/sqrt(n))

print(c(LI, LS))

## [1] 28.95632 31.32368

# Também podemos confirmar os resultados obtidos por meio do seguinte comando:

t.test(tempo, conf.level = 1-alpha)

## 
## One Sample t-test

## 
## data: tempo

## t = 51.17, df = 49, p-value < 2.2e-16

## alternative hypothesis: true mean is not equal to 0

## 95 percent confidence interval:

## 28.95632 31.32368

## sample estimates:

## mean of x 
##   30.14

Teste Qui-quadrado para independência

Suponha que uma agência de viagens esteja avaliando a satisfação de seus clientes, considerando, para tanto, três destinos diferentes: Marrocos, Porto Rico e Itália. De modo geral, a ideia é avaliar se existe alguma associação entre o destino escolhido e o nível de satisfação dos clietes, estratificado em “Satisfeito” e “Insatisfeito”. Foram coletados os seguintes dados:

Tabela 4.15 - Tabela de dados de satisfação dos clientes
Lorem ipsum Lorem ipsum Column 3 Column 4
Marrocos
Porto Rico
Itália
Satisfeito 130 87 155
Insatisfeito 20 13 15
Fonte: elaborada pelo autor.

A partir dos dados obtidos, iremos avaliar se existe independência entre a satisfação e o local de destino, considerando um teste Qui-quadrado.

# Criando a tabela de dados (tabela de contingência)

pesquisa = matrix(c(130,87,155,

          20,13,15), byrow = T,ncol=3)


# Adicionando nomes das colunas e das linhas

colnames(pesquisa) = c("marrocos""porto_rico","italia")

rownames(pesquisa) = c("satisfeito""insatisfeito")


print(pesquisa)

Lorem ipsum Lorem ipsum Column 3 Column 4
## marrocos porto_rico italia
## satisfeito 130 87 155
## insatisfeito 20 13 15

# Rodando o teste qui-quadrado (hipótese nula de que satisfação e países são independentes)

chisq.test(pesquisa, correct = F)

## 
## Pearson's Chi-squared test

## 
## data: pesquisa

## X-squared = 1.9213, df = 2, p-value = 0.3826

Com base no p-valor do teste, não há elementos suficientes para rejeitarmos H0, ou seja, para dizermos que o destino da viagem e a satisfação do cliente estão associadas.

Faça valer a pena

Questão 1

O setor de RH de uma empresa está avaliando a satisfação dos funcionários com base na área de trabalho. Após um levantamento realizado, foi obtida a seguinte relação:

Lorem ipsum Lorem ipsum Column 3
Finanças
Vendas
Satisfeito 25 32
Insatisfeito 14 21

Considerando o contexto apresentado, caso a empresa deseje avaliar se há alguma associação entre a satisfação dos funcionários e o setor de atuação, deve-se realizar o:

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Correto!

A questão passa pela aplicação do conhecimento relacionado aos testes estatísticos. Com base na tabela de contingência apresentada, estamos diante de uma análise com variáveis nominais/categóricas e, ao tentar compreender se há alguma relação entre as variáveis, devemos proceder a um Teste Qui-quadrado para independência.

Questão 2

Após a realização de uma pesquisa de comparação da média de três populações, foram obtidos os seguintes resultados:

Comparativo I.C. da diferença das médias P-valor
A-B [-0,35;-0,18] 0,032
A-C [-0,12; 3,16] 0,054
B-C [1,65; 3,62] 0,011

Com base nos dados apresentados e considerando α=5%, assinale a alternativa correta.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Correto!

A resolução da questão passa pela interpretação do intervalo de confiança e do p-valor. Considerando α=5%, as diferenças estatisticamente significativas são aquelas com p-valor < 0,05. No exemplo, somente os comparativos A-B e B-C apresentam esse comportamento.

Questão 3

Uma empresa está avaliando a taxa de ocorrência de peças defeituosas. Para isso, coletou uma amostra de 100 peças, das quais 31 apresentaram defeito.
Considerando o contexto apresentado, o intervalo de confiança da proporção de peças defeituosas, a um nível de significância α=5%, é dado por:

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Correto!

A resolução da questão passa pela aplicação do cálculo do intervalo de confiança para proporção, obtido por meio do seguinte estimador: 
IC(p,1α)=(p^Zα2p^(1p^)n;p^+Zα2p^(1p^)n).
Considerando Z=1,96, temos o seguinte cálculo:
IC(p,1α)=(0,311,960,31(10,31)100;0,31+1,960,31(10,31)100)=(21,94%;40,06%).

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Referências

BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Saraiva, 2010.
GUEDES, D. P.; LOPES, C. C. Validação da versão brasileira do Youth Risk Behavior Survey 2007. Revista de Saúde Pública, v. 44, n. 5, p. 840-850, 2010. Disponível em: https://bit.ly/3sWpBgy. Acesso em: 22 jul. 2021.

Bons estudos!

AVALIE ESTE MATERIAL

OBRIGADO PELO SEU FEEDBACK!