
Fonte: Shutterstock.
Praticar para aprender
Prezado estudante, nesta última seção do livro, abordaremos alguns conceitos importantes que estabelecem relação com praticamente todo o conteúdo apresentado anteriormente, dentre eles Teste T e Teste Z, intervalos de confiança e Teste Qui-quadrado. De modo geral, essas ferramentas são aplicadas em qualquer contexto do conhecimento, e, com maior ou menor frequência, serão requisitadas durante sua atividade profissional.
Iniciaremos a seção com uma discussão sobre os testes Z, a fim de entender em quais contextos eles se aplicam e quando devemos utilizar a distribuição Z ou distribuição T para realizar os testes. Em seguida, trataremos dos intervalos de confiança, os quais, assim como o p-valor, estudado na seção anterior, estão presentes em praticamente toda análise de dados. Por fim, encerraremos a abordagem teórica cobrindo os Testes Qui-quadrado, que, de modo geral, se dividem em três vertentes: teste para aderência/bondade do modelo, teste para homogeneidade e teste para independência.
Não nos aprofundaremos quanto aos elementos teóricos desta seção, visto que muitos tópicos serão abordados. No entanto, reunimos itens suficientes para explorar uma atividade prática ao final da seção, quando desenvolveremos três exemplos de aplicação.
Como sempre orientamos, explore todos os recursos disponíveis neste material, pois eles permitirão uma melhor fixação dos conceitos trabalhados ao longo do texto.
Probabilidade e Estatística são áreas que nos permitem explorar dados com o intuito de obter informações a respeito de determinado assunto. A partir das diversas ferramentas disponíveis por ambas as áreas, podemos trabalhar com maior profundidade em análises de experimentos, levantar perguntas (hipóteses) e buscar as respostas por meio dos dados. Experimento, em nosso contexto, não se prende a um conceito estritamente acadêmico. Trata-se de qualquer situação real que nos ofereça dados consistentes passíveis de serem transformados em informação e conhecimento. Neste sentido, para a prática diária de análise de dados, conhecer e saber aplicar corretamente as principais ferramentas estatísticas e probabilísticas é um requisito fundamental.
Desta forma, saber como definir uma hipótese experimental, quais são os tipos de testes estatísticos, como encontrar e interpretar a significância de um parâmetro, como realizar um teste de hipótese e como encontrar um intervalo de confiança são domínios necessários para quem deseja trabalhar com análise de dados.
Você trabalha no setor de Recursos Humanos de uma empresa e está liderando uma pesquisa que busca compreender a relação entre as horas de sono dos beneficiários e o nível de satisfação com o emprego. Após a realização de um levantamento inicial, foram obtidos os seguintes dados:
Lorem ipsum | Lorem ipsum | Column 3 | Column 4 | Column 4 | Column 4 |
---|---|---|---|---|---|
Horas de sono | |||||
2 a 4 | 5 a 6 |
7 a 8 |
>8 |
||
Satisfação |
Insatisfeito |
15 | 16 | 44 | 13 |
Indiferente |
8 | 9 | 14 | 7 | |
Satisfeito |
13 | 18 | 86 | 21 |
Diante disso, você deverá proceder a um Teste Qui-quadrado para avaliar se os eventos “horas de sono” e “satisfação” são independentes entre si.
Chegamos à última seção de nosso livro! Parabéns por ter se empenhado até aqui. Na área de dados, o aprendizado e a atualização são sempre constantes. Em nossos estudos, já desenvolvemos uma série de elementos necessários a um profissional de análise de dados. Sucesso em sua jornada!
conceito-chave
Nas seções anteriores, iniciamos as discussões relacionadas às distribuições de dados, momento em que nos foram apresentadas as distribuições T e Z. Cada uma delas carrega particularidades, porém ambas são de grande importância quando trabalhamos com testes estatísticos, como vimos nas Seções 4.1 e 4.2.
Entendemos que é possível testar diferentes parâmetros populacionais, como a própria distribuição dos dados e as variâncias, por meio de testes como Shapiro-Wilk e de Fisher, mas vimos que as situações mais comuns estão relacionadas às comparações de médias, quando se trabalha com as distribuições T e Z.
Nos testes de comparação de médias, assim como na maior parte dos experimentos estatísticos, o primeiro passo é a elaboração das hipóteses a serem testadas, que se diferenciam entre hipótese nula ( ) e hipótese alternativa ( ou ). Geralmente, na hipótese nula definimos a igualdade a ser testada, enquanto a hipótese alternativa apresenta o tipo de diferença (ex.: a > b, a < b ou a ≠ b) e será o fator determinante para realizarmos um teste bicaudal/bilateral ou unicaudal/unilateral.
Ao fazer um teste de hipóteses cujos parâmetros são as médias, podemos trabalhar com duas situações distintas: teste para proporções e teste para médias gerais. No teste para proporções, é possível comparar a proporção de uma população (ex.: ; ) e as proporções de duas populações (ex.: ; ). Conforme aprendemos na seção anterior, utilizamos a distribuição Z para a realização desses testes.
Temos, portanto, as seguintes situações possíveis para os testes de proporção:
- Teste para uma proporção: bicaudal ou unicaudal;
- Teste para duas proporções: bicaudal ou unicaudal.
Em ambas as situações, usamos a distribuição Z para o processo de tomada de decisão. A diferença, no entanto, residirá nos estimadores de . No teste para uma proporção, o valor de é obtido por meio da seguinte expressão:
Para o teste bilateral, utilizaremos o valor crítico de . Diante de um teste unilateral, o valor crítico de Z será dado por .
Assimile
A tabela da distribuição Z apresenta valores diferentes quando utilizamos um teste bicaudal ou unicaudal. No teste bicaudal, o nível de significância se divide em dois, de onde obteremos o valor respectivo à probabilidade . Por outro lado, quando trabalhamos com um teste unicaudal, o valor de Z é obtido por meio da probabilidade .
Quando estamos trabalhando com um teste para duas proporções (A e B), o estimador do valor calculado de Z é dado por:
Em que é obtido por meio do seguinte estimador:
Em relação ao Z crítico, o racional é o mesmo do observado no teste para uma proporção.
Exemplificando
Suponha que um estudo realizado por uma consultoria revelou que 34% das pessoas que trabalham no mercado financeiro apresentam algum tipo de ansiedade, considerando um total de 100 usuários entrevistados. No mesmo estudo, 14% dos colaboradores do setor de energia demonstraram algum tipo de ansiedade, tomando como base 81 entrevistados. Considerando , verificaremos se essas proporções são iguais ou diferentes.
O valor de Z crítico é expresso por 1,96, visto que estamos trabalhando com um teste bilateral e com . O valor de é dado por:
A estimativa de é dada por:
Nesse sentido, como , existem evidências para se rejeitar a hipótese nula e, portanto, dizer que há diferença estatística entre as duas proporções testadas
Além dos testes para proporções, também utilizamos a distribuição Z no teste de médias para uma amostra, principalmente quando o tamanho amostral é superior a trinta observações, número proveniente do Teorema do Limite Central (BUSSAB; MORETTIN, 2010). Nesse contexto, como regra decisória sobre qual teste de média adotar, geralmente utilizamos testes T para e testes Z quando .
Dessa forma, considerando que desconhecemos a variância populacional, testaremos as seguintes hipóteses:
ou ou
Para esses casos, o estimador de é dado por:
Quando, no entanto, estamos diante de um teste de média para uma amostra com , usamos a distribuição T em vez da Z. As hipóteses são elaboradas assim como acontece na distribuição Z. Entretanto, calcularemos a estatística de t, cujo estimador é dado por:
Para a obtenção do valor crítico de T, utilizamos no teste bilateral e no unicaudal.
Reflita
O Teorema do Limite Central nos permite obter um valor de referência para presumir condições de normalidade: o número 30. Inicialmente, podemos achar que trinta observações é algo fácil de ser obtido. No entanto, há situações em que cada amostra adicional representa algo extremamente custoso, o que pode, até mesmo, inviabilizar algum estudo. Pense em algo nesse sentido. Você tem algum exemplo de amostra com alto custo de coleta?
Ao realizar um teste de médias, em vez de avaliarmos o comportamento de uma única amostra, podemos querer comparar a igualdade estatística entre as médias de duas populações. Nesse caso, utilizamos os testes ts, que podem apresentar duas variações:
- Teste t para duas médias populacionais, considerando as variâncias populacionais desconhecidas, porém iguais;
- Teste t para duas médias populacionais, considerando as variâncias populacionais desconhecidas, porém diferentes.
Na hipótese de que as variâncias populacionais sejam iguais, o estimador de t é dado por:
Como vimos na seção anterior, precisamos encontrar um desvio padrão comum às duas populações, também denominado de desvio padrão pooled , o qual pode ser obtido da seguinte maneira:
Para a consulta na Tabela T, o número de graus de liberdade é dado por .
Quando trabalhamos com a hipótese de que as variâncias populacionais são diferentes, temos duas alterações: uma no estimador de T e outra no cálculo dos graus de liberdade. O estimador de T é dado por:
Para obter os graus de liberdade (v), devemos utilizar a seguinte expressão:
Assimile
Os intervalos de confiança fazem parte de um grupo da estatística inferencial denominado estimação intervalar. De forma geral, em vez de tentar associar um valor pontual, associamos um intervalo no qual esse possível parâmetro possa transitar, considerando um nível de significância e, consequentemente, um nível de confiança .
Além das aplicações aos testes de médias e proporções, as distribuições T e Z são utilizadas no cálculo dos intervalos de confiança de médias e proporções. Para o cálculo do intervalo de confiança de uma proporção, temos o seguinte estimador:
Para as médias, podemos calcular o intervalo de confiança para uma média populacional ou para a diferença entre as médias de duas populações distintas. No caso de uma média populacional, considerando a variância populacional conhecida, o estimador do intervalo de confiança é dado por:
Quando a variância populacional é desconhecida, o intervalo de confiança é obtido por meio do seguinte estimador:
Ao trabalharmos com duas médias populacionais, também é possível calcular o intervalo de confiança, porém em uma situação de avaliação da diferença entre as médias populacionais. Para médias provenientes de populações com variâncias desconhecidas e iguais, o intervalo de confiança da diferença das médias é dado por:
Para o caso de médias provenientes de populações com variâncias desconhecidas e diferentes, o IC é obtido a partir do seguinte estimador:
Assimile
Os intervalos de confiança são sempre bilaterais. Isso ocorre pelo fato de estarmos estabelecendo um intervalo com limites inferiores e superiores ao valor de algum parâmetro específico.
Além das distribuições T e Z, a distribuição Qui-quadrado é de grande importância no contexto da análise de dados. De modo geral, existem três principais tipos de Testes Qui-quadrado: teste para aderência do modelo; teste para homogeneidade; e teste para independência, todos eles associados a variáveis nominais/categóricas, ou seja, a situações em que trabalhamos com contagens e proporções.
No teste de aderência do modelo, também denominado teste de bondade do modelo, avaliamos a hipótese de que, em um conjunto amostral com k categorias, os dados seguem uma distribuição teórica específica. Suponha, por exemplo, que estejamos realizando uma pesquisa de diversidade entre os cargos de alta gestão e esperamos que 50% das posições sejam ocupadas por pessoas do sexo feminino, e os outros 50%, por pessoas do sexo masculino. No entanto, após um levantamento feito em 30 empresas, observou-se que somente 9 posições eram ocupadas por pessoas do sexo feminino, enquanto 21 tinham indivíduos do sexo masculino como atuantes. Nesse contexto, temos dois dados diferentes: um relacionado à distribuição efetivamente encontrada e outro relativo a uma distribuição teórica, considerando os 50% de cada sexo. Os valores estão apresentados na Tabela 4.9, a seguir:
Sexo | Freq. Observada | Freq. Esperada |
---|---|---|
F | 9 | 15 |
M | 21 | 15 |
Total | 30 | 30 |
Testaremos, a partir disso, as seguintes hipóteses:
A estatística do teste é obtida por meio da seguinte expressão:
Em que é o valor observado da i-ésima classe de uma categoria e é o valor esperado da i-ésima classe dessa categoria. Seguindo o exemplo, precisaremos calcular a diferença entre os valores observados e os valores esperados para os indivíduos de ambos os sexos, conforme apresentado na Tabela 4.10, a seguir:
Sexo | Freq. Observada | Freq. Esperada | |||
---|---|---|---|---|---|
F | 9 | 15 | -6 | 36 | 2,4 |
M | 21 | 15 | 6 | 36 | 2,4 |
Total | 30 | 30 | 0 | 72 | 4,8 |
Obtemos, portanto, que o valor de é 4,8. Para esse tipo de teste, temos graus de liberdade, ou seja, , considerando um nível de significância . Consultando a Tabela 4.11, a seguir, temos que o valor crítico de equivale a 3,841.
Lorem ipsum | Lorem ipsum | Column 3 | Column 4 | Column 4 | Column 4 | Column 4 | Column 4 | Column 4 | Column 4 | Column 4 | Column 4 | Column 4 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
G.L. |
Nível de significância |
|||||||||||
95% | 90% | 80% | 70% | 60% | 50% | 40% | 30% | 20% | 10% | 5% | 1% | |
1 | 0,004 | 0,016 | 0,064 | 0,148 | 0,275 | 0,455 | 0,708 | 1,074 | 1,642 | 2,706 | 3,841 | 6,635 |
2 | 0,103 | 0,211 | 0,446 | 0,713 | 1,022 | 1,386 | 1,833 | 2,408 | 3,219 | 4,605 | 5,991 | 9,210 |
3 | 0,352 | 0,584 | 1,005 | 1,424 | 1,869 | 2,366 | 2,946 | 3,665 | 4,642 | 6,251 | 7,815 | 11,345 |
4 | 0,711 | 1,064 | 1,649 | 2,195 | 2,753 | 3,357 | 4,045 | 4,878 | 5,989 | 7,779 | 9,488 | 13,277 |
5 | 1,145 | 1,610 | 2,343 | 3,000 | 3,655 | 4,351 | 5,132 | 6,064 | 7,289 | 9,236 | 11,070 | 15,086 |
6 | 1,635 | 2,204 | 3,070 | 3,828 | 4,570 | 5,348 | 6,211 | 7,231 | 8,558 | 10,645 | 12,592 | 16,812 |
7 | 2,167 | 2,833 | 3,822 | 4,671 | 5,493 | 6,346 | 7,283 | 8,383 | 9,803 | 12,017 | 14,067 | 18,475 |
8 | 2,733 | 3,490 | 4,594 | 5,527 | 6,423 | 7,344 | 8,351 | 9,524 | 11,030 | 13,362 | 15,507 | 20,090 |
9 | 3,325 | 4,168 | 5,380 | 6,393 | 7,357 | 8,343 | 9,414 | 10,656 | 12,242 | 14,684 | 16,919 | 21,666 |
10 | 3,940 | 4,865 | 6,179 | 7,267 | 8,295 | 9,342 | 10,473 | 11,781 | 13,442 | 15,987 | 18,307 | 23,209 |
11 | 4,575 | 5,578 | 6,989 | 8,148 | 9,237 | 10,341 | 11,530 | 12,899 | 14,631 | 17,275 | 19,675 | 24,725 |
12 | 5,226 | 6,304 | 7,807 | 9,034 | 10,182 | 11,340 | 12,584 | 14,011 | 15,812 | 18,549 | 21,026 | 26,217 |
13 | 5,892 | 7,042 | 8,634 | 9,926 | 11,129 | 12,340 | 13,636 | 15,119 | 16,985 | 19,812 | 22,362 | 27,688 |
14 | 6,571 | 7,790 | 9,467 | 10,821 | 12,078 | 13,339 | 14,685 | 16,222 | 18,151 | 21,064 | 23,685 | 29,141 |
15 | 7,261 | 8,547 | 10,307 | 11,721 | 13,030 | 14,339 | 15,733 | 17,322 | 19,311 | 22,307 | 24,996 | 30,578 |
16 | 7,962 | 9,312 | 11,152 | 12,624 | 13,983 | 15,338 | 16,780 | 18,418 | 20,465 | 23,542 | 26,296 | 32,000 |
17 | 8,672 | 10,085 | 12,002 | 13,531 | 14,937 | 16,338 | 17,824 | 19,511 | 21,615 | 24,769 | 27,587 | 33,409 |
18 | 9,390 | 10,865 | 12,857 | 14,440 | 15,893 | 17,338 | 18,868 | 20,601 | 22,760 | 25,989 | 28,869 | 34,805 |
19 | 10,117 | 11,651 | 13,716 | 15,352 | 16,850 | 18,338 | 19,910 | 21,689 | 23,900 | 27,204 | 30,144 | 36,191 |
20 | 10,851 | 12,443 | 14,578 | 16,266 | 17,809 | 19,337 | 20,951 | 22,775 | 25,038 | 28,412 | 31,410 | 37,566 |
21 | 11,591 | 13,240 | 15,445 | 17,182 | 18,768 | 20,337 | 21,991 | 23,858 | 26,171 | 29,615 | 32,671 | 38,932 |
22 | 12,338 | 14,041 | 16,314 | 18,101 | 19,729 | 21,337 | 23,031 | 24,939 | 27,301 | 30,813 | 33,924 | 40,289 |
23 | 13,091 | 14,848 | 17,187 | 19,021 | 20,690 | 22,337 | 24,069 | 26,018 | 28,429 | 32,007 | 35,172 | 41,638 |
24 | 13,848 | 15,659 | 18,062 | 19,943 | 21,652 | 23,337 | 25,106 | 27,096 | 29,553 | 33,196 | 36,415 | 42,980 |
25 | 14,611 | 16,473 | 18,940 | 20,867 | 22,616 | 24,337 | 26,143 | 28,172 | 30,675 | 34,382 | 37,652 | 44,314 |
26 | 15,379 | 17,292 | 19,820 | 21,792 | 23,579 | 25,336 | 27,179 | 29,246 | 31,795 | 35,563 | 38,885 | 45,642 |
27 | 16,151 | 18,114 | 20,703 | 22,719 | 24,544 | 26,336 | 28,214 | 30,319 | 32,912 | 36,741 | 40,113 | 46,963 |
28 | 16,928 | 18,939 | 21,588 | 23,647 | 25,509 | 27,336 | 29,249 | 31,391 | 34,027 | 37,916 | 41,337 | 48,278 |
29 | 17,708 | 19,768 | 22,475 | 24,577 | 26,475 | 28,336 | 30,283 | 32,461 | 35,139 | 39,087 | 42,557 | 49,588 |
30 | 18,493 | 20,599 | 23,364 | 25,508 | 27,442 | 29,336 | 31,316 | 33,530 | 36,250 | 40,256 | 43,773 | 50,892 |
Dessa forma, considerando a regra de decisão entre o valor crítico e o valor calculado, temos que . Ou seja, a um nível de significância , há elementos suficientes para dizermos que as proporções dos cargos entre os sexos não são iguais e que, portanto, não estão de acordo com os valores esperados.
No teste para homogeneidade, trabalhamos sob as seguintes hipóteses:
Suponha, para tanto, que estamos coletando informações sobre a satisfação dos colaboradores de uma empresa com base na diferenciação de dois grupos: um com plano de carreira e outro sem. Ao todo foram coletados dados de 100 indivíduos (40 com plano e 60 sem plano), conforme apresentado na Tabela 4.12, a seguir:
Satisfação | C/plano | S/plano | Total |
---|---|---|---|
Satisfeito | 22 | 25 | 47 |
Indiferente | 8 | 20 | 28 |
Insatisfeito | 10 | 15 | 25 |
Total |
40 | 60 | 100 |
A partir da coluna referente ao total, temos uma proporção esperada, que será utilizada como referência para o comparativo das proporções entre os indivíduos com plano e sem plano. A ideia, portanto, é avaliar se existe homogeneidade entre os grupos, considerando as três classificações de satisfação. Para isso, devemos encontrar o valor de , que é obtido por meio da seguinte expressão:
Em que m é o número de variáveis (com plano ou sem plano) e k é o número de categorias (Satisfeito, Indiferente e Insatisfeito). Os valores esperados são obtidos por meio do produto entre o valor total de cada variável e a proporção das categorias na coluna totalizadora. Por exemplo, para a satisfação, é esperado que 45% dos indivíduos estejam satisfeitos. Dessa forma, para encontrar o número de indivíduos esperados na categoria “Satisfeito” para a variável “C/plano”, devemos multiplicar 40 (valor total) por 45% (proporção esperada), obtendo um total de 18 pessoas. O procedimento é repetido até obtermos todos os valores esperados, conforme apresentado na Tabela 4.13, a seguir:
Satisfação | C/plano | S/plano | Total | Esperado c/plano | Esperado s/plano |
---|---|---|---|---|---|
Satisfeito | 20 | 25 | 45 | 18 | 27 |
Indiferente | 10 | 20 | 30 | 12 | 18 |
Insatisfeito | 10 | 15 | 25 | 10 | 15 |
Total |
40 | 60 | 100 | 40 | 60 |
Em seguida, calcularemos o valor de , dado por:
O número de graus de liberdade é expresso por . Consultando a tabela de distribuição Qui-quadrado, temos que . Dessa forma, como , não há evidências para se rejeitar a hipótese nula, ou seja, podemos dizer que as proporções da satisfação entre os beneficiários com plano de carreira e sem plano de carreira são homogêneas.
Por fim, o teste de independência é utilizado quando se deseja observar alguma associação entre variáveis qualitativas. Para tanto, avaliamos as seguintes hipóteses:
Podemos, inclusive, utilizar o mesmo exemplo da Tabela 4.12. Para isso, o cálculo do valor esperado será diferente do realizado no teste para homogeneidade. Precisaremos encontrar as probabilidades verticais e horizontais e multiplicá-las pelo valor total de observações, conforme mostra a Tabela 4.14, a seguir:
Nível de Satisfação | C/plano | S/plano | Total | |
---|---|---|---|---|
Satisfeito | Observado | 20 | 25 | 45 |
Esperado | (0,45*0,40*100) = 18 | (0,45*0,60*100) = 27 | ||
Indiferente | Observado | 10 | 20 | 30 |
Esperado | (0,30*0,40*100) = 12 | (0,30*0,60*100) = 18 | ||
Insatisfeito | Observado | 10 | 15 | 25 |
Esperado | (0,25*0,40*100) = 10 | (0,25*0,60*100) = 15 | ||
Total | 40 | 60 | 100 |
A partir daqui o procedimento é o mesmo. Ou seja, para encontrar o valor calculado de , deve-se utilizar o seguinte estimador:
Perceba que ainda que o teste seja diferente, o estimador é o mesmo, trazendo um valor de equivalente ao anterior. Dessa forma, considerando que , não existem elementos suficientes para rejeitarmos e, portanto, dizer que o nível de satisfação do beneficiário depende do plano de carreira.
Finalizamos, portanto, o conteúdo teórico da seção. No exercício em R, trabalharemos alguns dos tópicos abordados, com destaque para os intervalos de confiança e o Teste Qui-quadrado para independência.
Prezado(a) estudante, agora trabalharemos três exercícios práticos, no intuito de fixarmos o conteúdo apresentado durante o corpo do texto. Para tanto, iniciaremos com o cálculo do intervalo de confiança para uma proporção, seguido do intervalo de confiança para uma média e finalizaremos com um teste qui-quadrado para independência. Para fins de cálculo, considere o nível de significância em todos os exemplos
Intervalo de Confiança para uma proporção
Uma amostra de 100 viagens de transporte por aplicativo, 72 apresentam avaliações com cinco estrelas. Com base nestas informações, iremos encontrar o intervalo de confiança para a porporção .
# Primeiro passo: encontrar o valor crítico de Z. Como trabalharemos com alpha = 5%, definiremos o valor de antemão.
alpha = 0.05
n = 100
# o valor crítico de Z é obtido por meio da função qnorm, ao passo que se trata de uma distribuição normal. Como estamos trabalhando com o intervalo de confiança, utilizamos o valor de alpha/2.
z_critico = qnorm(1-alpha/2, mean = 0, sd = 1)
print(z_critico)
## [1] 1.959964
# Agora iremos obter o valor de p estimado (chapéu)
p_est = 72/100
LI = (p_est - z_critico*sqrt((p_est*(1-p_est))/n))
LS = (p_est + z_critico*sqrt((p_est*(1-p_est))/n))
print(c(LI, LS))
## [1] 0.6319978 0.8080022
Intervalo de Confiança para uma média
Uma empresa está avaliando o tempo médio gasto pelos funcionários para chegarem ao trabalho diariamente. Em uma amostra com 50 colaboradore, foram obtidos os seguintes dados (28, 31, 36, 31, 34, 23, 24, 33, 30, 37, 32, 28, 26, 30, 37, 29, 27, 33, 28, 37, 31, 33, 23, 41, 34, 26, 28, 32, 28, 32, 33, 29, 26, 22, 26, 32, 28, 35, 29, 27, 20, 28, 31, 33, 29, 31, 32, 30, 32, 32). Considerando que a variância é desconhecida, calcule o intervalo de confiança para a média do tempo de deslocamento gasto até o trabalho. Lembrete: para média de uma amostra, com variância populacional desconhecida, utilizamos a Tabela T para realizar os testes.
# Primeiro passo: gerar o conjunto de dados a partir da amostra informada.
tempo = c(28, 31, 36, 31, 34, 23, 24, 33, 30, 37, 32, 28, 26, 30, 37, 29, 27, 33, 28, 37, 31, 33, 23, 41, 34, 26, 28, 32, 28, 32, 33, 29, 26, 22, 26, 32, 28, 35, 29, 27, 20, 28, 31, 33, 29, 31, 32, 30, 32, 32)
n = length(tempo)
alpha = 0.05
# o valor crítico de T é obtido por meio da função qt. Como estamos trabalhando com o intervalo de confiança, utilizamos o valor de alpha/2.
t_critico = qt(1-alpha/2, df = n-1)
print(t_critico)
## [1] 2.009575
# Aplicando a fórmula, já conseguimos obter o intervalo de confiança:
LI = (mean(tempo) - t_critico*sd(tempo)/sqrt(n))
LS = (mean(tempo) + t_critico*sd(tempo)/sqrt(n))
print(c(LI, LS))
## [1] 28.95632 31.32368
# Também podemos confirmar os resultados obtidos por meio do seguinte comando:
t.test(tempo, conf.level = 1-alpha)
##
## One Sample t-test
##
## data: tempo
## t = 51.17, df = 49, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 28.95632 31.32368
## sample estimates:
## mean of x
## 30.14
Teste Qui-quadrado para independência
Suponha que uma agência de viagens esteja avaliando a satisfação de seus clientes, considerando, para tanto, três destinos diferentes: Marrocos, Porto Rico e Itália. De modo geral, a ideia é avaliar se existe alguma associação entre o destino escolhido e o nível de satisfação dos clietes, estratificado em “Satisfeito” e “Insatisfeito”. Foram coletados os seguintes dados:
Lorem ipsum | Lorem ipsum | Column 3 | Column 4 |
---|---|---|---|
Marrocos |
Porto Rico |
Itália |
|
Satisfeito | 130 | 87 | 155 |
Insatisfeito | 20 | 13 | 15 |
A partir dos dados obtidos, iremos avaliar se existe independência entre a satisfação e o local de destino, considerando um teste Qui-quadrado.
# Criando a tabela de dados (tabela de contingência)
pesquisa = matrix(c(130,87,155,
20,13,15), byrow = T,ncol=3)
# Adicionando nomes das colunas e das linhas
colnames(pesquisa) = c("marrocos", "porto_rico","italia")
rownames(pesquisa) = c("satisfeito", "insatisfeito")
print(pesquisa)
Lorem ipsum | Lorem ipsum | Column 3 | Column 4 |
---|---|---|---|
## |
marrocos |
porto_rico |
italia |
## satisfeito |
130 |
87 |
155 |
## insatisfeito |
20 |
13 |
15 |
# Rodando o teste qui-quadrado (hipótese nula de que satisfação e países são independentes)
chisq.test(pesquisa, correct = F)
##
## Pearson's Chi-squared test
##
## data: pesquisa
## X-squared = 1.9213, df = 2, p-value = 0.3826
Com base no p-valor do teste, não há elementos suficientes para rejeitarmos , ou seja, para dizermos que o destino da viagem e a satisfação do cliente estão associadas.
Faça valer a pena
Questão 1
O setor de RH de uma empresa está avaliando a satisfação dos funcionários com base na área de trabalho. Após um levantamento realizado, foi obtida a seguinte relação:
Lorem ipsum | Lorem ipsum | Column 3 |
---|---|---|
Finanças |
Vendas |
|
Satisfeito | 25 | 32 |
Insatisfeito | 14 | 21 |
Considerando o contexto apresentado, caso a empresa deseje avaliar se há alguma associação entre a satisfação dos funcionários e o setor de atuação, deve-se realizar o:
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
A questão passa pela aplicação do conhecimento relacionado aos testes estatísticos. Com base na tabela de contingência apresentada, estamos diante de uma análise com variáveis nominais/categóricas e, ao tentar compreender se há alguma relação entre as variáveis, devemos proceder a um Teste Qui-quadrado para independência.
Questão 2
Após a realização de uma pesquisa de comparação da média de três populações, foram obtidos os seguintes resultados:
Comparativo | I.C. da diferença das médias | P-valor |
---|---|---|
A-B | [-0,35;-0,18] | 0,032 |
A-C | [-0,12; 3,16] | 0,054 |
B-C | [1,65; 3,62] | 0,011 |
Com base nos dados apresentados e considerando , assinale a alternativa correta.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
A resolução da questão passa pela interpretação do intervalo de confiança e do p-valor. Considerando , as diferenças estatisticamente significativas são aquelas com p-valor < 0,05. No exemplo, somente os comparativos A-B e B-C apresentam esse comportamento.
Questão 3
Uma empresa está avaliando a taxa de ocorrência de peças defeituosas. Para isso, coletou uma amostra de 100 peças, das quais 31 apresentaram defeito.
Considerando o contexto apresentado, o intervalo de confiança da proporção de peças defeituosas, a um nível de significância , é dado por:
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
A resolução da questão passa pela aplicação do cálculo do intervalo de confiança para proporção, obtido por meio do seguinte estimador:
.
Considerando , temos o seguinte cálculo:
.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Saraiva, 2010.
GUEDES, D. P.; LOPES, C. C. Validação da versão brasileira do Youth Risk Behavior Survey 2007. Revista de Saúde Pública, v. 44, n. 5, p. 840-850, 2010. Disponível em: https://bit.ly/3sWpBgy. Acesso em: 22 jul. 2021.