Comentários

0%

Não pode faltar

Experimentos estatísticos

Gabriel Ferreira dos Santos Silva

Fonte: Shutterstock.

Convite ao estudo

Prezado estudante, nesta unidade encerraremos o conteúdo deste livro abordando uma série de atividades práticas na análise de dados. Para isso, trabalharemos diversos conteúdos relevantes e entenderemos um pouco melhor como os tópicos abordados nas seções anteriores foram fundamentais para podermos explorar estes novos assuntos. 
Na primeira seção, compreenderemos mais detalhes sobre a finalidade dos testes estatísticos na análise de dados. Destacaremos alguns dos principais, especialmente o Teste A/B, demonstrando sua importância e aplicação em contextos práticos. Perceberemos, também, que para trabalhar com esse teste será preciso dominar alguns outros, como o Teste t e o Teste Z, que nos darão base para a tomada de decisão. Trataremos, ainda, de um exemplo no R, que nos permitirá exercitar uma situação real de aplicação. 
Na segunda seção, Significância estatística, destacaremos a importância da significância para a análise de dados, aprenderemos a calculá-la e, tão importante quanto as etapas anteriores, discutiremos a respeito de sua interpretação, principalmente quando relacionada ao p-valor. 
Por fim, na última seção, Testes estatísticos, abordaremos com maior profundidade os testes Z e t, compreenderemos quais são os erros intrínsecos aos testes de hipóteses, discutiremos sobre o Teste Qui-quadrado e exercitaremos uma série de atividades práticas de grande importância. Será, portanto, a seção de encerramento deste livro, finalizando nosso primeiro ciclo de aprendizado. 
As discussões apresentadas nesta unidade são de grande relevância para a análise de dados. Explore todos os recursos disponíveis na unidade, a fim de potencializar o aprendizado e aumentar a fixação do conteúdo. 
Bons estudos!

Praticar para aprender

Prezado estudante, nesta seção daremos início a uma série de tópicos importantes, os quais serão trabalhados em toda a Unidade 4. Introduziremos o conteúdo abordando alguns conceitos fundamentais, como a definição dos testes estatísticos e suas finalidades, destacando as principais funções e distinções entre os diferentes tipos existentes. 
Ao longo do texto, nos boxes Assimile e Reflita, foi inserida uma série de discussões importantes, cuja leitura é indispensável, como a distinção entre os conceitos de causalidade e associação, o entendimento das variáveis dependentes e independentes, as diferenças entre a igualdade matemática e estatística, entre outras reflexões.
Em relação aos testes estatísticos, daremos maior enfoque ao Teste A/B, uma ferramenta de grande utilização desde a década de 2010 na área de e-commerce. O Teste A/B nos permite avaliar, por exemplo, qual o impacto de se utilizar determinado layout em uma página de vendas, baseando-se em variáveis de interesse, como faturamento, engajamento na página, número de visitas, entre outras. 
Ao mesmo tempo em que trabalhamos com o Teste A/B, perceberemos a necessidade de se utilizar alguns outros testes estatísticos de forma complementar, como o Teste t de Student e o Teste Z para comparação de proporções.
Para explorarmos esse assunto, além de um conteúdo teórico, também utilizaremos o R na intenção de visualizar o contexto prático dessas ferramentas. 
Não deixe de explorar todos os recursos desta seção!
Probabilidade e Estatística são áreas que nos permitem explorar dados com o intuito de obter informações a respeito de determinado assunto. A partir das diversas ferramentas disponíveis em ambas as áreas, podemos trabalhar com maior profundidade em análises de experimentos, levantar perguntas (hipóteses) e buscar as respostas por meio dos dados. Experimento, em nosso contexto, não se prende a um conceito estritamente acadêmico. Trata-se de qualquer situação real que nos ofereça dados consistentes passíveis de serem transformados em informação e conhecimento. Nesse sentido, para a prática diária de análise de dados, conhecer e saber aplicar corretamente as principais ferramentas estatísticas e probabilísticas é um requisito fundamental.
Dessa forma, saber como definir uma hipótese experimental, quais são os tipos de testes estatísticos, como encontrar e interpretar a significância de um parâmetro, como realizar um teste de hipótese e como encontrar um intervalo de confiança são domínios necessários para quem deseja trabalhar com análise de dados.
Você é analista de uma agência de publicidade e está prestando um serviço para uma empresa iniciante no mercado de e-commerce, a qual está construindo um portal de vendas on-line, definindo prototipagens para criar um portal atrativo e que alavanque o faturamento. A empresa já possui um site, porém acredita-se que exista uma série de oportunidades de melhorias visuais e usuais que incrementem o potencial de vendas. Diante disso, você ficou responsável por elaborar um Teste A/B, no intuito de verificar se algumas melhorias geram impacto positivo nas receitas. Para isso, conduziu-se um experimento de dez dias, no qual foram avaliadas duas páginas distintas, apresentadas aleatoriamente para os clientes da empresa. A Tabela 4.1, a seguir, apresenta o comportamento das vendas:

Tabela 4.1 | Dados do total de vendas on-line diárias nas páginas A e B
Vendas
Dia Página A Página B
1 R$ 758,60 R$ 943,10
2 R$ 849,20 R$ 1.215,00
3 R$ 1.046,30 R$ 1.321,40
4 R$ 677,40 R$ 995,70
5 R$ 834,90 R$ 1.141,50
6 R$ 678,80 R$ 1.337,10
7 R$ 685,20 R$ 933,40
8 R$ 793,00 R$ 1.080,30
9 R$ 763,90 R$ 1.029,80
10 R$ 978,50 R$ 1.186,30
Fonte: elaborada pelo autor.

Com base nos dados apresentados, existe diferença entre a média das páginas A e B? Considere que se trata de dados provenientes de populações com variâncias desconhecidas, porém estatisticamente iguais. Utilize α=5%.
Tenha uma excelente aprendizagem!

Reflita

“ 10=10 ”. Sob o olhar da Matemática, essa expressão é logicamente verdadeira. Mas, para a Estatística, 10 é sempre igual a 10? A resposta é não. Quando estamos diante da Estatística, outros aspectos são incorporados em uma igualdade, como aleatoriedade, reprodutibilidade, variabilidade, significância, entre outros. Por causa disso, existem dois conceitos distintos: a igualdade matemática, em que 10 é sempre igual a 10, e a igualdade estatística, em que 10 nem sempre é igual a 10. Também é possível acontecer de forma contrária: uma situação que para a Matemática pode apresentar dois números diferentes talvez não seja considerada verdadeira para a Estatística. Essa distinção é bastante comum quando trabalhamos com Testes de Hipóteses. Imagine uma hipótese de igualdade entre duas populações distintas. A partir de amostras dessas populações, conseguimos obter valores como as médias amostrais de determinada variável, como, por exemplo, renda. Se obtivermos que a renda média da amostra A é de R$ 2.800 e a renda média da amostra B também é de R$ 2.800, perceberemos que os valores são matematicamente iguais. Mas será que isso implica igualdade sob o ponto de vista da Estatística?

Na literatura, há uma série de testes estatísticos que variam quanto a finalidade, tipo de distribuição, além do tipo e quantidade de variáveis. Existem testes utilizados para a avaliação da normalidade de uma distribuição, como o Teste de Shapiro-Wilk e o Teste de Kolmogorov-Smirnov. Há, também, testes que avaliam a hipótese de igualdade entre a média de uma amostra e um valor específico, como o Teste t, a igualdade entre duas amostras (Teste t para amostras independentes) ou a igualdade de amostras relacionadas (Teste t para amostras pareadas, também utilizado para uma mesma amostra antes e depois de determinado tratamento). Os testes ts (paramétricos), no entanto, passam pela pressuposição de que os dados são provenientes de distribuições normais. Na ausência dessa condição, utilizamos os testes que trabalham com a mediana (não paramétricos), como o Teste de Wilcoxon para uma amostra (equivalente ao Teste t para uma amostra), o Teste de Wilcoxon para amostras pareadas (similar ao Teste t para amostras pareadas)   e o Teste U de Mann-Whitney, semelhante ao Teste T para amostras pareadas.

Exemplificando

Suponha que você trabalhe no setor de remuneração de uma empresa e deseje avaliar se a média dos salários dos funcionários é igual a R$ 3.500,00. Considerando que a distribuição apresente normalidade, fato que pode ser confirmado por meio dos testes de Shapiro-Wilk ou Kolmogorov-Smirnov, você realizará um Teste t para uma amostra, identificando se há evidências para a rejeição ou não rejeição da hipótese de que que o salário médio dos funcionários é de R$ 3.500,00. Imagine, agora, que você avaliará, na mesma empresa, se o salário dos analistas júnior do setor financeiro é estatisticamente igual ao salário dos analistas júnior do setor jurídico. Considerando amostras independentes e uma distribuição normal, você realizará um Teste t para duas amostras independentes. Por fim, você deseja verificar se o nível de satisfação dos colaboradores aumenta quando são promovidos. Para isso, são coletados dados antes e após a efetivação. Tem-se, portanto, um cenário de uma mesma amostra, porém antes e depois de um tratamento específico. Dessa forma, para avaliar se a média de satisfação dos beneficiários é a mesma antes e depois da efetivação, recomenda-se a utilização de um teste T para amostras pareadas.
Esses três testes foram desenhados considerando-se a presença de normalidade dos dados. Caso essa pressuposição não seja atendida, devem-se utilizar os respectivos testes não paramétricos.

Os testes apresentados possuem uma característica em comum: são utilizados para, no máximo, duas variáveis. Dessa forma, em nosso exemplo, caso desejássemos saber se há igualdade estatística entre três ou mais médias salariais de analistas júnior, seria necessário realizar uma Análise de Variância (ANAVA ou ANOVA), que avaliaria a hipótese de que todas as médias são estatisticamente iguais ou de que pelo menos uma delas difere das demais. De modo similar ao teste T, a ANOVA pressupõe que os dados sejam provenientes de uma distribuição normal. Caso essa condição não seja atendida, procedemos com o teste não paramétrico de Kruskal-Wallis. Dessa forma, o Teste de Kruskal-Wallis é utilizado de modo similar ao Teste U de Mann-Whitney, porém em situações com três ou mais medianas avaliadas. De maneira análoga, o substituto para o Teste de Wilcoxon é o Teste de Friedman. 
Utilizamos esses tipos de testes para avaliar a hipótese de igualdade entre uma ou mais amostras. No entanto, ao trabalharmos com análises estatísticas, é comum buscarmos compreender a relação entre duas ou mais amostras ou duas ou mais variáveis. Nesses casos, a primeira exigência é de que todas as variáveis sejam quantitativas. Diante disso, temos três ferramentas que nos permitem realizar algumas inferências: correlação de Pearson, correlação de Spearman e análise de regressão.

Assimile

Causalidade e associação entre variáveis são dois conceitos distintos. Causalidade implica que um evento seja resultado da ação/ocorrência de outro, similar à ideia de causa e efeito. Por outro lado, a associação é uma medida do quanto duas variáveis caminham na mesma direção, quando positivamente associadas, ou em direções opostas, quando negativamente associadas. Essa medida de associação pode estar ligada a algum efeito causal ou não.

A correlação de Pearson é utilizada quando estamos diante de variáveis provenientes de distribuições normais e desejamos avaliar a associação entre elas. Em caso de não normalidade, utilizamos a correlação de Spearman, que é, portanto, um método não paramétrico. Quando buscamos interpretar uma relação de causalidade entre duas ou mais variáveis, geralmente usamos a regressão, que pode ser linear ou não linear. A não linearidade, no entanto, não caracteriza um método não paramétrico. A Figura 4.1, a seguir, apresenta dois exemplos de regressão: à esquerda, temos uma reta, representando uma regressão linear simples; à direita, a relação entre as variáveis apresenta um comportamento semelhante a uma parábola. Temos, dessa forma, uma regressão não linear simples.

Figura 4.1 | Exemplos de regressão linear (esquerda) e regressão não linear (direita)
Fonte: elaborada pelo autor.
Assimile

Quando trabalhamos com análises de regressão, buscamos estabelecer a relação de dependência entre duas variáveis. A ideia é bastante semelhante ao conceito de função matemática, em que dizemos que uma variável y é função de uma variável x, ou seja, y=f(x). Por essa razão, na análise de regressão temos dois tipos de variáveis: dependentes e independentes. As variáveis independentes são externas ao modelo, ou seja, possuem valor predefinido, e são representadas pela letra X. As variáveis dependentes, representadas por y, dependem dos valores assumidos pelas variáveis independentes (X). Dessa forma, por meio da análise de regressão, buscamos compreender o quanto uma ou mais variáveis independentes impactam uma variável dependente.

Ao realizarmos análises de regressão simples, pressupomos que existam somente duas variáveis em nosso conjunto de dados, sendo uma dependente e outra independente. Quando trabalhamos com duas ou mais variáveis independentes, utilizamos as análises de regressão múltiplas. Existem diversos tipos de regressão, mas, por ora, nos estenderemos até aqui. 
Além dos testes tradicionais, existem algumas derivações práticas que utilizam as ferramentas estatísticas intrinsicamente. Uma dessas derivações é o Teste A/B, amplamente divulgado na área de marketing digital. Para entenderemos melhor o Teste A/B, suponha que você trabalhe em uma empresa do setor de vestuário e deseje otimizar o canal de vendas on-line. Para tanto, sua empresa cria duas versões de uma mesma página digital, considerando as variações apresentadas na Figura 4.2:

Figura 4.2 | Exemplo de possíveis atributos de duas páginas hipotéticas consideradas para um Teste A/B
Fonte: elaborada pelo autor.

Há, portanto, diferentes componentes entre as páginas, mas que apresentam, de forma geral, a mesma informação. A partir disso, as duas versões da página são apresentadas aleatoriamente para os clientes, no intuito de se avaliar alguma métrica específica, que pode ser, por exemplo, o número de vendas, número de compartilhamentos, engajamento do público, entre outros dados. Desse modo, é possível comparar as duas versões para verificar qual apresentou o melhor desempenho, considerando a métrica avaliada. Nesse sentido, segundo Siroker e Koomen (2013, p.8), o intuito do Teste A/B é “mostrar diferentes variações de um site para diferentes pessoas e mensurar qual dessas variações é mais efetiva em transformar esse público em clientes”.  
Ainda considerando o exemplo anterior, suponha que a métrica de avaliação seja o faturamento diário médio avaliado nos últimos 60 dias nas versões 1 e 2. Após uma análise inicial, você identificou que a versão 1 (A) apresentou faturamento diário médio de R$ 1.342,25, enquanto na versão 2 (B) o valor foi de R$ 1.435,63. Matematicamente, a versão 2 apresentou maior faturamento médio diário, superando a versão 1 em R$ 93,98. No entanto, para que esse resultado seja válido, é necessário avaliarmos a hipótese de que as médias são estatisticamente iguais, por meio dos Testes de Hipóteses. 
Trabalharemos os Testes de Hipóteses com maior profundidade na seção 3 desta unidade, porém, neste momento, exploraremos algumas situações práticas que nos permitam desenvolver o Teste A/B. 
Nesse sentido, considere duas situações de métricas a serem avaliadas em um teste A/B: uma proporção e um valor médio. Primeiramente, realizaremos um teste para comparação de duas proporções, utilizando, para tanto, a tabela da distribuição Z (BUSSAB; MORETTIN, 2010).
O primeiro passo é definir as hipóteses a serem testadas. Consideraremos, para nosso exemplo, que estamos avaliando as proporções dos usuários que realizaram uma compra promocional em uma página A e em outra página B. Dessa forma, trabalharemos com pA para a proporção na página A e  pB para a proporção da página B. Inicialmente, estabeleceremos a hipótese nula ( H0 ), ou seja, em que pApB=0. A hipótese também é conhecida como hipótese da igualdade, ao passo que pApB=0pA=pB. Em seguida, estabeleceremos a hipótese alternativa ( H1 ). Consideraremos, neste momento, que pApB, o que configurará um teste bilateral (ou bicaudal), pois pB pode ser maior OU  menor do que pA. Nesse sentido, as hipóteses são dadas por

 {H0:pA=pBH1:pApB

No entanto, consideramos que pApB são parâmetros populacionais. Como geralmente não os possuímos, trabalhamos com os parâmetros amostrais p^Ap^B. Diante disso, a estimativa do valor de Zcalc é obtida por meio do seguinte estimador:

 Zcalc=p^Ap^Bp^(1p^)nA+p^(1p^)nB~N(0,1)

Por sua vez, o parâmetro p^ é obtido a partir de uma média ponderada das proporções amostrais, de modo que:

 p^=nAp^A+nBp^BnA+nB

O próximo passo é definir o nível de significância (α) do teste. Abordaremos esse conceito com mais detalhes nas próximas seções, porém, por ora, basta sabermos que se trata da probabilidade de se rejeitar H0 quando H0 é verdadeira. É comum utilizarmos um nível de significância de 0,05 (5%).
Em seguida, encontraremos o valor crítico de Z, fundamental para a tomada de decisão. O valor crítico indicará a região crítica do teste, conforme representado pela região em vermelho da Figura 4.3.

Figura 4.3 | Regiões críticas de uma distribuição Z para um teste bilateral
Fonte: elaborada pelo autor.

A soma da região crítica equivale ao nível de significância do teste. Assim, quando diante de um teste bilateral, trabalhamos com Zα/2. No entanto, quando unilateral, utilizamos Zα. O valor crítico de Z será obtido por meio da tabela da distribuição Z, expressa na Tabela 4.2, a seguir:

Tabela 4.2 | Tabela da distribuição normal padrão (Z~N(0,1) – valores de P(Zz)
z Segunda decimal de Z
Parte inteira e primeira decimal de Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4999
Fonte: elaborada pelo autor.

A tabela Z apresenta os valores de uma “metade” da distribuição. Por essa razão, o valor máximo de probabilidade é 0,5 (50%). Quando diante de um teste bilateral, encontramos o valor de Zα/2. Se α=0,05, então buscaremos o valor de Z0,025. Para isso, basta subtrair 0,025 de 0,50, o que equivale a 0,50,025=0,475. Nesse sentido, Zα/2=0,475. Consultando a tabela, a parte inteira e a primeira decimal para Zα/2=0,475 equivale a 1,9, enquanto a segunda decimal é dada por 0,06. Dessa forma, temos que o valor crítico de Z, em um teste bilateral com α=0,05, é de 1,96.
Por fim, para decidirmos a respeito da rejeição ou aceitação da hipótese nula, devemos comparar os valores de Zcalc e Z crítico. Se o valor de Zcalc estiver dentro das regiões em vermelho da Figura 4.3, dizemos que, com um nível de significância α, há evidências para se rejeitar a hipótese nula e, portanto, presumir que existe diferença entre as duas proporções. Caso contrário, se Zcalc estiver fora da região em vermelho, dizemos que, com um nível de significância α, não há evidências para se rejeitar a hipótese nula. Diante disso, podemos presumir que não existe diferença entre as duas proporções.
Quando estamos trabalhando com valores médios, embora o cálculo se altere, a ideia é bastante semelhante. Suponha, por exemplo, que estejamos diante de um teste que analise a hipótese de que as médias de vendas realizadas a partir de uma página A e a média de vendas feitas por meio de uma página B são iguais ( H0 ) contra a hipótese de que sejam diferentes ( H1 ). Dessa forma, temos que:

{H0:μA=μBH1:μAμB

Para esse exemplo, utilizaremos o Teste t de Student para amostras independentes, pressupondo que os dados são provenientes de duas populações com distribuição normal. Além disso, consideraremos que as variâncias populacionais, embora desconhecidas, são estatisticamente iguais.

Assimile

Nesta seção, realizamos algumas abstrações a respeito dos parâmetros populacionais, como quando consideramos que as variâncias das populações, embora desconhecidas, são iguais. No entanto, quando trabalhamos com Teste t para amostras independentes, com variâncias desconhecidas e diferentes, a forma de cálculo se altera, conforme verificaremos nas próximas seções. Mas se desconhecemos as variâncias populacionais, como saberemos se são iguais ou diferentes? Antes de escolhermos qual Teste t utilizar (para variâncias iguais ou distintas), é comum realizarmos um Teste F para a comparação de duas variâncias, em que avaliamos, por meio das variâncias amostrais, as seguintes hipóteses:

{H0:σA2=σB2H1:σA2σB2

Dessa forma, conseguimos avaliar se as variâncias são iguais ou distintas e seguir com o Teste t mais apropriado. Por ora, no entanto, consideraremos que as variâncias são iguais entre si.

O estimador do valor de T para amostras pareadas independentes com variâncias iguais é dado por:

T=(X¯AX¯B)(μAμB)sp1nA+1nB

O termo sp representa o desvio padrão agrupado (amostra A e amostra B) e é expresso por:

sp=(nA1)sA2+(nB1)sB2nA+nB2

Nesse caso, X¯AX¯B são os valores das médias amostrais, sAsB são os desvios padrão amostrais e nAnB são os respectivos tamanhos amostrais. 
Definidos os estimadores, fixaremos, assim como no teste para proporções, o nível de significância α=5%. O valor crítico de T, no entanto, está sujeito a dois fatores distintos: o nível de significância e o número de graus de liberdade. No Teste t para amostras independentes, o número de graus de liberdade é dado por nA+nB2, expressão já vista no estimador de sp. Assim como a distribuição Z, a distribuição T possui valores tabelados, que facilitam os cálculos dos testes estatísticos. A Tabela 4.3, a seguir, apresenta os valores considerando um nível de significância α para um teste bilateral:

Tabela 4.3 | Tabela da distribuição T considerando um nível de significância α para um teste bilateral ou bicaudal
Lorem ipsum Lorem ipsum
G.L. Nível de significância α considerando um teste bicaudal
95% 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 1%
1 0,079 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 63,657
2 0,071 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 9,925
3 0,068 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 5,841
4 0,067 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 4,604
5 0,066 0,267 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 4,032
6 0,065 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 3,707
7 0,065 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 3,499
8 0,065 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 3,355
9 0,064 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 3,250
10 0,064 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 3,169
11 0,064 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 3,106
12 0,064 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 3,055
13 0,064 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 3,012
14 0,064 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,977
15 0,064 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,947
16 0,064 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,921
17 0,064 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,898
18 0,064 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,878
19 0,064 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,861
20 0,063 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,845
21 0,063 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,831
22 0,063 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,819
23 0,063 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,807
24 0,063 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,797
25 0,063 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,787
26 0,063 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,779
27 0,063 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,771
28 0,063 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,763
29 0,063 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,756
30 0,063 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,750
Fonte: elaborada pelo autor.

A regra de decisão para o Teste t é bastante semelhante ao teste para proporções. Com a ajuda da Figura 4.4, a seguir, podemos observar a região crítica do teste (rejeição da hipótese nula). Se o valor de T calculado cair nas regiões críticas, dizemos que, com um nível de significância α, há evidências para se rejeitar a hipótese nula e, portanto, presumir que existe diferença entre as duas médias. Caso contrário, se o valor de T calculado estiver dentro da região em azul, dizemos que com um nível de significância α, não há evidências para se rejeitar a hipótese nula e, portanto, presumir que existe diferença entre as duas médias.

Figura 4.4 | Região crítica de uma distribuição T para um teste bicaudal com nível de significância  α
Fonte: Wikimedia Commons.

Com base nesse conteúdo, iremos exercitar o que aprendemos até aqui com alguns exemplos práticos, no intuito de melhor compreender a aplicabilidade dessas ferramentas. O exemplo terá como base o Teste A/B, que se desdobrará em um Teste para proporções, o qual utiliza a Tabela Z, e um Teste t para amostras independentes, com variâncias desconhecidas, porém iguais. Suponha, portanto, que uma empresa esteja buscando aumentar as vendas on-line de determinado produto. Para tanto, foi proposta a realização de um Teste A/B, no intuito de avaliar as vendas entre duas páginas distintas: Página A e Página B. O teste foi realizado durante quinze dias e duas métricas foram levantas: % de visitas com compra efetivada e faturamento diário. Os dados estão apresentados na Tabela 4.4, a seguir:

Tabela 4.4 | Dados hipotéticos para um Teste A/B a ser realizado por uma empresa, considerando variáveis de % de visitas e faturamento diário
Página A Página B
Dia
% de visitas com compra efetivada
Total de visitas
Faturamento diário (R$)
% de visitas com compra efetivada
Total de visitas
Faturamento diário (R$)
1 30% 1.200 R$ 16.930 43% 1.400 R$ 28.303
2 35% 1.300 R$ 13.333 32% 1.100 R$ 22.888
3 36% 1.100 R$ 10.281 43% 1.300 R$ 25.935
4 36% 1.300 R$ 16.550 36% 1.100 R$ 23.650
5 34% 1.200 R$ 13.258 41% 1.200 R$ 26.185
6 34% 1.300 R$ 11.222 33% 1.300 R$ 28.135
7 32% 1.500 R$ 15.250 32% 1.000 R$ 19.250
8 32% 1.400 R$ 12.488 36% 1.100 R$ 21.058
9 33% 1.300 R$ 8.140 42% 1.400 R$ 26.857
10 34% 1.400 R$ 11.194 43% 1.300 R$ 23.750
11 35% 1.200 R$ 10.131 42% 1.200 R$ 21.384
12 29% 1.500 R$ 11.292 43% 1.500 R$ 25.604
13 33% 1.200 R$ 13.127 38% 1.600 R$ 22.350
14 34% 1.100 R$ 13.432 43% 1.100 R$ 23.450
15 33% 1.300 R$ 12.245 42% 1.300 R$ 25.086
Fonte: elaborada pelo autor.

Trabalharemos, portanto, com o auxílio do R para verificar se existe alguma diferença estatística entre as páginas, considerando as duas variáveis coletadas.

Gerando os conjuntos de dados

percent_A = c(0.3,0.35,0.36,0.36,0.34,0.34,0.32,0.32,0.33,0.34,0.35,0.29,0.33,0.34,0.33)

fat_A = c(16930133331028116550132581122215250124888140111941013111292131271343212245)

percent_B = c(0.43,0.32,0.43,0.36,0.41,0.33,0.32,0.36,0.42,0.43,0.42,0.43,0.38,0.43,0.42)

fat_B = c(283032288825935236502618528135192502105826857237502138425604223502345025086)

visitas_A = c(1200,1300,1100,1300,1200,1300,1500,1400,1300,1400,1200,1500,1200,1100,1300)

visitas_B = c(1400,1100,1300,1100,1200,1300,1000,1100,1400,1300,1200,1500,1600,1100,1300)

# Perceba que precisamos substituir as vírgulas pelos pontos, ao passo que o padrão do R é utilizar ponto para decimais.

Em seguida, realizaremos um breve resumo estatístico para conhecer um pouco melhor os nossos dados:

summary(data.frame(percent_A, percent_B, fat_A, fat_B))

## percent_A percent_B fat_A fat_B
## Min.  :0.2900 Min.  :0.3200 Min.  : 8140 Min.  :19250
## 1st Qu.:0.3250 1st Qu.:0.3600 1st Qu.:11208 1st Qu.:22619
## Median :0.3400 Median :0.4200 Median :12488 Median :23750
## Mean  :0.3333 Mean  :0.3927 Mean  :12592 Mean  :24259
## 3rd Qu.:0.3450 3rd Qu.:0.4300 3rd Qu.:13382 3rd Qu.:26060
## Max.  :0.3600 Max.  :0.4300 Max.  :16930 Max.  :28303

Teste para proporções

Para avaliar se existe alguma diferença entre os percentuais de vendas concretizadas em cada uma das páginas, utilizaremos um teste para proporções, considerando as seguintes hipóteses:

H0:pA=pBH0:pA-pBH0:pApBH0:pApB

Estamos, portanto, diante de um teste bilateral e trabalharemos com um nível de significância de 5%, ou seja, α=0,05. Realizaremos o teste de duas formas distintas: uma manual e outra utilizando a função prop.test.

Cálculo manual

total_compras_a = sum(percent_A*visitas_A)

total_visitas_a = sum(visitas_A)

total_compras_b = sum(percent_B*visitas_B)

total_visitas_b = sum(visitas_B)



prop_A = total_compras_a/total_visitas_a

prop_B = total_compras_b/total_visitas_b



prop_geral = (total_visitas_a*prop_A + total_visitas_b*prop_B)/(total_visitas_a+total_visitas_b)



alpha = 0.05



Z_calc = (prop_A-prop_B)/(sqrt((prop_geral*(1-prop_geral)/sum(visitas_A))+(prop_geral*(1-prop_geral)/sum(visitas_B))))

Z_calc #valor de Z calculado

## [1] -12.74807

if (abs(Z_calc) > abs(qnorm(p=alpha/2))) {

 cat("Com um nível de significância alpha =", alpha,", há evidências para se rejeitar a hipótese nula e, portanto, dizer que existe diferença entre as duas proporções.")

 } else {

 cat("Com um nível de significância alpha =", alpha,", não há evidências para se rejeitar a hipótese nula e, portanto, dizer que existe diferença entre as duas proporções.")

 }

## Com um nível de significância alpha = 0.05, há evidências para se rejeitar a hipótese nula e, portanto, dizer que existe diferença entre as duas proporções.

Cálculo com fórmula

teste_ab_prop = prop.test(c(total_compras_a,total_compras_b),c(total_visitas_a,total_visitas_b),

             alternative = "two.sided",correct = FALSE)

teste_ab_prop

## 
## 2-sample test for equality of proportions without continuity

## correction

## 
## data: c(total_compras_a, total_compras_b) out of c(total_visitas_a, total_visitas_b)

## X-squared = 162.51, df = 1, p-value < 2.2e-16

## alternative hypothesis: two.sided

## 95 percent confidence interval:

## -0.07238069 -0.05311921

## sample estimates:

##  prop 1  prop 2 
## 0.3324352 0.3951852

Interpretação

Ambos os resultados confirmam que, com um α=0,05, existem evidências para se rejeitar a hipótese nula. Dessa forma, há indícios de que as proporções diferem entre si. No cálculo manual, criamos uma condição para que o resultado do teste saísse automaticamente. No cálculo com fórmula, no entanto, todos os outputs do teste são apresentados, cabendo a nós a interpretação dos resultados. Não há um indicativo do valor de Z calculado e Z crítico, porém existem outros elementos que nos permitem chegar à conclusão. O principal deles é o p-valor (p-value, no teste). Discutiremos esse conceito nas próximas seções, porém, quando o p-valor é menor do que a significância, rejeitamos a hipótese nula do teste. Ao imprimirmos o p-valor, temos o seguinte resultado:

teste_ab_prop$p.value 

## [1] 3.195447e-37 

teste_ab_prop$p.value < alpha 

## [1] TRUE 

Como o p-valor é menor do que 5% (0,05), rejeitamos a hipótese de igualdade das proporções.

Teste para médias de faturamento

Já vimos que existe diferença estatística entre as proporções de clientes que efetivaram suas compras entre as duas páginas. Agora, verificaremos se existe diferença entre as médias de faturamento entre a Página A e a Página B. Considerando que as médias dos faturamentos são provenientes de populações com variâncias desconhecidas, porém iguais, utilizaremos o Teste T para amostras independentes, com esse tipo de variância. Da mesma forma, calcularemos manualmente e por meio de função disponibilizada no R. As hipóteses a serem testadas são:

H0:μA=μBH0:μA-μBH0:μAμBH1:μAμB

Cálculo manual

n_fat_a = length(fat_A)

n_fat_b = length(fat_B)

media_a = sum(fat_A)/length(fat_A)

media_b = sum(fat_B)/length(fat_B)



sp = sqrt(((n_fat_a-1)*var(fat_A)+(n_fat_b-1)*var(fat_B))/(n_fat_a+n_fat_b-2))



t_calc = (media_a-media_b)/(sp*sqrt((1/n_fat_a)+(1/n_fat_b)))

t_calc

## [1] -12.6746

if (abs(t_calc) > abs(qt(alpha/2,n_fat_a+n_fat_b-2))) {

 cat("Com um nível de significância alpha =", alpha,", há evidências para se rejeitar a hipótese nula e, portanto, dizer que existe diferença entre as duas proporções.")

 } else {

  cat("Com um nível de significância alpha =", alpha,", não há evidências para se rejeitar a hipótese nula e, portanto, dizer que existe diferença entre as duas proporções.")

  }

## Com um nível de significância alpha = 0.05, há evidências para se rejeitar a hipótese nula e, portanto, dizer que existe diferença entre as duas proporções.

Cálculo com fórmula

# observação: a fórmula t.test solicita que os dados estejam organizados em duas colunas, uma indicando a categoria (no nosso caso a Página A e a Página B) e outra indicando os valores (faturamentos). Criaremos, a partir da função data.frame, um conjunto com esse formato.

dados = data.frame(site = cbind(c(rep("A",15), rep("B",15))), faturamento = cbind(c(fat_A, fat_B)))

head(dados)

##  site faturamento

## 1  A    16930

## 2  A    13333

## 3  A    10281

## 4  A    16550

## 5  A    13258

## 6  A    11222

t.test(faturamento~site, alternative='two.sided', conf.level=(1-alpha), 
    var.equal=TRUE, data=dados)

## 
## Two Sample t-test

## 
## data: faturamento by site

## t = -12.675, df = 28, p-value = 4.055e-13

## alternative hypothesis: true difference in means is not equal to 0

## 95 percent confidence interval:

## -13553.105 -9781.828

## sample estimates:

## mean in group A mean in group B 
##    12591.53    24259.00

Nesse sentido, percebemos que tanto para o cálculo manual quanto para o cálculo com a fórmula obtivemos o mesmo valor de t, o que deve, de fato, acontecer. Como |tcalculado|>|tcrítico||tcalculado|>|tcrítico|, há evidências de que a hipótese nula pode ser rejeitada, ou seja, que existe diferença entre as médias de faturamento das duas páginas. Quando olhamos para o p-valor do teste calculado pela função t.test, percebemos que o resultado se confirma. O intervalo de confiança calculado pelo teste refere-se à possível diferença entre a média da Página A e a média da Página B. Dessa forma, podemos observar que a Página B possuiu um desempenho superior ao da Página A.
Considerando o objetivo do Teste A/B, garantimos elementos suficientes para confirmar a hipótese de que os atributos presentes na Página B incrementam o desempenho das duas métricas avaliadas.
Agora faça você mesmo os testes utilizando o compilador a seguir:

Para visualizar o objeto, acesse seu material digital.

 

Com o conteúdo abordado nesta seção, demos mais um importante passo, que nos permitirá abordar tópicos com maior profundidade nas duas últimas seções do livro. Parabéns por chegar aqui e por todo o conhecimento construído no caminho!

Faça valer a pena

Questão 1

Os testes estatísticos são utilizados em diversas situações, normalmente associadas à validação de alguma hipótese populacional. Na literatura, existe uma série de testes paramétricos e não paramétricos, cujas utilizações variam em função das características dos dados.
A esse respeito, assinale a alterativa que apresenta corretamente um teste não paramétrico respectivo ao Teste t para uma amostra.

Correto!

A questão passa pela aplicação do conhecimento dos testes estatísticos paramétricos e seus respectivos não paramétricos. Das cinco alternativas apresentadas, duas delas são relativas a testes ts, naturalmente paramétricos. O Teste de Shapiro-Wilk é utilizado para avaliar a normalidade de uma distribuição, enquanto o Teste U de Mann-Whitney é adotado para comparação múltipla. Dessa forma, a alternativa correta é Teste de Wilcoxon, que funciona como um respectivo não paramétrico ao Teste t para uma amostra.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Questão 2

A distribuição Z, também denominada normal padrão, é frequentemente utilizada em testes de hipóteses, como o teste para comparação de proporções. A esse respeito, considere a figura a seguir:

Em um teste bicaudal, a região crítica é representada pela área colorida do gráfico.
Considerando um teste bicaudal com nível de significância α=10%, a soma das áreas coloridas do gráfico deve ser equivalente a:

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Correto!

A questão aborda a aplicação dos conceitos relacionados à distribuição Z, especialmente com relação à região crítica. Quando trabalhamos com essa distribuição, seja o teste bicaudal ou unicaudal, a soma das áreas das regiões críticas é sempre equivalente ao nível de significância α. Como o exercício trabalha com α=10%, a alternativa correta é 10,0%.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Questão 3

O Teste t para amostras independentes possui dois desdobramentos: um para populações com variâncias desconhecidas, porém estatisticamente iguais, e outro para populações com variâncias desconhecidas, porém estatisticamente diferentes.
Considere duas amostras A e B independentes com variâncias populacionais desconhecidas, porém de valores estatisticamente iguais. Em um Teste t para amostras independentes com variâncias populacionais desconhecidas, porém estatisticamente iguais, o número de graus de liberdade do teste é dado por:

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Correto!

A questão passa pelo conhecimento a respeito do Teste t para amostras independentes, com variâncias populacionais desconhecidas, porém estatisticamente iguais. Para esse teste, o número de graus de liberdade é dado por nA+nB2. Esse valor é proveniente do fato de que o modelo considera o número total de observações ( nA+nB) para compor os graus de liberdade, mas utiliza dois deles para calcular as médias das amostras A e B. Assim, o número de graus de liberdade é expresso por nA+nB2.

Referências

BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Saraiva, 2010.
GILOTTE, A. et al. Offline A/B Testing for Recommender Systems. In: Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining, p. 198-206, 2018. Disponível em: https://bit.ly/2Wlilyp. Acesso em: 22 jul. 2021.
SIROKER, D.; KOOMEN, P. A/B Testing: The Most Powerful Way to Turn Clicks into Customers. New Jersey: John Wiley & Sons, 2013.

Bons estudos!

AVALIE ESTE MATERIAL

OBRIGADO PELO SEU FEEDBACK!