lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc dignissim euismod urna tincidunt sagittis. Vivamus id vehicula eros, non scelerisque eros.

Fonte: Shutterstock.
Deseja ouvir este material?
Áudio disponível no material digital.
Métodos de tomada de decisão
Caro aluno, nesta seção iremos entender como fazemos para tomar uma decisão com embasamento estatístico. Este é um dos tópicos mais importantes que você irá estudar nesta unidade, visto que a tomada de decisões faz parte do nosso cotidiano.
Como exemplo dessa abordagem, considere que você precisa decidir sobre a eficácia de uma vacina. Após realizações de experimentos, você chega à seguinte hipótese: “a vacina é eficaz?”. Para saber como responder essa pergunta, você deve se basear em métodos estatísticos para fundamentar sua resposta, pois é com base nessa experimentação que você vai decidir se a vacina é ou não eficaz.
Os níveis de colesterol, em geral, são indicadores de boa saúde. Em um dado estudo envolvendo adultos hipertensos e fumantes, o pesquisador-chefe lhe convidou para auxiliá-lo em um teste de hipóteses. Sabendo que o desvio-padrão populacional é descrito por 46 mg/ml, o pesquisador deseja testar a hipótese de que o nível médio de colesterol nessa população é de 211 mg/ml a partir de uma amostra de 12 adultos hipertensos e fumantes que têm como nível médio de colesterol cerca de 217 mg/ml ao nível de significância de 5%. Como você faria para auxiliar esse pesquisador? Qual tipo de teste você recomendaria para testar a hipótese dele? Qual seria o p-valor obtido no teste definido?
Que tal começar esse entendimento agora? Você será acompanhado em todo o processo! Iniciaremos com os conceitos de hipóteses e, depois, passaremos para os métodos estatísticos para a tomada de decisões.
conceito-chave
Você já imaginou como são feitas as tomadas de decisões acerca de um medicamento? De um júri? Ou até mesmo de um material de construção? Não? Pois então, nesta seção iremos trabalhar com os métodos que fundamentam a tomada de decisões com base em experimentação. Vamos começar com um pequeno exemplo antes de definir as condições para tomar uma decisão.
Suponha que um certo indivíduo está sendo julgado por um certo crime. Naturalmente, o júri precisa decidir sobre a culpa ou não desse indivíduo, com base em fatos, testemunhas e leis. Nesse caso, então, duas hipóteses podem ser formuladas:
H0: {o indivíduo é culpado}
H1: {o indivíduo é inocente}
A decisão por cada uma das hipóteses está sujeita a erros, é claro. Por exemplo, ao tomar a decisão por H0, o júri pode cometer um erro, uma vez que o indivíduo pode ser inocente. O mesmo vale se for tomada a decisão por H1. No entanto, na prática, uma das decisões deve ser tomada, mesmo com essa possibilidade de se cometer um erro. Então, sabendo das condições de erro, como fazemos para tomar a decisão mais coerente? Antes de responder essa questão, vamos a algumas definições importantes.
A primeira definição que vamos trabalhar é com a de hipótese estatística, que é a base fundamental da tomada de decisões. Mas o que é uma hipótese estatística? Ora, uma hipótese estatística nada mais é do que qualquer tipo de afirmação que se faça sobre a distribuição de probabilidade de uma ou mais variável aleatória em que H0 representa a hipótese nula e H1 a hipótese alternativa. Certo, mas você deve estar se perguntando o que essa definição tem a ver com a questão exposta sobre o júri, por exemplo. Veja que, embora não foi citado, a distribuição de probabilidade no exemplo estava implícita. Em geral, trabalhamos com essas distribuições implicitamente nas questões práticas, quando o assunto é tomar uma decisão, isto é, elas funcionam, basicamente, como uma ferramenta.
Certo, sabemos o que é uma hipótese. Precisamos entender agora o que é um teste de hipóteses. Em termos matemáticos, um teste de uma hipótese estatística é uma função de decisão , em que corresponde à ação de considerar a hipótese H0 como verdadeira, corresponde à de considerar a hipótese H1 como verdadeira e é o espaço amostral associado à amostra (CASELLA; BERGER, 2010).
Assimile
Como a função de decisão divide o espaço amostral em e , em que e , a região determinada pelo conjunto é chamada de região de aceitação, e a região determinada pelo conjunto é chamada de região de rejeição ou crítica (CASELLA; BERGER, 2010).
Exemplificando
Vamos considerar uma situação em que em uma caixa contenha duas moedas e que uma delas apresenta cara com uma probabilidade e a outra apresenta cara com uma probabilidade . Supondo que uma moeda é selecionada aleatoriamente e lançada três vezes, qual hipótese poderíamos definir? Nesse caso, podemos definir nossa hipótese nula (ou de pesquisa) como sendo e, como hipótese alternativa, a hipótese .
Certo, temos as hipóteses, mas como escrevemos a região de aceitação e região de rejeição que formam a base do teste de hipóteses? Para isso, vamos trabalhar com a distribuição de probabilidade da situação ilustrada. Logo, seja a variável aleatória de Bernoulli que assume valor 1 se ocorrer cara no i-ésimo lançamento, e o valor 0 caso contrário, i = 1,2,3. Nesses termos, o espaço amostral é descrito por:
Logo, podemos escrever a região de rejeição (ou crítica) para esse teste de hipóteses como:
de modo que a região de aceitação seja:
Bom, agora sabemos o que é uma hipótese, um teste de hipótese e como determinar a região crítica, porém, no início da seção falamos também sobre os possíveis erros ao se tomar uma decisão. Temos dois tipos de erros a considerar: o erro do tipo I e o erro do tipo II. O que significam esses erros? Ora, quando rejeitamos a hipótese nula quando de fato ela é verdadeira, estamos cometendo o que chamamos de erro do tipo I. Por outro lado, quando não rejeitamos a hipótese nula quando de fato ela é falsa, estamos cometendo erro do tipo II (CASELLA; BERGER, 2010). No geral, denotamos as probabilidades desses dois tipos de erro como e , respectivamente.
Outro fator importante quando trabalhamos com testes de hipóteses é a função de risco, que vai determinar para nós a probabilidade dos erros do tipo I e tipo II. Mas antes de trabalhar com essa função, precisamos de uma definição da função de perda, que é a seguinte:
Definição (CASELLA; BERGER, 2010): sejam , e a função de perda definida por:
se a decisão for correta
se a decisão for incorreta
Agora sim podemos trabalhar com a função de risco. Nesse caso, a função de risco que determina a probabilidade dos erros do tipo I e II, com base na função de perda, é dada por:
(Erro do Tipo I)
(Erro do Tipo II)
Em que E representa o valor esperado (ou média).
Certo, vimos muitas componentes sobre os testes de hipóteses, mas ainda faltam duas que são as mais usuais de aparecerem nos trabalhos científicos e nos trabalhos diários envolvendo testes de hipóteses: o nível de significância nominal e o nível descritivo do teste (ou p-valor). Vamos entender esses conceitos pelas definições a seguir:
Nível de significância nominal de um teste de hipótese (CASELLA; BERGER, 2010): é caracterizado pela probabilidade de se cometer o erro do tipo I. Em grande parte dos estudos, adota-se, em geral, o nível de significância .
Nível descritivo do teste, ou p-valor (CASELLA; BERGER, 2010): traduz a probabilidade de que a estatística do teste (como variável aleatória) tenha valor extremo em relação ao valor observado (estatística) quando a hipótese nula é verdadeira. Em outras palavras, sob o ponto de vista matemático, considere um teste de hipóteses no qual é a região de rejeição com nível de significância e suponha que, para diferentes valores de , as regiões e satisfazem com . Dessa forma, sob essas condições, o p-valor é definido por:
em que X representa a amostra aleatória e inf é o ínfimo do conjunto.
É importante destacar que com essa definição de p-valor, podemos reescrever a nossa definição anterior de região a fim de definir o que é poder do teste, que é um dos conceitos mais importantes quando se trabalha com teste de hipóteses. Nesse caso, o poder do teste pode ser definido como:
Definição (CASELLA; BERGER, 2010): o poder do teste com região crítica para testar contra é descrito por:
em que é a probabilidade do erro do tipo II.
Exemplificando
Considere uma amostra aleatória de tamanho n, , da distribuição da variável aleatória . Suponha que você tem interesse em testar as hipóteses e , tal que a região crítica seja . Sabendo que e , como encontramos o valor de ? Nesse caso, podemos encontrar o valor de pela equação:
em que Z é a transformação da variável X para a distribuição normal padrão, isto é, . Assim, com base na distribuição normal padrão obtemos que , isto é, tal que a região crítica para esse teste seja .
Agora já sabemos trabalhar com testes de hipóteses! Antes de ir para os tipos de testes mais comuns da prática cotidiana, vamos trabalhar com mais três conceitos para fechar esse aparato teórico. Tais conceitos são: hipótese simples, teste ótimo e, finalmente, o lema de Neyman-Pearson. O lema de Neyman-Pearson é o que nos assegura a construção de qualquer tipo de teste de hipóteses, isto é, é o resultado mais importante e fundamental desse contexto teórico. Mas vamos começar com a hipótese simples.
Hipótese simples (CASELLA; BERGER, 2010): considere uma amostra aleatória tomada de uma dentre duas possíveis distribuições. Se o espaço paramétrico contém apenas dois pontos, e , então, para decidir de qual distribuição a amostra provém, utiliza-se um teste de hipótese simples, no qual suas hipóteses são definidas como:
em que é o parâmetro da primeira distribuição e o parâmetro da segunda distribuição. Esse tipo de hipótese considera o que chamamos de teste bicaudal.
A partir dessa definição e da definição da função de verossimilhança de uma distribuição de probabilidade (ver Casella; Berger, 2010), podemos definir o conceito de teste ótimo.
Teste ótimo (CASELLA; BERGER, 2010): considere o teste com região crítica descrita por:
em que , a e b > 0 são especificados. Então, para qualquer outro teste com região crítica , tem-se que:
isto é, a hipótese H0 será rejeitada quando a razão de verossimilhança, , é necessariamente pequena.
Agora, com as definições de hipótese simples e teste ótimo, temos as ferramentas necessárias para enunciar o lema de Neyman-Pearson, que é um dos resultados mais importantes quando se fala de teste de hipóteses.
Neyman-Pearson (CASELLA; BERGER, 2010): considere o teste com região crítica descrita por:
em que . Então é a melhor região crítica de nível para testar contra , isto é, para qualquer outro teste com .
Encerramos então a nossa primeira parte desta seção, que era a parte teórica a respeito dos testes de hipóteses. Agora, vamos trabalhar com alguns testes comuns na prática. O primeiro que iremos trabalhar é o teste Z.
O teste Z para média é um teste estatístico baseado na distribuição normal para amostras grandes e desvio-padrão conhecido. Nesse caso, a estatística do teste é descrita por:
para testar a hipótese contra (teste bicaudal) ou contra (teste unicaudal). Nesse caso, para trabalhar com o p-valor, trabalhamos com a tabela da distribuição normal de acordo com o nível de significância do teste. Em situações que temos duas populações, temos a versão do teste Z para duas médias, cuja estatística do teste é dada por:
O teste Z é um dos testes mais simples que temos para fazer comparação de médias, porém ele pode ser ruim quando trabalhamos com amostras muito pequenas e não aplicável quando não conhecemos o valor do desvio-padrão populacional. E como resolvemos se isso acontecer? Ora, nesse caso, temos um teste análogo ao teste Z, que é o teste t baseado na distribuição t de Student. Esse teste é utilizado, em geral, quando não conhecemos o valor do desvio-padrão populacional e a amostra é pequena. A estatística do teste é dada por:
Além disso, podemos testar os mesmos tipos de hipóteses anteriores para o teste bicaudal e unicaudal. E quando temos duas médias, podemos trabalhar também com o teste t? Sim, podemos, porém há uma diferença em relação ao teste Z. Nesse caso, temos duas considerações: variâncias iguais e variâncias diferentes. No caso em que elas são iguais, a estatística do teste é dada por:
E no caso em que elas são diferentes, a estatística do teste é dada por:
Agora já sabemos como testar a média. Mas esse é o único tipo de teste que pode ser feito? Não, podemos trabalhar também com testes de proporção, além de outras medidas. Neste texto, nosso foco serão os testes de média e de proporção. Então, para encerrar nossa seção, vamos considerar o teste para proporção, que é baseado no teorema central do limite e no teste Z, com estatística de teste dada por:
Como exemplo de aplicação desse teste, podemos testar hipóteses do tipo “um engenheiro garante que 95% dos seus projetos estão de acordo com as normas da ABNT” ou “uma empresa garante que é responsável por apenas 10% da contaminação de um determinado lago”, e assim por diante. E para duas proporções, também conseguimos trabalhar com esse teste? Sim, nesse caso, a estatística do teste é dada por:
em que é obtido pela média ponderada de e , isto é,
Reflita
No caso de proporções, você acha que é possível trabalhar com o teste t em vez do teste Z? Se sim, como você acha que ficaria a estatística do teste?
Com isso fechamos o nosso conteúdo sobre testes de hipóteses, que são ferramentas fundamentais para lidar com a tomada de decisões. Agora é hora de colocar a mão na massa e trabalhar com esses conceitos.
Faça valer a pena
Questão 1
Suponha que a concentração média de nitrogênio amoniacal encontrado em um determinado lago brasileiro no ano passado seja de 15,4 mg/L. Em uma amostra de tamanho 35, isto é, 35 observações das concentrações de nitrogênio amoniacal nesse ano do mesmo lago, a concentração média de nitrogênio amoniacal foi de 14,6 mg/L. Sabendo que o desvio-padrão da população seja de 2,5 mg/L e o nível de significância 0,05, temos interesse em achar o p-valor para saber se rejeitamos ou não a hipótese nula.
Nessas condições, assinale a alternativa correta.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
trabalhar com o teste Z. Nesse caso,
Que, usando os dados do nosso problema, é dado por:
A partir da tabela de distribuição normal para teste bilaterial, obtemos um p-valor de 0,0583, e como , não rejeitamos a hipótese nula.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Questão 2
Em uma determinada cidade pequena, um surto de uma determinada doença afetou os níveis de hemoglobina no sangue, que reduziu a resposta imunológica do corpo no combate à doença. Os cientistas mediram o nível de hemoglobina em nove pacientes selecionados aleatoriamente naquela cidade. Os níveis (em NMP/g) foram os seguintes: 0.593, 0.142, 0.329, 0.691, 0.231, 0.793, 0.519, 0.392, 0.418. Com base nesses dados, existe evidência de que o nível médio de hemoglobina no sangue é igual a 0,7 NMP/g ao nível de significância de 5% nessa população?
Assinale a alternativa correta.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
Nesse caso, trabalhamos com o teste t, pois a amostra é pequena e não conhecemos o desvio-padrão da população. Logo, a estatística do teste, com base nos nossos dados, é dada por:
uma vez que a média da amostra é 0,456 NMP/g e o desvio-padrão amostral é 0,213 NMP/g. Assim, pela tabela da distribuição t de Student, obtemos que o p-valor ao nível de significância de 5% é 0,0089. Ou seja, com o p-valor, , rejeitamos H0, concluindo assim que não há evidências de que o nível médio de hemoglobina no sangue dessa população é igual a 0,7 NMP/g.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Questão 3
Suponha que você tem dois tipos de ferragens para a construção de um prédio e que teu objetivo seja comparar a altura das ferragens, visando a economia na compra do material e assumindo um nível de significância de 5%. O tipo (A) consiste em ferragem de cobre, com variância da população igual a 5 cm, e o grupo (B) consiste em ferragem de aço, com variância da população igual a 8,5 cm. Selecionando duas amostras, você obteve as seguintes alturas (em cm):
Grupo A: 175, 168, 168, 190, 156, 181, 182, 175, 174, 179
Grupo B: 185, 169, 173, 173, 188, 186, 175, 174, 179, 180
Com base nessas informações, é necessário realizar um teste para comparação de médias.
Sabendo que será utilizado o teste Z para isso, assinale a alternativa correta.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
Note que temos duas populações, então devemos utilizar a versão do teste Z para duas médias, cuja estatística do teste é dada por:
Com base nas informações do exercício e calculando a média de cada um dos grupos, obtemos que:
Logo, como o valor de z é maior do que o valor crítico de z tabelado com , rejeitamos H0.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Referências
CASELLA, G.; BERGER, R. L. Inferência Estatística. São Paulo: Cengage Learning Brasil, 2010.
HENRIQUES, C. Análise de regressão linear simples e múltipla. Departamento de Matemática. Escola Superior de Tecnologia de Viseu. Portugal, 2011.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São Paulo: Editora da Universidade de São Paulo, 2002.
NETO, P. L. O. C. Estatística. São Paulo: Blucher, 2006.
SOUZA, N. Visualização de dados e testes de hipóteses com R: uma breve abordagem prática. Universidade Aberta do Brasil, 2018. Disponível em: https://repositorioaberto.uab.pt/bitstream/10400.2/5952/10/R_text_v9_ReposAb.pdf. Acesso em: 14 abr. 2021.
VIRGILITO, S. B. Estatística Aplicada. São Paulo: Saraiva, 2017.