SEM MEDO DE ERRAR
Veja que o problema em questão envolve contagem e tempo, visto que são acidentes anuais. Naturalmente, esse problema seria trabalhar com a questão de sofrer ou não um acidente que remete à distribuição binomial, porém ela pode se tornar complexa devido ao grande número de funcionários. Nesse caso, trabalhamos com a aproximação da distribuição binomial para a distribuição de Poisson, em que tiramos que o parâmetro é estimado por:
Em que n é o número de trabalhadores e p é a probabilidade de um único trabalhador se envolver em um acidente. Vamos supor que nessa empresa tenha 100.000 trabalhadores. Nesse caso, temos que:
Isso quer dizer que, em média, o número de trabalhadores envolvidos em acidentes seria de 24 trabalhadores anualmente. Assumindo que a distribuição de Poisson é recomendada para esses dados, temos que a probabilidade de nenhum trabalhador sofrer acidente é descrita por:
Ou seja, a chance de ninguém sofrer acidente é muito baixa. Agora, a chance de mais do que 24 trabalhadores sofrer acidentes é descrita por:
Isto é, a chance de mais de 24 trabalhadores sofrerem acidentes nessa empresa é de aproximadamente 44,6%. Conclusão, há poucas chances de um número X de trabalhadores não sofrerem acidente, mas há uma chance muito grande de, acima de um limiar, muitos trabalhadores sofrerem acidente.
Avançando na prática
Teste de diagnóstico
Suponha que você tenha sido contratado por uma empresa médica para avaliar a eficácia de testes de diagnósticos de câncer de mama. Naturalmente, o interesse da empresa é entender a probabilidade de uma mulher testar positivo para o câncer quando ela realmente tem a doença e entender a questão do falso negativo. Nesse aspecto, a empresa desenvolveu um novo tipo de teste e precisa lidar com essas questões, mas eles não têm ideia de como começar e é aí que você entra. Como você desenvolveria uma forma de avaliar a questão da mulher, de fato, testar positivo quando ela tem câncer? Qual seria a base para sua fórmula?
Essa situação nos remete a trabalhar com o que chamamos de teorema de Bayes. Como o interesse é verificar os falsos positivos e falsos negativos, vamos chamar de A o evento em que a mulher tem câncer e B o evento em que a mulher não tem câncer. Vamos também representar por T o teste positivo. Nosso objetivo é calcular a probabilidade de ocorrer A dado que ocorreu T, isto é, , que significa a mulher ter câncer dado que o exame foi positivo. A partir do teorema de Bayes, obtemos que:
Logo, essa fórmula iria descrever à empresa a relação entre os falsos positivos e falsos negativos, com base no teorema de Bayes. Como exemplo de aplicação da fórmula, podemos considerar , tal que . Logo, a probabilidade de a paciente ter câncer, dado que o exame é positivo, é dada por:
Isto é, de acordo com a nossa fórmula proposta para o teste de diagnóstico, a probabilidade de a mulher ter câncer quando o exame é positivo é de 42,86%. Em outras palavras, a cada 10.000 testes, 4.286 deles representam os verdadeiros casos positivos nas condições do nosso exemplo.