Comentários

0%

Não pode faltar

Introdução à probabilidade e estatística

Ricardo Puziol de Oliveira

lorem ipsum dolor sit amet

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc dignissim euismod urna tincidunt sagittis. Vivamus id vehicula eros, non scelerisque eros.

Fonte: Shutterstock.

Deseja ouvir este material?

Áudio disponível no material digital.

Convite ao estudo

Caro aluno, o que você pensa quando escuta o termo probabilidade? E o termo estatística? Seria algo como sendo a chance de conseguir alguma coisa, como a chance de vencer em um jogo de videogame ou a chance de ter sucesso com sua startup? Se você pensa dessa forma, você pensa de maneira estatística!
Nesta unidade, vamos trabalhar com os principais conceitos de estatística e probabilidade, iniciando com a história da probabilidade. Logo em seguida, vamos trabalhar com as definições de população e amostra que se fazem fundamental na estatística, sendo o carro-chefe dessa disciplina. Por fim, vamos entender como se faz uma amostragem. Os processos de amostragem são diversos na literatura, mas nosso foco aqui será a diferença entre uma amostragem probabilística e uma não probabilística. Além disso, vamos trabalhar também com as medidas de tendência central e dispersão e o modelo de regressão que envolve a correlação das variáveis.
Algo que você pode estar se perguntando é: mas como utilizamos a estatística e a probabilidade em áreas como Engenharia? Para exemplificar, suponha que você trabalha com energia solar e seu objetivo seja criar tipos de telhados que proporcionem o uso desse tipo de energia. Nesse caso, você irá realizar um experimento para avaliar se sua proposta traz algum tipo de vantagem para a produção do telhado. Só pelo fato de realizar um experimento, você já está trabalhando com estatística e, posteriormente, para avaliar os resultados desse experimento, você irá precisar de métodos estatísticos e probabilísticos para trazer uma confiança em seu projeto, como um modelo de regressão. Viu como a estatística é importante nesse aspecto? Para lhe auxiliar, vamos, no decorrer desta unidade, aprender um pouco mais sobre ela! Então, mãos à obra! 

praticar para aprender

Caro aluno, nesta seção iremos entender o conceito de estatística e de probabilidade e como aplicar esses conceitos na prática. Com isso, você compreenderá a importância do papel da estatística quando se trata de dados dispostos em tabelas e como realizar operações com esses dados.
Como exemplo dessa abordagem, podemos considerar uma experimentação a respeito de pressão hidráulica em automóveis, ou até mesmo gasto de combustível. Dessa experimentação, você irá obter um conjunto de dados os quais podem ser descritos utilizando métodos estatísticos, a fim de se atingir o objetivo da pesquisa ou do trabalho, que pode ser, por exemplo, o tamanho amostral para verificar o gasto médio de combustível de veículos de uma marca X, o tempo de duração de uma válvula hidráulica, entre outros. Portanto, para atingir tais objetivos, o uso da estatística permite um melhor entendimento e interpretações do experimento em questão.
Em um dos seus trabalhos como Engenheiro Ambiental de uma determinada cidade, foi lhe solicitado para fazer coletas de amostras de água de alguns rios da região para avaliar o índice de qualidade da água a fim de monitorar o nível de poluição. No entanto, ninguém da sua equipe tem ideia de como fazer a amostragem. Sabendo que é necessária uma compra de material, você precisa realizar um plano amostral para fazer essa coleta, uma vez que seus recursos estão limitados devido ao corte de investimento da prefeitura dessa cidade. Além disso, o prefeito necessita urgentemente desse plano amostral. Como você o faria sabendo que seus recursos são limitados? Qual método de amostragem você utilizaria para uma melhor eficiência dos seus recursos sabendo que foi lhe pedido que a probabilidade de coleta de uma amostra deve ser a mesma em todos os rios selecionados?
Que tal começar esse entendimento agora? Você será acompanhado em todo o processo! Iniciaremos com os conceitos de probabilidade e de estatística e, depois, passaremos para amostragem e aplicações!

conceito-chave

Você já parou para pensar em como as coisas ao nosso redor acontecem de forma aleatória? Por exemplo, o cair de uma fruta de uma árvore, uma batida de carro, a queda de um avião, a subida/descida da bolsa de valores, etc. Poucas coisas são, de fato, determinísticas. Nesta seção, vamos explorar esses conceitos e definir o que chamamos de probabilidade, que se faz uma ferramenta mais do que fundamental atualmente e nas mais diversas áreas de trabalho.
No que tange ao contexto histórico, acredita-se que essa teoria teve seu início com os matemáticos franceses Blaise Pascal (1623-1662) e Pierre Fermat (1601-1665), quando eles conseguiram derivar probabilidades exatas para determinados problemas de jogos envolvendo dados. Atualmente, essa teoria é aplicada em diversas áreas de estudo como hidrologia, medicina, farmacologia, engenharia, química, educação, dentre outras. 
Ao estudar probabilidade, duas coisas são levadas em consideração: experimentos e eventos. Um experimento é um processo, seja real ou hipotético, no qual são identificados os resultados no decorrer do tempo. Por outro lado, um evento é um conjunto bem definido relativo aos resultados de um experimento, seja ele real ou hipotético. Além disso, existem duas classificações para os experimentos: aleatórios e determinísticos. Dizemos que um dado experimento é dito aleatório se, mesmo repetindo-o diversas vezes em condições iguais, o resultado não pode ser definido ou, até mesmo, predito. Em contrapartida, dizemos que um experimento é dito determinístico se, repetido diversas vezes, o resultado pode ser definido ou predito.
Um outro elemento fundamental em probabilidade é o espaço amostral. Podemos definir espaço amostral como sendo o “conjunto relativo a todos os resultados possíveis que podemos encontrar em um experimento aleatório” (MAGALHÃES, 2002). Denotamos espaço amostral por Ω. Por exemplo, suponha que desejamos representar todas as plantas que produzem O2. Nesse caso, Ω = {Todas as plantas que produzem O2} que define as características comuns aos membros do conjunto. Outro exemplo é o lançamento de uma moeda. Nesse caso, Ω = {cara, coroa} que são as únicas possibilidades de ocorrência no lançamento da moeda. Em especial, os conjuntos de um espaço amostral possuem algumas propriedades especiais, dado Ω um espaço amostral; A, B e C três subconjuntos de um espaço amostral Ω, então as seguintes propriedades são válidas:

  1. União: AB = {x Ω, x A ou x B}.
  2. Interseção: AB = {xΩ, xAxB}.
  3. Complementar: Ac= xΩ, xA.
  4. Eventos Mutuamente Exclusivos: AB =.
  5. Lei Comutativa: A B = B A ou A B = BA.
  6. Lei Associativa: A B C = A B C.
  7.  Lei Distributiva: (A B) C = A C B C ou A B C = A C B C.
  8. Lei de Morgan: i=1nAic =i=1nAici=1nAic=i=1nAic .

Voltando ao contexto de probabilidade, na literatura, três interpretações diferentes de probabilidade são consideradas, a saber: a interpretação frequentista, a interpretação clássica e a interpretação subjetiva. É importante destacar que cada uma dessas interpretações pode ser útil na aplicação da teoria das probabilidades a problemas práticos. Vamos começar então com a interpretação frequentista.
Interpretação frequentista: seja A um evento qualquer. Se nA é o número de ocorrências do evento A em n repetições independentes do experimento, então dizemos que a probabilidade em que A ocorre é:
PA= limnnAn

Exemplificando

Considere n lançamentos nas mesmas condições de uma moeda. Sendo o evento A = {obter uma face cara}, do ponto de vista frequentista, a probabilidade de ocorrer o evento A é igual a 12, pois o limite da frequência relativa de cara, quando a moeda é lançada em um grande número de vezes em condições semelhantes, tende ao valor 12.

Interpretação clássica: seja Ω um determinado espaço amostral e A um evento dado. Se NΩ é o número de elementos possíveis no nosso espaço amostral Ω e N(A) é o número de elementos possíveis no nosso evento A, então dizemos que a probabilidade em que A ocorre é:
PA=NANΩ
Vale ressaltar que se um experimento aleatório tem como espaço amostral Ω=e1,e2,,en, então podemos dizer que eventos elementares ei são equiprováveis se, porventura, todos esses eventos terem a mesma probabilidade de ocorrência, isto é:
Pei=1n
Logo, considerando tais eventos, podemos definir a probabilidade de ocorrência de um dado evento E=ej1,,ejk, com k<n elementos, da seguinte forma:
PE=número de casos favoráveis a Enúmero de casos possíveis de Ω=kn

Exemplificando

Considere o lançamento de um dado em que o espaço amostral Ω=1, 2, 3, 4, 5, 6 é equiprovável. Dado o evento A = {sair número par na face em um lançamento de um único dado}, de acordo com a interpretação clássica, o número de elementos do evento A = 2, 4, 6 é igual a 3 e a probabilidade de ocorrência do evento A é dada por:
PA=NANΩ=36

Interpretação subjetiva: se o julgamento das probabilidades relativas de várias combinações de resultados preencher determinados requisitos de consistência, então as probabilidades subjetivas dos diferentes eventos possíveis podem ser excepcionalmente determinadas.

Exemplificando

Suponha que uma moeda é lançada uma vez. Uma pessoa sem informação especial sobre a moeda ou a maneira que ela é jogada, pode considerar que uma cara e uma coroa têm resultados igualmente prováveis. Entretanto, a pessoa que está jogando a moeda pode sentir que uma cara é muito mais provável de ser obtida do que uma coroa e atribuir uma probabilidade diferente.

Agora que sabemos como interpretar uma probabilidade, vamos definir mais dois conceitos importantes: população e amostra. No que tange a esses conceitos, uma população pode ser definida como “grupo de indivíduos com característica(s) em comum”. Já uma amostra, podemos definir como “parte da população”, isto é, uma porção de indivíduos que usaremos para inferir respostas sobre a população. No que tange à seleção de uma amostra, ela pode ser feita de diversas maneiras, porém, em muitos casos, depende exclusivamente dos recursos disponíveis para a coleta dos dados.
Em estatística utilizamos uma notação própria para diferenciar medidas usadas para descrever características da amostra e da população. Assim, podemos definir uma estatística como sendo uma medida de descrição de alguma característica da amostra. Por exemplo,X  a média da amostra; S representa desvio-padrão da amostra; P a proporção da amostra e X¯d a diferença de médias são estatísticas. Já um parâmetro pode ser definido como uma medida usada com finalidade de descrever uma característica da população e, diferente da amostra, é representado por uma letra grega. São exemplos de parâmetros: μ (média populacional); π (proporção populacional); σ (desvio-padrão populacional) e μd (diferença de médias populacionais). Os dois problemas básicos da estatística são: estimação e testes de hipóteses. Vamos, por meio de um exemplo, ilustrar essas duas situações.
Suponha que determinado engenheiro químico está interessado em avaliar a média de produção de um determinado efluente, μ, para o tratamento de água nas seguintes condições: rio contaminado por aproximadamente 5 anos com água de péssima qualidade e ecossistema aquático (peixes) degradado. Nesse caso, a nossa população consiste em todas as dosagens da concentração do efluente nas condições citadas. Assim, com os valores de concentração, podemos obter a estimativa da média de produção verdadeira do efluente. 
Esse é um exemplo de problema de estimação. Por outro lado, suponha que o engenheiro químico deseja saber se a média de produção do efluente A é a mesma da média de produção do efluente B. Para realizar tal comparação, foi considerada uma amostra aleatória de 50 concentrações do efluente B e 50 do efluente A, sob as mesmas condições. Esse é um exemplo de problema de teste de hipóteses.

Reflita

Em que outras situações práticas você pode encontrar as diferenças entre os problemas de estimação e testes de hipóteses?

Agora, para encerrar nosso conteúdo da seção, vamos lidar com a amostragem, que é uma das principais ferramentas da estatística. Como vimos nos exemplos anteriores, um pesquisador trabalha apenas com a amostra, visto que, em muitos casos, trabalhar com a população toda é impossível. A maneira como é selecionada uma amostra é de extrema importância, pois é através dos dados amostrais que estimamos os parâmetros da população para fazer inferências sobre ela. Existem diversas formas/técnicas de se realizar uma amostragem, porém, nesta seção, iremos nos limitar a trabalhar com a amostragem aleatória simples para o uso das técnicas estatísticas aqui apresentadas.
Então, podemos definir a amostragem aleatória simples como sendo uma técnica em que todos os indivíduos de uma dada população têm a mesma probabilidade de serem selecionados para a amostra. Em outras palavras, seria análogo à ideia de um sorteio de números como na Mega-Sena, em que temos 60 números na “população” e escolhemos 6 desses números. A escolha de cada um dos 6 números tem a mesma probabilidade.
Para facilitar o processo de amostragem aleatória simples, podemos dividi-lo em etapas:

  1. Definir a população-alvo.
  2. Definir um quadro par ao processo de amostragem.
  3. Avaliar os recursos disponíveis para execução do quadro de amostragem.
  4. Atribuir um número único para cada individuo.
  5. Determinar o tamanho da amostra.
  6. Realizar a amostragem aleatória simples.

Assim como toda técnica de amostragem, a amostragem aleatória simples tem suas vantagens e desvantagens. Entre as vantagens, destacamos:

  1. A probabilidade de seleção de um indivíduo é a mesma para todos os indivíduos.
  2. Em geral, esse método traz amostras representativas.
  3. Os métodos estatísticos, para lidar com esse tipo de amostragem, são mais simples.

No entanto, as desvantagens desse tipo de amostragem são:

  1. Não se utiliza o conhecimento do pesquisador sobre a população.
  2. Os erros de amostragem podem ser maiores quando comparados a outros métodos.
  3. Se lidamos com uma população mais dispersa, os custos de coleta de dados podem ser maiores do que o esperado.

Além da amostragem aleatória simples, há outros tipos de amostragem probabilísticas: amostragem sistemática, que, diferente da amostragem simples, dividimos a população em grupos e em cada grupo trabalhamos com a amostragem aleatória simples; amostragem estratificada, que consiste em, basicamente, dividir a população em grupos e subgrupos de acordo com as características de interesse; e, por fim, amostragem por conglomerados, que consiste em selecionar primeiramente o grupo e não o indivíduo, como nos outros tipos de amostragem. Independentemente do tipo de amostragem probabilística, o objetivo é sempre obter uma amostra representativa. 
Por outro lado, porém, a obtenção de uma amostra verdadeiramente aleatória vai depender muito da situação da população de interesse. Frequentemente, não é possível obter uma amostra aleatória, pois, muitas vezes, não há recursos de pesquisa suficientes para utilizar tal técnica. Por exemplo, se temos por interesse tratar uma doença (como a Covid-19) em seres humanos através de um dado medicamento, então os seres humanos que formam a amostra são os acessíveis em hospitais, visto que não há como saber quem está com a doença fora do hospital. Isso nos leva ao conceito de amostragem não probabilística, que, em geral, é feita por conveniência devido a recursos disponíveis ou até mesmo não tem necessariamente um critério para a amostragem. Dentre esse tipo de amostragem, destacam-se dois tipos principais: julgamento e cotas. 
A amostragem por julgamento é simplesmente feita pelo julgamento do próprio pesquisador em que ele irá buscar por indivíduos com características definidas anteriormente para a sua amostra. Já a amostragem por cotas é o tipo de amostragem utilizado para pesquisa de mercado, pesquisa eleitoral e opinião pública. Para se trabalhar com esse tipo de amostragem, devemos determinar as características gerais de estudo e fazer os questionários; a partir disso, faz-se um filtro das características mais importantes e tem-se a amostra. A grande desvantagem desses tipos de amostragem é a chance de se obter viés na pesquisa ou resultados tendenciosos ou, ainda, inválidos.
Além disso, o objetivo pelo qual selecionamos uma amostra é, necessariamente, para calcular as estimativas de parâmetros da população (μ,σ2,π, μd), fazer afirmações sobre eles e, talvez, trazer informações sobre a distribuição dos dados. Os valores da estatística, calculados nas amostras, formam uma “nova população”, cuja distribuição recebe o nome de distribuição amostral, que são definidas como:

  1. x¯1, , x¯k é denominado de distribuição amostral das médias.
  2. p1, , pk é denominado de distribuição amostral das proporções.
  3. s12, , sk2 é denominado de distribuição amostral das variâncias.
  4. x¯d1, ,x¯dk é denominado de distribuição amostral das diferenças de média.

Vamos entender na prática como funciona tais distribuições amostrais, em particular da média. Para isso, vamos considerar uma população de 4 animais com 68 kg; 80 kg; 84 kg e 87 kg cada animal e que um zootecnista deseja estimar o peso médio dos animais (μ). Com o objetivo de avaliar a média populacional (μ = 79,75 kg), o zootecnista decide tomar uma amostra aleatória com tamanho 2 e reposição do animal. Assim, temos então que calcular todas as amostras que são possíveis de se obter com n = 2, a fim de calcular a média (x) dessas amostras. No caso desse exemplo, temos 16 pares de animais para calcular a média e obtemos assim 16 médias. Os valores da média, variância e desvio-padrão assumindo a distribuição amostral das médias são dados, respectivamente, por:
μX¯  =74,0 + 76,0 + 77,5 + + 87,016=79,75kg¯
σX¯2 =26,09(kg)2
σX¯= 5,11kg
Observamos que o valor encontrado para a média, neste caso, da distribuição amostral das médias é o mesmo valor encontrado para a média da população (μX¯=μ). Porém, por outro lado, vemos que a variância e o desvio-padrão podem ser, respectivamente, escritos como:
σX¯2 =26,09=52,182 =σ2nσX¯ =σ2n =7,222 = 5,11
Portanto, você já sabe como encontramos dois dos parâmetros da chamada distribuição amostral da média. O próximo passo, por exemplo, seria determinar qual modelo probabilístico poderia ser utilizado para trabalhar com tal distribuição. Nesse caso, se aumentarmos o tamanho das amostras de 2 para 3, as médias amostrais ficam mais concentradas em torno da média verdadeira (μ), porque o desvio-padrão diminui. Esse conceito define o que chamamos de Teorema do Limite Central, que encerra a nossa seção dos conceitos iniciais de probabilidade.

Assimile

Teorema do Limite Central: para as amostras X1,, Xn independentes e identicamente distribuídas, a distribuição amostral da média:
X¯=X1++Xnn
tem distribuição normal, Nμ,σ2n. Isto é, a média da distribuição amostral das médias é descrita pela média populacional e a variância é descrita pela variância da população dividida pelo tamanho da amostra.

Chegamos então ao fim de nossa seção sobre alguns conceitos básicos de Estatística que irão, no futuro, orientar sua equipe no trabalho e para resolver problemas relativos à modelagem que envolva análise estatística.

Faça valer a pena

Questão 1

Quando falamos de Estatística, algo que precisa estar bem definido é o nosso desenho de estudo e, independente da área de atuação, esse desenho de estudo deve fazer sentido. Dentre os elementos do desenho de um estudo, dois deles são fundamentais: população e amostra.
Com base nesses conceitos, assinale a alternativa correta.

Correto!

Com base no que aprendemos nesta seção, uma população pode ser definida como um grupo de indivíduos que possuem características iguais, enquanto uma amostra pode ser definida como parte de uma população.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Questão 2

Suponha que você tenha que coletar amostras de um determinado rio. Sabendo que se pode ter 10 tipos de amostras (A, B, C, D, E, F, G, H, I, K), foi solicitado a você escolher uma amostra ao acaso. Qual a probabilidade de a amostra escolhida ser uma amostra descrita por uma vogal?
Assinale a alternativa correta.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Correto!

Temos que o número de elementos do nosso espaço amostral é igual a 10, uma vez que temos 10 possibilidades de escolha. Como as amostras estão indicadas por letras e nessas letras temos apenas 3 indicadas como uma vogal, então, pela definição clássica de probabilidade, temos que:
PA=NANΩ=310

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Tente novamente...

Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.

Questão 3

Dentre os tipos de amostragem, a mais famosa é a amostragem aleatória simples, que é uma técnica em que todos os indivíduos de uma dada população têm a mesma probabilidade de serem selecionados para a amostra. Esse tipo de amostragem tem certos tipos de vantagens, porém também tem suas desvantagens.
A respeito dessas vantagens e desvantagens, assinale a alternativa correta.

Correto!

Assim como toda técnica de amostragem, a amostragem aleatória simples tem suas vantagens e desvantagens. Entre as vantagens destacamos:

  1. A probabilidade de seleção de um indivíduo é a mesma para todos os indivíduos.
  2. Em geral, esse método traz amostras representativas.
  3. Os métodos estatísticos, para lidar com esse tipo de amostragem, são mais simples.

No entanto, as desvantagens desse tipo de amostragem são:

  1. Não se utiliza o conhecimento do pesquisador sobre a população.
  2. Os erros de amostragem podem ser maiores quando comparados a outros métodos.
  3. Se lidamos com uma população mais dispersa, os custos de coleta de dados podem ser maiores do que o esperado.

Referências

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São Paulo: Editora da Universidade de São Paulo, 2002.
NETO, P. L. O. C. Estatística. São Paulo: Blucher, 2006.
SOUZA, D. V. et al. Introdução ao R: Aplicações Florestais. Curitiba: Ed. do Autor, 2018. Disponível em: https://www.researchgate.net/publication/342052263_Introducao_ao_Aplicacoes_Florestais. Acesso em: 24 jun. 2021.
THE R Project for Statistical Computing. Disponível em: https://www.r-project.org. Acesso em: 12 abr. 2021.
VIRGILITO, S. B. Estatística Aplicada. São Paulo: Saraiva, 2017.

Bons estudos!

AVALIE ESTE MATERIAL

OBRIGADO PELO SEU FEEDBACK!