lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc dignissim euismod urna tincidunt sagittis. Vivamus id vehicula eros, non scelerisque eros.

Fonte: Shutterstock.
Deseja ouvir este material?
Áudio disponível no material digital.
Praticar para aprender
Prezado estudante, nesta seção abordaremos alguns conceitos estatísticos fundamentais para Análise de Dados, com o intuito de darmos continuidade à construção introduzida na seção anterior. Para tanto, iniciaremos a discussão com uma breve contextualização histórica da Estatística, que nos trará insumos para compreender as distinções entre Estatística Descritiva e Inferencial e seus respectivos objetivos. Em seguida, entenderemos um pouco mais a respeito dos conceitos de Amostra, População e Amostragem que, como veremos, são de grande importância no campo da Estatística Inferencial.
Fixado esse conteúdo, trataremos de algumas ferramentas relacionadas à Estatística Descritiva, como a análise de frequência e suas respectivas representações gráficas por meio de barplots e histogramas. Também abordaremos, de forma introdutória, os principais tipos de variáveis, destacando as diferenças entre as qualitativas e quantitativas e seus respectivos desdobramentos. Como veremos, esse é um fator que geralmente impacta o tipo de análise a ser realizada. Por fim, discutiremos a respeito das séries estatísticas e suas diferentes classificações.
Os temas trazidos nesta seção estarão presentes na atividade diária de Análise de Dados, qualquer que seja a área de aplicação. Em uma empresa, por exemplo, as análises de frequência e as apresentações gráficas são importantes ferramentas para a tomada de decisão, ao passo que permitem aos gestores a coleta de informações que poderiam não ter sido consideradas em um processo decisório baseado na intuição. Nesse sentido, dominar os conceitos e as ferramentas apresentadas nesta seção é de suma importância para as profissões relacionadas à análise de dados, potencializando ainda mais suas habilidades e competências no mercado de trabalho.
Por essa razão, além do conteúdo teórico, trouxemos, também, os scripts em R utilizados para a realização dos gráficos da seção. É sugerido, portanto, que com base nos códigos disponibilizados, seja feita uma leitura dos principais comandos executados e seus respectivos insumos gerados, como forma de iniciarmos a familiarização com a linguagem.
Caro estudante, a Probabilidade e a Estatística são duas áreas distintas das Ciências Exatas, mas que, juntas, oferecem um potencial sinérgico que permite a resolução de problemas e situações em diversos contextos. No ramo empresarial, seja ele público ou privado, as decisões estão cada vez mais embasadas por dados, em um processo denominado data driven decision making. Para tanto, a Estatística, junto com a Probabilidade, são ferramentas fundamentais na condução desse processo. Nesse sentido, compreender os principais conceitos e suas respectivas aplicações é de suma importância para que se possa utilizar tais ferramentas de forma correta e assertiva.
Você é o analista de dados de uma indústria e está dando suporte para a área de engenharia, em um trabalho conjunto para o controle de peças defeituosas. No processo de produção dessas peças são utilizadas três máquinas, de marcas distintas. Além disso, é possível operar tais máquinas em cinco velocidades diferentes: 300 rpm, 350 rpm, 400 rpm, 450 rpm e 500 rpm. Para avaliar a incidência de peças defeituosas, foram coletados dados durante cinco dias. Em cada um deles foi utilizada uma das velocidades possíveis, de modo que todas as velocidades foram testadas. O estudo apresenta dois objetivos distintos: avaliar a frequência de peças defeituosas dentre as três marcas de máquinas e identificar se o aumento da velocidade de operação causa maior ou menor incidência de peças defeituosas. Neste momento, você deverá pensar na melhor maneira de trazer esses resultados de forma gráfica.
Vamos, juntos, para mais esta importante seção. Bons estudos!
conceito-chave
A Estatística é um campo de estudo que se consolidou como ciência entre os séculos XVII e XX, mas que, informalmente, já era utilizada há milhares de anos. Na China, muito antes do nascimento de Jesus Cristo, eram realizados levantamentos populacionais, assim como no Egito Antigo e nas civilizações astecas, mais e incas (MEMÓRIA, 2004).
Por esta razão, o termo Estatística remete à concepção de Estado (JOHN, 1883), ao passo que os primeiros registros de métodos estatísticos utilizados, ainda que não científicos, estão ligados a questões de governo, como operações de recenseamento.
Com base nos desenvolvimentos teóricos dos séculos XVIII, XIX e XX, foi consolidada a Estatística Clássica, ciência que pode ser definida como a prática de desenvolvimento e estudo de métodos para a coleta, análise, interpretação e apresentação de dados empíricos (UCI, 2021). Para a American Statistical Association (ASA), trata-se “da ciência de aprender a partir dos dados, além da mensuração, controle e comunicação da incerteza” (ASA, 2021, [s. p.]). Nesse sentido, a Estatística é uma ciência que faz os dados falarem. Muitas vezes, eles falam aquilo que não gostaríamos de ouvir.
De maneira geral, a Estatística se divide em dois grupos: descritiva e inferencial. Na Estatística Descritiva são realizadas análises preliminares dos dados, em que se trabalham medidas de tendência central, como média, mediana e moda, e medidas de dispersão, como desvio-padrão, variância, quartis e percentis. São investigações fundamentais para conhecer os dados com os quais se trabalha. Por outro lado, a Estatística Inferencial é o braço que permite a realização de induções a respeito de uma população com base em determinado grupo amostral. É o caso, por exemplo, das pesquisas eleitorais e da Pesquisa Nacional por Amostra Domiciliar (PNAD), elaborada pelo Instituto Brasileiro de Geografia e Estatística. Essas duas são análises que levam em conta a extrapolação de um comportamento amostral para toda uma população, ou seja, é realizada uma inferência.
Além de descritiva ou inferencial, a Estatística pode trabalhar com análises univariadas, bivariadas ou multivariadas. Na análise univariada, geralmente se trabalha com Estatística Descritiva, ao passo que o conjunto de dados dispõe de apenas uma variável. Na análise bivariada, busca-se entender a relação expressa entre duas variáveis, por meio de Estatística Descritiva ou Inferencial. Por fim, quando se trabalha com análises multivariadas, dispõe-se se conjuntos de dados com duas ou mais variáveis dependentes e/ou duas ou mais variáveis independentes. Nesse caso, pode-se utilizar tanto a Estatística Descritiva quanto a Inferencial. Porém, as ferramentas da Estatística Inferencial são distintas daquelas utilizadas nas análises bivariadas. Para o caso multivariado, utiliza-se, por exemplo, a Análise Multivariada de Variância (MANOVA), em detrimento da ANOVA. Outras análises possíveis são: Regressão Múltipla, Análise de Componentes Principais, Análise de Correlações Canônicas e Análise de Cluster, entre outras (VAR, 1998).
Por fim, uma última classificação se dá em termos da parametrização do conjunto de dados. Em sua maioria, as análises estatísticas apresentem uma série de pressupostos, que devem ser respeitados não só pelos dados, mas também pelo profissional que conduz a análise. Tais pressupostos se traduzem em função da normalidade dos resíduos, homogeneidade das variâncias, aditividade dos efeitos de variação e independência dos resíduos. Quando o conjunto de dados obedece a esses requisitos, geralmente se utilizam análises paramétricas, como a própria ANOVA ou os Testes de Hipótese. Quando não atendidas tais condições, é possível proceder com análises não paramétricas, como Teste de Kruskal-Wallis, Teste de Mann-Whitney e Teste de Wilcoxon, entre outros (CAMPOS, 2001). Destaca-se, no entanto, que os testes não paramétricos devem ser utilizados em situações em que as correções dos dados não são possíveis, ou quando, ainda que possíveis, acabam por descaracterizar o conjunto de dados, prejudicando o entendimento e a interpretação.

Quando se fala em Estatística Inferencial, seja ela paramétrica ou não paramétrica, é importante que se tenha três conceitos bem definidos: população, amostra e amostragem. População, também denominada universo, pode ser definida pelo conjunto global de observações de determinado grupo de interesse. Por exemplo, a população de um país, o número de estudantes de ensino superior, o total de empresas de determinado setor e o número de funcionários de uma firma. A amostra, por sua vez, refere-se a uma parcela representativa da população, enquanto a amostragem pode ser traduzida como o processo de escolha e seleção de observações/indivíduos de uma população, de modo a gerar uma amostra representativa.
Exemplificando
Uma empresa deseja avaliar se seus clientes estão satisfeitos com os serviços prestados, realizando, para tanto, uma pesquisa de qualidade. De acordo com a base cadastral da empresa, o número total de clientes (população) é de 432. Seleciona-se (amostragem) um conjunto de 41 indivíduos (amostra), que foram submetidos à pesquisa. É esperado, portanto, que esses 41 indivíduos representem o nível de satisfação dos 432 clientes totais da empresa.
Por outro lado, quando temos, por exemplo, uma amostra composta por 80% dos indivíduos do sexo masculino e queremos extrapolar para uma situação em que a população é de maioria feminina, estamos diante de uma amostra não representativa, ao passo que nela não é refletido um comportamento ou padrão da população.
A Figura 1.7 apresenta um esquema simplificado do processo de amostragem. À esquerda, temos a população, ou seja, todos os indivíduos com a característica de interesse que se pretende avaliar. Após o processo de amostragem, teremos alguns indivíduos selecionados (retângulo vermelho), que comporão a amostra do nosso estudo.

Nesta seção, abordamos as definições de população, amostra e amostragem. Para o processo de amostragem, são importantes alguns outros conceitos, como aleatoriedade, tamanho amostral mínimo e proporção, entre outros. No entanto, retomaremos esse conteúdo com maior profundidade na Unidade 3.
Reflita
Atualmente, a população brasileira é de cerca de 212 milhões de pessoas. Ou seja, nessa população, a característica de interesse é total de residentes do país. A população do estado de São Paulo está em torno de 46 milhões de habitantes. Aqui, esse total de indivíduos pode ser considerado tanto uma amostra quanto uma população. Reflita sobre em quais situações esses 46 milhões podem ser considerados população ou amostra.
Como já vimos, enquanto a Estatística Inferencial é focada em trazer informações a respeito de uma população baseada em determinada amostra, na Estatística Descritiva buscamos organizar e resumir as informações contidas em um conjunto de dados. Para tanto, são fundamentais algumas ferramentas, como a análise exploratória dos dados, que reunirá diversas informações como distribuição, contagem, medidas de dispersão e medidas de posição, entre outras, todas estas podendo ser representadas de forma gráfica ou numérica. Nesta seção, trabalharemos duas representações gráficas: a de distribuição de frequências e a de séries estatísticas. Os demais tópicos serão contemplados nas próximas unidades do livro.
Assimile
Na estatística, as variáveis se dividem em dois grandes grupos: qualitativas e quantitativas. Quando nos referimos a um atributo, ou seja, uma qualidade específica relacionada a um ou mais indivíduos, estamos diante de uma variável qualitativa, que ainda podem ser:
• Nominal: quando não há relação de ordem/hierarquia entre as possíveis categorias (exemplo: sexo, gênero, naturalidade, nacionalidade, localidade de uma empresa, setor).
• Ordinal: quando as categorias de uma variável apresentam uma relação de ordem entre si (exemplo: dias da semana, cargos – júnior, pleno, sênior –, grau de escolaridade).
Por outro lado, as variáveis quantitativas são aquelas que se apresentam na forma numérica, desde que minimamente interpretáveis. Também apresentam duas classes distintas:
• Contínua: valores são coletados a partir de uma mensuração, pertencendo ao intervalo da reta real (exemplo: velocidades, horário, pressão arterial, peso, altura).
• Discreta: observações coletadas que resultam de um processo de contagem, assumindo valores referentes a um conjunto finito de possibilidades (exemplo: número de matrículas no ensino superior, número de empresas de determinado setor, número de funcionários de uma empresa, número de filiais de uma multinacional).
Ao estudarmos uma variável, um dos primeiros passos é obtermos alguma informação a respeito de seu comportamento, que pode ser conseguida por meio de uma análise de frequência. A frequência representa, para nós, a número de ocorrências de determinada característica em nossa variável de interesse. Suponha que uma empresa possua um total de 46 funcionários, sendo 6 da área de RH, 12 da área de Finanças, 20 da área de Serviços, 8 da área de Dados e 6 das demais áreas. A frequência de cada uma dessas áreas é representada pelos seus respectivos números de funcionários, considerando o número total de colaboradores da empresa. A esse número inteiro também damos o nome de frequência absoluta. Quando olhamos de forma percentual, teremos o conceito de frequência relativa. Para o exemplo dado, a Tabela 1.1 apresenta o resumo de frequência.
Setor | Frequência Absoluta | Frequência Relativa |
---|---|---|
RH Finanças Serviços Dados Outras |
6 12 20 8 6 |
13,04% 26,09% 43,48% 17,39% 13,04% |
Total | 46 | 100,00% |
Outras formas de representar a frequência são os gráficos de barras e os histogramas. De modo geral, utilizamos o gráfico de barras quando trabalhamos com variáveis categóricas, como no exemplo apresentado. Quando estamos diante de variáveis numéricas, podemos utilizar tanto o gráfico de barras (variáveis discretas), quanto o histograma (variáveis contínuas). A Figura 1.8 apresenta um gráfico de barras dos valores referentes à Tabela 1.1, além de um histograma gerado hipoteticamente, considerando o tempo de descolamento entre casa e trabalho dos 46 funcionários da mesma empresa. Ambos os gráficos foram elaborados no software RStudio. É possível exercitá-los ao final da seção.

Para a Estatística, o tempo, quando medido em escalas como horas, segundos e minutos, é uma variável contínua. No entanto, também pode se enquadrar como variável qualitativa ordinal, como os dias da semana. Dessa forma, não há um consenso único relacionado a esse tipo de variável. A sua classificação em quantitativa ou qualitativa vai variar em função da forma de representação e da finalidade de análise. No entanto, quando associamos uma variável de interesse ao tempo, temos a formação de uma série temporal, que se refere, portanto, a um conjunto de observações realizadas em um período específico. Existe, inclusive, uma disciplina que aborda exclusivamente o comportamento das variáveis em função do tempo, denominada Análise de Séries Temporais. Na Figura 1.9, temos a quantidade de energia consumida no setor comerciário do Brasil, de janeiro de 2015 a dezembro de 2019.

Aqui, é possível observar os três principais comportamentos de uma série temporal: tendência, sazonalidade e ciclo. A tendência é o comportamento da série no médio e longo prazo, podendo ser crescente, decrescente ou estável. A sazonalidade se refere a movimentos observados de forma repetida, com uma determinada periodicidade. Por fim, os ciclos estão relacionados aos períodos entre crescimento e queda do nosso conjunto de dados. No exemplo, a tendência observada é estável. A sazonalidade demonstra queda de consumo na metade do ano e crescimento entre os meses festivos (dezembro e janeiro). O ciclo de queda e crescimento leva em torno de um ano para se completar.
A série temporal faz parte de um conjunto mais amplo, denominado séries estatísticas, que podem ser definidas como conjuntos de dados que variam em função de um fator específico, como o próprio tempo, a localidade ou alguma outra característica de interesse. Dessa forma, além das séries temporais, também se destacam as séries geográficas, as séries específicas e as séries mistas.
As séries geográficas são aquelas que apresentam algum dado vinculado a uma localidade, como uma tabela com a população dos municípios em um estado ou dados referentes ao faturamento de filiais de uma empresa por cidade de instalação. As séries específicas, por outro lado, representam um conjunto de dados que varia em função de um fator de interesse, como a remuneração média por grau de escolaridade ou receita de bilheteria por filme lançado. Por fim, as séries mistas são aquelas que apresentam um conjunto de dados em função de duas ou mais variáveis, como localidade e ano. É o caso, por exemplo, da Tabela 1.2, que apresenta a evolução da inflação nos países do BRICS, composto Brasil, Rússia, Índia, China e África do Sul, no período de 2015 a 2019.
País | Inflação 2015 |
Inflação 2016 |
Inflação 2017 |
Inflação 2018 |
Inflação 2019 |
---|---|---|---|---|---|
Brasil Rússia Índia China África do Sul |
9,03% 15,53% 5,87% 4,51% 1,44% |
8,74% 7,04% 4,94% 6,59% 2,00% |
3,45% 3,68% 2,49% 5,18% 1,59% |
3,66% 2,88% 4,86% 4,50% 2,07% |
3,73% 4,47% 7,66% 4,12% 2,90% |
Nesse caso, é possível perceber que a série mista em questão se refere à junção de uma série temporal e uma série geográfica.
Reflita
Durante alguns instantes, pense em alguns exemplos relacionados às séries estatísticas mistas que estão envolvidos em seu dia a dia. Identifique quais são os tipos de dados e as demais séries que compõem o seu exemplo.
É hora de praticar! Veja, a seguir, o script utilizado para execução dos gráficos apresentados. Nele, podemos compreender como os insumos (dados) podem se tornar importantes fontes de informação, permitindo tomadas de decisões cada vez mais assertivas e embasadas.
Barplots e Histogramas
exemplo 1
Criando as variáveis Setor e Total de Funcionários
Gráfico de Barras Simples
Exemplo 2
Gerando uma amostra aleatória do tempo de trajeto até o trabalho
Histograma Simples
Série Temporal (ou Série Estatística)
Exemplo 3
Criando uma série temporal de consumo de energia
Gráfico da evolução do consumo ao longo do período
Gráfico do consumo acumulado no período
Agora faça você mesmo os testes utilizando o compilador que segue:
Com o término desta seção, demos mais um passo em nossa construção do conhecimento em Probabilidade e Estatística para Análise de Dados. Começamos a compreender alguns conceitos importantes, como amostra, amostragem e população, além de exercitarmos alguns exemplos práticos no R, com gráficos de frequência (barras e histograma) e evolução de séries temporais.
Faça valer a pena
Questão 1
A Estatística _________________ possui o objetivo de avaliar o comportamento de uma _________________ a partir da observação amostral. Por outro lado, a Estatística _________________ refere-se ao campo responsável pela organização e sumarização de dados, de modo a gerar as primeiras informações exploratórias de um conjunto.
Assinale a alternativa que preenche corretamente as lacunas na ordem apresentada.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
A Estatística Inferencial e a Estatística Descritiva são duas áreas de grande aplicabilidade na análise de Dados. Enquanto a Inferencial trabalha com questões relacionadas à interpretação do comportamento de uma população a partir de um conjunto amostral, a Descritiva aborda um conjunto de técnicas que permitem, como o próprio nome define, descrever um conjunto de dados, a partir de uma organização e sumarização. Por essa razão, o item correto é (I) Inferencial; (II) População; (III) Descritiva.
Questão 2
Um analista de dados está avaliando a quantidade de vendas de uma empresa. Para tanto, ele tem à disposição os dados diários do número de vendas realizadas de cinco unidades (A, B, C, D, E) no período de janeiro a dezembro de 2020. O objetivo é compreender as distribuições de vendas totais entre as cinco unidades, além de verificar o comportamento das vendas totais da empresa no ano de 2020.
A respeito das variáveis “Volume de Vendas”, “Tempo em Dias” e “Unidade de Vendas”, é correto afirmar que:
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
A questão aborda alguns conceitos relacionados aos tipos de variáveis. No exemplo apresentado, as unidades de vendas representadas pelas letras A, B, C, D, E referem-se a uma variável qualitativa. Apesar de as letras estarem sequenciadas, não existe relação de ordem entre elas. Elas representam, por exemplo, um conjunto de cidades, bairros, etc., ou seja, fatores relacionados a nomes. Por essa razão, “Unidades de Vendas” representa uma variável qualitativa nominal. Por outro lado, o “Volume de Vendas” é representado por uma contagem, que assumirá um valor inteiro dentro de um intervalo finito. Assim, trata-se de uma variável quantitativa discreta. Nesse sentido, a alternativa correta é “As variáveis “Unidade de Vendas” e “Volume de Vendas” correspondem, respectivamente, a variável qualitativa nominal e variável quantitativa discreta.”
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Questão 3
Uma analista de dados está avaliando a quantidade de afastamentos de uma empresa. Para tanto, ele tem à disposição os dados diários dos beneficiários afastados de quatro setores (Fábrica, Administrativo, Vendas e Marketing) no período de janeiro a dezembro de 2020. O objetivo é compreender as distribuições de afastamentos entre as cinco unidades, além de verificar o comportamento de todos os beneficiários da empresa no ano de 2020.
Considerando o objetivo da análise, dois possíveis gráficos recomendados seriam:
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Correto!
A questão apresenta uma continuidade do item anterior, abordando uma discussão em torno dos gráficos recomendados para os tipos de dados disponíveis. Podemos resumir os objetivos da análise a duas situações: 1. Avaliar as diferenças no total de afastamentos anuais entre os quatro setores; 2. Compreender o comportamento temporal total de afastamentos da empresa no ano de 2020. Desta forma, para o primeiro objetivo, estabeleceremos a relação entre duas variáveis: total colaboradores afastados em 2020 (variável quantitativa discreta) e Setor de Atividade (variável qualitativa nominal). Para o cumprimento dessa visualização, é suficiente realizarmos um gráfico de barras, com os setores no eixo x e o total de colaboradores afastados no eixo y. Por outro lado, ao consideramos o segundo objetivo, estamos diante de uma variável coletada diariamente ao longo de um período, ou seja, de uma série estatística. Para a visualização de uma série, é recomendada a realização de um Gráfico de Séries Temporais, com o total de afastamentos diários ou mensais no eixo y e o tempo no eixo x. Assim, considerando essas observações, o item correto é: Gráfico de Barras com o total mensal ou diário dos funcionários afastados no eixo y e os setores no eixo x; Gráfico de séries temporais com a evolução diária ou mensal do total de funcionários afastados da empresa (todos os setores).
Tente novamente...
Esta alternativa está incorreta, leia novamente a questão e reflita sobre o conteúdo para tentar outra vez.
Referências
AMERICAN STATISTICAL ASSOCIATION. What is Statistics? ASA, c2021. Disponível em: https://bit.ly/3qiy0JC. Acesso em: 3 jan. 2021.
BANCO MUNDIAL. World Bank Data Bank. World Development Indicators. The World Bank Group, c2021. Disponível em: https://bit.ly/2U1dBwU. Acesso em: 29 jan. 2021.
CAMPOS, G. M. Estatística prática para docentes e pós-graduandos. São Paulo: Faculdade de Odontologia de Ribeirão Preto, 2001.
CORDEIRO, G. M. História da Estatística. São Carlos: ICMC-USP, 2019.
IPEA DATA. Consumo de energia elétrica no setor comércio: quantidade. Boletim SIESE - Quadro: Consumo comercial de energia elétrica - Brasil.. Disponível em: https://bit.ly/3wSrax9. Acesso em: 2 jan. 2021.
JOHN, V. The Term "Statistics". Journal of the Statistical Society of London, v. 46, n. 4, p. 656-679, 1883.
LATORRE, M. R. D. O.; CARDOSO, M. R. A. Análise de séries temporais em epidemiologia: uma introdução sobre os aspectos metodológicos. Revista Brasileira de Epidemiologia, v. 4, n. 3, p. 145-152, 2001.
MEMÓRIA, J. M. P. Breve história da estatística. Área de Informação da Sede-Texto para Discussão (ALICE), 2004.
UNIVERSITY OF CALIFORNIA. What is Statistics? UCI, c2021. Disponível em: https://bit.ly/2SmQzA3. Acesso em: 3 jan. 2021.
UNIVERSITY OF IOWA. A Brief History of Statistics. Iowa City: Dale L. Zimmerman, 2017.
VAR, I. Multivariate data analysis. Vectors, v. 8, n. 2, p. 125-136, 1998.