Matemática para Ciência de Dados

10 de janeiro de 202021 de fevereiro de 2020

A Ciência de Dados pode ser entendida como “Arte” de se extrair informações relevantes de um conjunto de dados. Nesse processo de extração das informações, uma classe muito importante de técnicas, além de visualizações e exploração, é a matemática. Conhecer o significado dos conceitos matemáticos empregados nos modelos de Aprendizagem de Máquina e não encará-los como meras caixas-pretas, potencializa de maneira significativa o trabalho de um cientista de dados. Quando em um projeto não houverem “receitas prontas” para a sua solução, adaptações ou até mesmo reformulações nas metodologias usuais serão necessárias. Para isso, como primeiro passo é preciso entender que todos os modelos estão fundamentados em conceitos matemáticos e até mesmo físicos (artigo interessante). Uma vez aceita essa, talvez para muitos, penosa verdade, estudar matemática para um cientista de dados passa a ser tão importante quanto dominar as linguagens de programação.

Assim, daremos início a um conjunto de posts relacionados aos princípios básicos da Estatística. Esse material representa um conjunto de resumos produzidos para alunos em disciplinas formais, então, sinta-se a vontade para sugerir melhorias ou correções.

0.1. Princípios de Contagem

Técnicas de contagem buscam determinar o número de elementos de um conjunto qualquer $A$. Para isso, destacam-se os princípios da adição e multiplicação.

Principio da Adição: Se $A$ é um conjunto com $p$ elementos e $B$ é um conjunto com com $q$ elementos, onde $A\cap B$=$\oslash$. O conjunto $A\cup B$ possuí $p+q$ elementos.
Principio da Multiplicação: Se uma decisão $D1$ pode ser tomada de $x$ maneiras diferentes e uma vez tomada, outra decisão $D2$ pode ser feita de $y$ maneiras diferentes. Então, o número de maneiras de se tomar $D1$e $D2$ decisões é $xy$.

0.1.1. Permutação

Permutar significa trocar. Num sentido mais simples dizemos que todos os elementos do conjunto $A=\{a_{0},a_{1},…,a_{n}\}$ devem ser utilizados em todas as trocas possíveis. Assim, uma \textbf{ permutação simples} representa o número de maneiras possíveis de se ordenar $n$ objetos de um conjunto $\{a_{0},a_{1},…,a_{n}\}$ com elementos distinguíveis.

\begin{equation}
P_{n}=n!
\end{equation}

quando há\textbf{ repetição} de objetos, isto implica que alguns elementos serão idênticos e portanto indistinguíveis.

\begin{equation}
P_{n}^{b_{0},b_{1},…}=\frac{n!}{b_{0}!b_{1}!…}
\end{equation}

onde $b_{n}$ representa o número de vezes que o elemento $a_{n}$ se repete .

Exemplo: Quantos anagramas podem ser formados com a palavra BANANA?
$P_{6}^{3,2}=\frac{6!}{3!2!}=60$.

Um outro tipo de permutação é a \textbf{permutação cíclica }onde $n$ objetos distintos são ordenados em uma sequência cíclica de $n$ lugares. Nesse caso, os agrupamentos serão distintos somente se houver alteração na posição relativa dos elementos entre si. Para ilustrar, com 4 crianças poderíamos formar $3!=6$ rodas de ciranda. Uma vez que há 1 modo de colocar a 1$^{a}$ criança na roda (único objeto no ciclo), 1 modo também de se colocar a 2$^{a}$ criança (o que importa é a posição relativa entre os objetos,i.e., $1-2\leftrightarrow2-1$) , 2 modos de se colocar a 3$^{a}$ criança na roda (1-3-2 ou 3-1-2$\leftrightarrow$1-2-3) e 3 modos de se colocar a 4$^{a}$ criança na roda ($1-2-3-4\leftrightarrow4-1-2-3,1-4-2-3,1-2 4-2$).
Então há $n-1$ maneiras de se colocar o n-ésimo objeto na sequência cíclica.

\begin{equation}
(PC)_{n}=(n-1)!
\end{equation}

0.1.2. Combinação

Enquanto que na permutação a ordenação dos elementos caracteriza-se como o principal aspecto, na combinação a ordem dos elementos distintos que formarão os agrupamentos não importa. Isto posto, em uma \textbf{combinação simples} descobrir o número de maneiras que podemos escolher $p$ elementos distintos entre $n$ possíveis é o mesmo que descobrir quantos subconjuntos podemos formar contendo $p$ elementos a partir do conjunto $\{a_{0},a_{1},…,a_{n}\}$ que contem $n$. elementos.

\begin{equation}
C_{n}^{p}=\frac{n!}{p!(n-p)!}
\end{equation}

1. Números Binomiais, Probabilidade e Passeio Aleatório

1.1. O Triângulo de Pascal

O triângulo de Pascal é um triângulo infinito formado pelo conjunto de coeficientes binomiais $C_{n}^{p}$ , ou equivalentemente, \begin{pmatrix}n\\p\end{pmatrix} ,dados pela equação $(4)$ onde cada elemento é disposto na linha $n$ e coluna $p$ com $n>p:$

$\begin{array}{ccccc}
C_{0}^{0}\\
C_{1}^{0} & C_{1}^{1}\\
C_{2}^{0} & C_{2}^{1} & C_{2}^{2}\\
C_{3}^{0} & C_{3}^{1} & C_{3}^{2} & C_{3}^{3}\\
C_{4}^{0} & C_{4}^{1} & C_{4}^{2} & C_{4}^{3} & C_{4}^{4}
\end{array}$$\longleftrightarrow\begin{array}{ccccc}
1\\
1 & 1\\
1 & 2 & 1\\
1 & 3 & 3 & 1\\
1 & 4 & 6 & 4 & 1
\end{array}$

Há algumas propriedades importantes dos números binomais que permitem a construção do triângulo de Pascal sem que todas as combinatórias sejam calculadas:

Relação de Stifel:
\begin{equation}
C_{n+1}^{p+1}=C_{n}^{p}+C_{n}^{p+1}
\end{equation}
Relação das Combinações Complementares:
\begin{equation}
C_{n}^{p}=C_{n}^{n-p}
\end{equation}
para $n$ inteiro e não-negativo.
Teorema das Linhas:

\begin{equation}
C_{n}^{0}+C_{n}^{1}+C_{n}^{2}+…+C_{n}^{n}=2^{n}
\end{equation}
Teorema das Colunas
\begin{equation}
C_{p}^{p}+C_{p+1}^{p}+C_{p+2}^{p}+…=C_{n+p}^{p}=C_{p+n+1}^{p+1}
\end{equation}

1.1.1. Aplicações

Uma utilidade dos teoremas acima listados está relacionada a sua aplicação na análise da convergência de somas que envolvam coeficientes binomiais.

Exemplo: Calcule a soma $S=\sum_{k=1}^{n}2.1^{2}+5.2^{2}+…+(3n-1).n^{2}$

$3k^{3}-k^{2}=Ak(k+1)(k+2)+Bk(k+1)+Ck+D$

$S=\frac{(n+1)n(9n^{2}+5n-2)}{12}$

1.2. O binômio de Newton

Pela simples regra dos produtos notáveis podemos escrever $(a+b)^{2}=a^{2}+2ab+b^{2}$,
ou ainda, $(a+b)^{3}=a^{3}+3a^{2}b+3ab^{2}+b^{3}$. Como generalização, para o desenvolvimento dos binômios $(a+b)^{n}$ utilizamos o método do binômio de Newton:

\begin{equation}
(x+a)^{n}=\sum_{k=0}^{n}(\begin{array}{c}
n\\
k
\end{array})a^{k}x^{n-k}
\end{equation}

onde facilmente verifica-se para $n=2$:

$\begin{array}{c}
(x+a)^{2}=(\begin{array}{c}
2\\
0
\end{array})a^{0}x^{2-0}+(\begin{array}{c}
2\\
1
\end{array})a^{1}x^{2-1}+(\begin{array}{c}
2\\
2
\end{array})a^{2}x^{2-2}=\\
=1x^{2}+2ax+a^{2}
\end{array}$

Doutro modo, observe que:

O desenvolvimento de $(x+a)^{n}$ possui $n+1$ termos.
Os coeficientes do desenvolvimento de $(x+a)^{n}$ são os elementos da linha $n$ do Triângulo de Pascal.
Em ordem decrescente segundo as potências de $x$ o termo geral de ordem $k+1$ (posição) é :

\begin{equation}
T_{k+1}=(\begin{array}{c}
n\\
k
\end{array})a^{k}x^{n-k}
\end{equation}

Como exemplo, para a expressão $(x+1)^{10}$ o termo em $x^{4}$ será obtido a partir de $(10)$ da seguinte maneira:

$T_{k+1}=(\begin{array}{c}
10\\
k
\end{array})1^{k}x^{10-k}$ e para obtermos $x^{4}\rightarrow k=6$, e então:

$T_{7}=(\begin{array}{c}
10\\
6
\end{array})1^{6}x^{4}=210x^{4}$.

1.3. Referências

MORGADO, A.C.O. et. al. — Análise Combinatória e Probabilidade.
SBM, 2016.

SALINAS,S.R.A. — Introdução à Física Estatística. EDUSP, 2013.

Estatística

Matemática para Ciência de Dados 2 : Probabilidade

Matemática para Ciência de Dados

Matemática para Ciência de Dados

Deixe uma resposta Cancelar resposta