Matemática para Ciência de Dados 3: dinâmica estocástica e irreversibilidade
A compreensão de dinâmica estocástica e irreversibilidade é extremamente valiosa na ciência de dados, especialmente quando lidamos com problemas envolvendo incertezas e variações temporais nos dados. Essas ferramentas matemáticas permitem modelar fenômenos aleatórios e prever padrões futuros, sendo essenciais para análise de séries temporais, simulações e detecção de anomalias. Neste texto, exploraremos interativamente os conceitos centrais relacionados a esses tópicos e apresentaremos desafios práticos. Sinta-se à vontade para resolvê-los e utilizar outras fontes para aprofundar seu conhecimento.
1. Soma de variáveis aleatórias independentes
Uma variável aleatória $y$ que é a soma de outras duas VA’s independentes $x_{1}$e $x_{2}$com funções características $g_{1}(k)$ e $g_{2}(k)$ tem sua função característica expressa por:
$y=x_{1}+x_{2}$, então, $G(k)=<exp(ik(x_{1}+x_{2}))>=<exp(ikx_{1})><exp(ikx_{2})>=g_{1}(k)g_{2}(k)$.
Para o caso geral, com $N$ VA’s independentes:
(i)$\left\{ \begin{array}{c}y=x_{1}+x_{2}+x_{3}+…+x_{N}\\G(k)=g_{1}(k)g_{2}(k)g_{3}(k)…g_{N}(k)=\prod_{i}g_{i}(k)\end{array}\right\} $
Para a situação expressa acima temos:
(ii) $\kappa_{n}=\sum_{i}\kappa_{n}^{(i)}$
(iii) $<y>=\sum_{i}<x_{i}>$
(iv) $\sigma^{2}(y)=\sum_{i}\sigma_{i}^{2}(x_{i})$
a. Para a situação expressa em (i) se as $N$ VA’s independentes seguem
a mesma distribuição de probabilidades (IID), verifique os relações para $G(k)$, $\kappa_{n}$, $<y>$, $\sigma^{2}(y)$.
b. Pode-se representar uma sequência de $N$ ensaios de Bernoulli independentes, em que apenas dois eventos podem ocorrer (0,1) com probabilidades $p$ e $q$ respectivamente, a partir da VA $y$, onde, $y=x_{1}+x_{2}+…+x_{N}$. Nessas condições deduza as expressões para a função característica e para a distribuição de probabilidades da VA $y$.
2. Lei dos grandes números
Dada uma sequência de $N$ variáveis aleatórias independentes e identicamente distribuídas (IID) $x+x_{2}+…+x_{N}$ , i.e., com a mesma distribuição de probabilidade, a LGN diz:
$\begin{cases}\frac{1}{N}\sum_{i=1}^{N}x_{i}\rightarrow a & N\rightarrow\infty\end{cases}$
c. Uma possível forma de se verificar a LGN ocorre através do lançamento sequencial de um dado equilibrado de 6 lados, situação essa que pode ser facilmente simulada computacionalmente. Complete a tabela abaixo e perceba que quando $N\rightarrow\infty$, como consequência, $P(x=1)\rightarrow0,16666…$
$\begin{array}{ccc}Lançamentos & \#faces\quad1 & P(x=1)\\100\\1000\\10000\end{array}$
3. Teorema central do limite:
Para uma VA $z=\frac{1}{\sqrt{Nb}}(\sum_{i=1}^{N}x_{i}-Na)$, onde
$x_{i}$são VA IID com $<x_{i}>=a$ e $\sigma^{2}(x_{i})=<x_{i}^{2}>-<x_{i}>^{2}=b$.
A distribuição de probabilidades de $z$ é gaussiana quando $N\rightarrow\infty$:
$\rho(z)=\frac{1}{\sqrt{2\pi}}exp(-z^{2}/2$)
d. Utilize a aproximação de cumulantes $ln[g(k)]=\sum_{n}\frac{(ik)^{n}}{n!}\kappa_{n}$ e derive $G_{z}(k)$ e $\rho(z)$.
4. Passeio aleatório:
Um indivíduo se desloca sobre uma reta a partir da origem, dando passos de comprimento $(l)$ para a direita com probabilidade $p$, ou para a esquerda, com probabilidade $q=1-p$. Sua posição após $N=N_{1}+N_{2}$ passos será dada por $x=ml=(N_{1}-N_{2})l$ , onde $N_{1}=\#$passos para direita, $N_{2}=\#$passos para esquerda e $-N<m<N$.
A probabilidade de uma determinada sequência de $N$ passos com $N_{1}$passos para direita e $N_{2}$para a esquerda acontecer é dada por :
$(ppp…p)(qqq…q)=p^{N_{1}}q^{N_{2}}$.
Desse modo, o número de sequências possíveis desse tipo ($N_{1}$ passos para direita e $N_{2}$ para a esquerda) é dada pelo fator combinatório: $\frac{N!}{N_{1}!N_{2}!}$.
Então, a probabilidade de em $N$ passos, o indivíduo dar $N_{1}$ passos para direita e $N_{2}$para a esquerda é dada pela distribuição binomial:
$P_{N}(N_{1})=\frac{N!}{N_{1}!N_{2}!}p^{N_{1}}q^{N_{2}}=\frac{N!}{N_{1}!(N-N_{1})!}p^{N_{1}}q^{N-N_{1}}$.
É possível notar ainda que $\sum_{N_{1}}P_{N}(N_{1})=(p+q)^{N}=1$,ou seja, a distribuição já está normalizada, uma vez que $(p+q)=1$.
Como $m=N_{1}-N_{2}$e $N=N_{1}+N_{2}$ segue: $\frac{m+N}{2}=N_{1},\frac{N-m}{2}=N_{2}$ e, a probabilidade de após $N$ passos o caminhante ser encontrado na posição $m$ é reescrita na forma:
\begin{equation}P_{N}(m)=\frac{N!}{(\frac{m+N}{2})!(\frac{N-m}{2})!}p^{\frac{m+N}{2}}q^{\frac{N-m}{2}}\end{equation}
e. Derive a eq. (1) a partir do cálculo de $G_{n}(k)$ (método exposto no livro).
f. Calcule $<m>$e $\sigma^{2}(m)$.
Agora o problema do caminho aleatório é formulado por meio de uma equação estocástica (variáveis aleatórias) de diferenças discretas (mapas), onde cada passo do indivíduo em seu passeio é dado num intervalo de tempo $\tau$ , i.e., um problema de difusão. Note, então, que para $N$ passos o tempo total é $t=N\tau$.
g. Dada a afirmação: somente se o caminhante estiver na posição $x=(m-1)l$ ou $x=(m+1)l$ no tempo $t=N\tau$ é que ele poderá atingir a posição $x=ml$ no passo seguinte $t=(N+1)\tau$, condição essa expressa matematicamente por:
$P_{N+1}(m)=pP_{N}(m-1)+qP_{N}(m+1)$.
Verifique que a eq. (1) satisfaz essa condição.
h. Particularmente, para p = q = 1/2 (passeio isotrópico), tomando o limite do contínuo onde o tempo tende a zero, o comprimento dos passos tende a zero, e o número de passos tende ao infinito, derive a representação contínua para a equação de difusão.
i. Resolva a equação de difusão $\frac{\partial P}{\partial t}=D\frac{\partial^{2}P}{\partial x^{2}}$ utilizando as seguintes condições de contorno : $P(x,t)\rightarrow0$ quando $x\rightarrow\pm\infty$ para qualquer tempo e condição inicial
$P(x,0)=\delta(x)$.
R $P(x,t)=\frac{1}{\sqrt{2\pi\sigma^{2}(x)}}exp(-\frac{x^{2}}{2\sigma^{2}(x)})$;
$\sigma^{2}(x)=2Dt$.
6. Equação de Langevin:
Para Langevin o Movimento Browniano está sujeito a duas forças:
- Forças dissipativas: $-\alpha v$ ;
- Forças aleatórias de intensidade variável devido os impactos : $F_{a}(t)$;
Nessas condições:
\begin{equation}m\frac{dv}{dt}=-\alpha v+F_{a}(t)\end{equation}
A força $F_{a(}(t)$ possuí duas propriedades: (i) média devido as colisões é nula $<F_{a}(t)>=0$, (ii) impactos são independentes $<F_{a}(t)F_{a}(t’)>=B\delta(t-t’)$.
Redefinindo $\gamma=\frac{\alpha}{m}$ e $\varsigma(t)=\frac{F_{a}(t)}{m}$ temos a equação de Langevin:
\begin{equation}\frac{dv}{dt}=-\gamma v+\varsigma(t)\end{equation}
Onde $\varsigma(t)$ é uma variável estocástica dependente do tempo também chamada de ruído que obedece as seguintes propriedades: $<\varsigma(t)>=0$,
$<\varsigma(t)\varsigma(t’)>=\varGamma\delta(t-t’)$.
O movimento browniano é responsável pela difusão: assim, é possível derivar esse comportamento também através da equação de difusão (ou equação de calor), $\frac{\partial\rho}{\partial t}=D\frac{\partial^{2}\rho}{\partial x^{2}}$. Onde $\rho$ poderia ser a concentração de uma nuvem de partículas brownianas.
j. Verifique a solução da equação (3) para $v(0)=v_{0}$. Após calcule $\sigma^{2}(v)$ e o valor da velocidade quadrática média no regime estacionário.
l. Use a linearidade da média e explique a relação $<v>=0$ no regime estacionário ($t\rightarrow\infty)$.
m. Use o teorema da equipartição e determine um valor para a variável $\varGamma$ em termos dos outros parâmetros do modelo. Pense em $\varGamma$ como um medida da “intensidade” da força aleatória.
n. Derive a relação $\sigma^{2}(x)=\frac{\varGamma}{\gamma^{2}}(t-\frac{2}{\gamma}(1-e^{-\gamma t})+\frac{1}{2\gamma}(1-e^{-2\gamma t}))$ e tome seu limite para $t$ grande. A partir da expressão $\sigma^{2}(x)=2Dt$ obtenha a relação de Sutherland-Einstein para o coeficiente de difusão e interprete seu valor.
7. Distribuição de probabilidades:
Assim como $\varsigma(t)$ , $v(t)$ também é uma VA. Uma das diferenças entre elas é que previamente conhecemos a distribuição de probabilidades de $\varsigma(t)$ e no caso de $v(t)$ devemos descobri-la. Para isso discretizamos o tempo em intervalos de tempo $\tau$ de modo que $t=n\tau$. Assim reescrevemos a eq. $(3)$:
\begin{equation}v_{n+1}=av_{n}+\sqrt{\tau\varGamma}\xi_{j}\end{equation}
onde $a=(1-\tau\gamma)$ e as VA’s $\xi_{j}$ seguem as propriedades: $<\xi_{j}>=0$ ; $<\xi_{j}\xi_{k}>=\delta_{jk}$ .
o. Demonstre a relação $\varsigma(t)\thickapprox\sqrt{<\varsigma^{2}(t)>}=\sqrt{\frac{\varGamma}{\tau}}$.
p. Utilize a relação do item anterior e o método de Euler para obter a equação (4).
q. Assumindo que $\xi$ possuí distribuição gaussiana de média 0 e
variância 1 $N(0,1)$, obtenha a distribuição de probabilidades da Va $v_{n}$ e tome o limite do contínuo.
r. Utilize o mesmo método do exercício anterior e derive a distribuição de probabilidades das posições.
8. Evolução temporal dos momentos:
Uma equação de Langevin genérica: $\frac{dx}{dt}=f(x)+\varsigma(t)$ pode ser entendida como uma equação estocástica, pois cada uma das suas variáveis possuí uma distribuição de probabilidades dependente do tempo. Assim, resolver a eq. de Langevin significa determinar $P(x,t)$ para cada $t>0$, dada a condição inicial $P(x,0)$. Se no instante inicial a partícula está localizada na posição $x_{0}$, por consequência, $P(x,0)=\delta(x-x_{0}).$ Alternativamente, também é possível determinar todos os momentos da VA $x_{l}=\mu(t)$.
s. O que siginifica dizer que a VA $\varsigma(t)$ é um ruído branco?
t. Discretize a equação $\frac{dx}{dt}=f(x)+\varsigma(t)$ em intervalos de tempo iguais $\tau$ considerando $\varsigma(t)$ como um ruído branco. Após, obtenha a expressão geral para a evolução temporal do l-ésimo momento.
u. Para $f(x)=constante$ e condição inicial $<x>=x_{0}$, $<x^{2}>=x_{0}^{2}$ . Calcule através da evolução dos momentos uma expressão para $\sigma^{2}(x)$. Você consegue ver alguma relação com o passeio aleatório ?
v. Deduza a expressão $\frac{d}{dt}<x^{2}>=2<xv>$.