As coisas começam a ficar mais interessantes quando consideramos mais de uma variável aleatória. Para que elas sejam consideradas juntas, é necessário que estejam definidas em um mesmo espaço de probabilidades. Isso aparece de forma natural, como veremos aqui.
Uma maneira de pensar uma coleção de variáveis aleatórias é como um vetor X=(X1,…,Xn) (muitas vezes se considera um vetor coluna, na verdade) cujos elementos estão em um mesmo espaço de probabilidades, digamos (Ω,A,P). Os espaços de eventos podem ser diferentes, de forma que Σ=Σ1×⋯×Σn, com a σ-algebra E gerada por E1×⋯×En. Tal objeto é chamado de variável aleatória multivariada. E a probabilidade P é chamada de distribuição conjunta de probabilidades.
A partir da probabilidade conjunta, podemos obter as chances de certas combinações de eventos E∈E acontecerem:
P(X∈E).
Quando o evento conjunto é da forma E=E1×…×En, podemos escrever
P(X1∈E1,…,Xn∈En)
Também podemos extrair a probabilidade de realização de um evento para apenas uma das variáveis, que é chamada de marginal.
P(Xi∈Ei).
Isso pode ser obtido da distribuição conjunta, considerando o evento E=Σ1×…Σi−1×Ei×Σi+1×⋅×Σn.
Por exemplo, considere um dado de quatro lados e um de seis. Ambos dados não viciados. Há 4×6=24 combinações possíveis. O espaço amostral Ω deverá ter (pelo menos) 24 elementos, cada combinação com uma determinada probabilidade.
Podemos representar os resultado dos dados através de duas variáveis aleatórias, digamos X e Y, com X para o resultado do lançamento do dado de quatro lados e Y, para o de seis. Isoladamente, teríamos um espaço amostral de quatro elementos para X e um de seis para Y. Mas em conjunto, temos uma variável multivariada (X,Y) em um espaço amostral de 24 elementos. Mais explicitamente, podemos considerar
Ω=Σ={1,…,4}×{1,…,6}.
A probabilidade conjunta P é o que define a variável multivariada nos dando as probabilidades das realizações de cada combinação:
P(X=i,Y=j)=241,i=1,…,4,j=1,…,6.
A partir daí, podemos tirar as marginais:
P(X=i)=41,i=1,…,4,P(Y=j)=61,j=1,…,6.
As marginais podem ser obtidas com a lei da probabilidade total, por exemplo,
P(X=i)=j=1∑6P(X=i,Y=j)=j=1∑6241=246=41.
Duas variáveis aleatórias X e Y gerando uma variável aleatória multivariada (X,Y) em um espaço (Ω,A,P) são ditas independentes quando a probabilidade conjunta é o produto das marginais:
P(X∈E1,Y∈E2)=P(X∈E1)P(X∈E2).
No caso de uma variável multivariada (X1,…,Xn), dizemos que as variáveis Xi são (mutuamente) independentes quando
P(X1∈E1,…,Xn∈En)=P(X1∈E1)⋯P(Xn∈En).
Analogamente no caso de uma coleção infinita {Xk}k (enumerável ou não) de variáveis aleatórias em um mesmo espaço.
Essa propriedade pode ser usada diretamente na construção de variáveis multivariadas independentes!
Dizemos que variáveis aleatórias X1,…,Xn definindo uma variável multivariada (X1,…,Xn) são independentes duas a duas quando qualquer par (Xi,Xj) é independente, i.e.
P(Xi∈Ei,Xj∈Ej)=P(Xi∈Ei)P(Xj∈Ej),∀i=j.
Observe que podemos ter um conjunto com mais de duas variáveis aleatórias cujas variáveis sejam independentes dois a dois, mas não mutuamente. De fato, considere três variáveis aleatórias X, Y e Z, onde X e Y são variáveis de Bernoulli independentes, com probabilidade de sucesso p=1/2, e defina Z como sendo 1, caso os resultados de X e Y sejam diferentes, e 0, caso os resultados sejam iguais. Podemos escrever isso como Z=X+Ymod2, com X e Y assumindo valores 0 ou 1. Podemos pensar nisso como um checksum simples, ou um dígito verificador.
Nesse caso, X e Y são independentes, X e Z são independentes e Y e Z são independentes. Mas X,Y e Z não são mutuamente independentes, já que Z está completamente determinado pelos resultados de X e Y.
Podemos mostrar isso mais explicitamente, através da distribuição conjunta de probabilidade, até mesmo para solidificar as ideias acima. A tabela abaixo nos dá a distribuição conjunta de probabilidades:
X | Y | Z | Probabilidade |
---|
0 | 0 | 0 | 1/4 |
1 | 0 | 1 | 1/4 |
0 | 1 | 0 | 1/4 |
1 | 1 | 1 | 1/4 |
O espaço amostral pode ser tomado como sendo Ω={0,1}3. Acima, só mostramos as combinações com probabilidade positiva. Mas podemos completar o quadro:
X | Y | Z | Probabilidade |
---|
0 | 0 | 0 | 1/4 |
0 | 0 | 1 | 0 |
1 | 0 | 0 | 0 |
1 | 0 | 1 | 1/4 |
0 | 1 | 0 | 0 |
0 | 1 | 1 | 1/4 |
1 | 1 | 0 | 1/4 |
1 | 1 | 1 | 0 |
Observe que
P(X=0)=P(Y=0)=P(Z=0)=41+41=21
No entanto,
P(X=0,Y=0,Z=0)=0=P(X=0)P(Y=0)P(Z=0).
Da mesma forma, pode-se verificar que as variáveis são independentes duas a duas.
Como uma aplicação interessante, considere n variáveis aleatórias independentes X1,…,Xn com E[Xk]=0, k=1,…,n, e defina
Sk=j=1∑kXj,
com S0=0. Estamos interessados em estimar
P(1≤k≤nmax{Sk}≥r),
para r≥0 arbitrário. Para isso, usamos a decomposição
{1≤k≤nmax{Sk}≥r}={S1≥r}⋃{S1<r,S2≥r}⋃⋯⋃{S1<r,…Sn−1<r,Sn≥r}.
Denotamos
Ak={S1<r,…Sk−1<r,Sk≥r}.
Como as uniões são disjuntas,
P(1≤k≤nmax{Sk}≥r)=P(A1)+P(A2)+⋯+P(An)
Usando a desigualdade de Chebyshev,
P(Ak)=E[χAk]≤r21E[Sk2χAk]≤r21E[(Sk2+(Sn−Sk)2)χAk].
Como as variáveis Xk, k=1,…,n, são independentes, temos que
Sk=1≤j≤k∑XjeSn−Sk=k<j≤n∑Xj
são independentes entre si. Além disso, χAk só envolve os processos X1,…,Xk, sendo também independente de Sn−Sk. Desse modo,
Cov(SkχAk,Sn−Sk)=0
e
E[SkχAk(Sn−Sk)]=Cov(SkχAk,Sn−Sk)+E[SkχAk]E[Sn−Sk]=E[SkχAk]E[Sn−Sk].
Observe que Sk≥r em Ak, logo
E[SkχAk]≥r,
mas
E[Sn−Sk]=0,
de maneira que
E[SkχAk(Sn−Sk)]=0.
Assim, podemos completar os quadrados e escrever
E[(Sk2+(Sn−Sk)2)χAk]=E[(Sk2+2Sk(Sn−Sk)+(Sn−Sk)2)χAk]=E[(Sk+(Sn−Sk))2χAk]=E[Sn2χAk].
Desta forma,
P(1≤k≤nmax{Sk}≥r)≤r21(E[Sn2χA1]+⋯+E[Sn2χAn])=r21E[Sn2(χA1+⋯+χAn)].
Como os conjuntos A1,…,An são disjuntos, temos
χA1+…+χAn=χA1∪⋯∪An≤1,
de modo que
E[Sn2χA1∪…∪An]≤E[Sn2].
Como Sn também tem valor esperado nulo, o lado direito é igual à variância de Sn, nos levando à desigualdade final, conhecida como desigualdade de Kolmogorov:
P(1≤k≤nmax{Sk}≥r)≤r21Var(Sn2),
para r>0 arbitrário.
Considere um vetor aleatório (X1,…,Xn) como na desigualdade maximal de Kolmogorov, com variáveis independentes e assuma, mais geralmente, que, para um dado m∈N, os momentos são finitos, i.e. E[Xkm]<∞, k=1,…,n, e que cada Xk é simétrico em relação à origem, ou seja, Xk e −Xk tem a mesma distribuição. Modifique a demonstração acima da desigualdade maximal de Kolmogorov para obter que
P(1≤k≤nmax{Sk}≥r)≤rm1E[Snm],
para todo r>0 e todo inteiro m∈N.
Dicas:
(i) Substitua a desigualdade de Chebyshev por P(Ak)=E[χAk]≤rm1E[SkmχAk].
(ii) Escreva Snm=(Sk+(Sn−Sk))m=∑i=0m(mi)Skm−i(Sn−Sk)i.
(iii) Quando i é ímpar, segue da simetria de cada Xj que Sn−Sk também é simétrico em relação a origem e, portanto, E[(Sn−Sk)i]=0. Além disso, Sn−Sk é independente de Skm−iχAk. Assim, E[Skm−i(Sn−Sk)iχAk]=E[Skm−iχAk]E[(Sn−Sk)i]=0.
(iv) Quando i é par, temos (Sn−Sk)i≥0. Além disso, Sk≥r>0 em Ak, de modo que Skm−iχAk≥0. Portanto, E[Skm−i(Sn−Sk)iχAk]≥0.
(v) Mantendo apenas o termo i=0 e descartando os outros que se anulam ou são não-negativos, obtemos E[SnmχAk]≥E[SkmχAk].
(vi) Isso nos dá que P(Ak)=E[χAk]≤rm1E[SkmχAk]≤rm1E[SnmχAk].
(vii) Somando em k=1,…,n e usando que os conjuntos A1,…,An são disjuntos, como na demonstração acima, obtemos, finalmente, a desigualdade desejada.
Sob as condições do exercício anterior, assume, ainda, que E[eXk]<∞, para todo k=1,…,n. Mostre que
P(1≤k≤nmax{Sk}≥r)≤e−λrE[eλSn],
para r>0 e λ≥0 quaisquer. Dica: use o resultado anterior em uma série de potências.