2.7. Variáveis aleatórias multivariadas

As coisas começam a ficar mais interessantes quando consideramos mais de uma variável aleatória. Para que elas sejam consideradas juntas, é necessário que estejam definidas em um mesmo espaço de probabilidades. Isso aparece de forma natural, como veremos aqui.

Variáveis aleatórias multivariadas

Uma maneira de pensar uma coleção de variáveis aleatórias é como um vetor X=(X1,,Xn)X = (X_1, \ldots, X_n) (muitas vezes se considera um vetor coluna, na verdade) cujos elementos estão em um mesmo espaço de probabilidades, digamos (Ω,A,P).(\Omega, \mathcal{A}, \mathbb{P}). Os espaços de eventos podem ser diferentes, de forma que Σ=Σ1××Σn,\Sigma = \Sigma_1 \times \cdots \times \Sigma_n, com a σ\sigma-algebra E\mathcal{E} gerada por E1××En.\mathcal{E}_1 \times \cdots \times \mathcal{E}_n. Tal objeto é chamado de variável aleatória multivariada. E a probabilidade P\mathbb{P} é chamada de distribuição conjunta de probabilidades.

A partir da probabilidade conjunta, podemos obter as chances de certas combinações de eventos EEE \in \mathcal{E} acontecerem:

P(XE). \mathbb{P}(X \in E).

Quando o evento conjunto é da forma E=E1××En,E = E_1 \times \ldots \times E_n, podemos escrever

P(X1E1,,XnEn) \mathbb{P}(X_1 \in E_1, \ldots, X_n \in E_n)

Também podemos extrair a probabilidade de realização de um evento para apenas uma das variáveis, que é chamada de marginal.

P(XiEi). \mathbb{P}(X_i \in E_i).

Isso pode ser obtido da distribuição conjunta, considerando o evento E=Σ1×Σi1×Ei×Σi+1××Σn.\mathbb{E} = \Sigma_1 \times \ldots \Sigma_{i-1}\times E_i \times \Sigma_{i+1} \times \cdot \times \Sigma_n.

Exemplo

Por exemplo, considere um dado de quatro lados e um de seis. Ambos dados não viciados. Há 4×6=244 \times 6 = 24 combinações possíveis. O espaço amostral Ω\Omega deverá ter (pelo menos) 24 elementos, cada combinação com uma determinada probabilidade.

Podemos representar os resultado dos dados através de duas variáveis aleatórias, digamos XX e Y,Y, com XX para o resultado do lançamento do dado de quatro lados e Y,Y, para o de seis. Isoladamente, teríamos um espaço amostral de quatro elementos para XX e um de seis para Y.Y. Mas em conjunto, temos uma variável multivariada (X,Y)(X, Y) em um espaço amostral de 24 elementos. Mais explicitamente, podemos considerar

Ω=Σ={1,,4}×{1,,6}. \Omega = \Sigma = \{1, \ldots, 4\} \times \{1, \ldots, 6\}.

A probabilidade conjunta P\mathbb{P} é o que define a variável multivariada nos dando as probabilidades das realizações de cada combinação:

P(X=i,Y=j)=124,i=1,,4,  j=1,,6. \mathbb{P}(X = i, Y = j) = \frac{1}{24}, \qquad i = 1, \ldots, 4, \;j = 1, \ldots, 6.

A partir daí, podemos tirar as marginais:

P(X=i)=14,i=1,,4,P(Y=j)=16,j=1,,6. \mathbb{P}(X = i) = \frac{1}{4}, \quad i = 1, \ldots, 4, \qquad \mathbb{P}(Y = j) = \frac{1}{6}, \quad j = 1, \ldots, 6.

As marginais podem ser obtidas com a lei da probabilidade total, por exemplo,

P(X=i)=j=16P(X=i,Y=j)=j=16124=624=14. \mathbb{P}(X = i) = \sum_{j = 1}^6 \mathbb{P}(X = i, Y = j) = \sum_{j = 1}^6 \frac{1}{24} = \frac{6}{24} = \frac{1}{4}.

Independência

Duas variáveis aleatórias XX e YY gerando uma variável aleatória multivariada (X,Y)(X, Y) em um espaço (Ω,A,P)(\Omega, \mathcal{A}, \mathbb{P}) são ditas independentes quando a probabilidade conjunta é o produto das marginais:

P(XE1,YE2)=P(XE1)P(XE2). \mathbb{P}(X \in E_1, Y \in E_2) = \mathbb{P}(X \in E_1)\mathbb{P}(X \in E_2).

No caso de uma variável multivariada (X1,,Xn),(X_1, \ldots, X_n), dizemos que as variáveis XiX_i são (mutuamente) independentes quando

P(X1E1,,XnEn)=P(X1E1)P(XnEn). \mathbb{P}(X_1 \in E_1, \ldots, X_n \in E_n) = \mathbb{P}(X_1 \in E_1)\cdots \mathbb{P}(X_n \in E_n).

Analogamente no caso de uma coleção infinita {Xk}k\{X_k\}_k (enumerável ou não) de variáveis aleatórias em um mesmo espaço.

Essa propriedade pode ser usada diretamente na construção de variáveis multivariadas independentes!

Independência dois a dois

Dizemos que variáveis aleatórias X1,,XnX_1, \ldots, X_n definindo uma variável multivariada (X1,,Xn)(X_1, \ldots, X_n) são independentes duas a duas quando qualquer par (Xi,Xj)(X_i, X_j) é independente, i.e.

P(XiEi,XjEj)=P(XiEi)P(XjEj),ij. \mathbb{P}(X_i \in E_i, X_j \in E_j) = \mathbb{P}(X_i \in E_i)\mathbb{P}(X_j \in E_j), \qquad \forall i \neq j.

Observe que podemos ter um conjunto com mais de duas variáveis aleatórias cujas variáveis sejam independentes dois a dois, mas não mutuamente. De fato, considere três variáveis aleatórias X,X, YY e Z,Z, onde XX e YY são variáveis de Bernoulli independentes, com probabilidade de sucesso p=1/2,p = 1/2, e defina ZZ como sendo 1,1, caso os resultados de XX e YY sejam diferentes, e 0,0, caso os resultados sejam iguais. Podemos escrever isso como Z=X+Ymod  2,Z = X + Y \mod 2, com XX e YY assumindo valores 00 ou 1.1. Podemos pensar nisso como um checksum simples, ou um dígito verificador.

Nesse caso, XX e YY são independentes, XX e ZZ são independentes e YY e ZZ são independentes. Mas X,YX, Y e ZZ não são mutuamente independentes, já que ZZ está completamente determinado pelos resultados de XX e Y.Y.

Podemos mostrar isso mais explicitamente, através da distribuição conjunta de probabilidade, até mesmo para solidificar as ideias acima. A tabela abaixo nos dá a distribuição conjunta de probabilidades:

XYZProbabilidade
0001/4
1011/4
0101/4
1111/4

O espaço amostral pode ser tomado como sendo Ω={0,1}3.\Omega = \{0, 1\}^3. Acima, só mostramos as combinações com probabilidade positiva. Mas podemos completar o quadro:

XYZProbabilidade
0001/4
0010
1000
1011/4
0100
0111/4
1101/4
1110

Observe que

P(X=0)=P(Y=0)=P(Z=0)=14+14=12 \mathbb{P}(X = 0) = \mathbb{P}(Y = 0) = \mathbb{P}(Z = 0) = \frac{1}{4} + \frac{1}{4} = \frac{1}{2}

No entanto,

P(X=0,Y=0,Z=0)=0P(X=0)P(Y=0)P(Z=0). \mathbb{P}(X = 0, Y = 0, Z = 0) = 0 \neq \mathbb{P}(X = 0)\mathbb{P}(Y = 0)\mathbb{P}(Z = 0).

Da mesma forma, pode-se verificar que as variáveis são independentes duas a duas.

Desigualdade maximal de Kolmogorov

Como uma aplicação interessante, considere nn variáveis aleatórias independentes X1,,XnX_1, \ldots, X_n com E[Xk]=0,\mathbb{E}[X_k] = 0, k=1,,n,k = 1, \ldots, n, e defina

Sk=j=1kXj, S_k = \sum_{j=1}^k X_j,

com S0=0.S_0 = 0. Estamos interessados em estimar

P(max1kn{Sk}r), \mathbb{P}\left(\max_{1\leq k \leq n} \{S_k\} \geq r\right),

para r0r \geq 0 arbitrário. Para isso, usamos a decomposição

{max1kn{Sk}r}={S1r}{S1<r,S2r}{S1<r,Sn1<r,Snr}. \left\{\max_{1\leq k \leq n} \{S_k\} \geq r\right\} = \left\{S_1 \geq r\right\} \bigcup \left\{S_1 < r, S_2 \geq r\right\} \bigcup \cdots \bigcup \left\{S_1 < r, \ldots S_{n-1} < r, S_n \geq r\right\}.

Denotamos

Ak={S1<r,Sk1<r,Skr}. A_k = \left\{S_1 < r, \ldots S_{k-1} < r, S_k \geq r \right\}.

Como as uniões são disjuntas,

P(max1kn{Sk}r)=P(A1)+P(A2)++P(An) \mathbb{P}\left(\max_{1\leq k \leq n} \{S_k\} \geq r\right) = \mathbb{P}\left(A_1\right) + \mathbb{P}\left(A_2\right) + \cdots + \mathbb{P}\left(A_n\right)

Usando a desigualdade de Chebyshev,

P(Ak)=E[χAk]1r2E[Sk2χAk]1r2E[(Sk2+(SnSk)2)χAk]. \mathbb{P}\left(A_k\right) = \mathbb{E}[\chi_{A_k}] \leq \frac{1}{r^2}\mathbb{E}[S_k^2 \chi_{A_k}] \leq \frac{1}{r^2} \mathbb{E}[(S_k^2 + (S_n - S_k)^2) \chi_{A_k}].

Como as variáveis Xk,X_k, k=1,,n,k=1, \ldots, n, são independentes, temos que

Sk=1jkXjeSnSk=k<jnXj S_k=\sum_{1\leq j \leq k} X_j \qquad \textrm{e} \qquad S_n - S_k = \sum_{k < j \leq n} X_j

são independentes entre si. Além disso, χAk\chi_{A_k} só envolve os processos X1,,Xk,X_1, \ldots, X_k, sendo também independente de SnSk.S_n - S_k. Desse modo,

Cov(SkχAk,SnSk)=0 \mathrm{Cov}\left(S_k\chi_{A_k}, S_n - S_k\right) = 0

e

E[SkχAk(SnSk)]=Cov(SkχAk,SnSk)+E[SkχAk]E[SnSk]=E[SkχAk]E[SnSk]. \mathbb{E}[S_k\chi_{A_k}(S_n - S_k)] = \mathrm{Cov}\left(S_k\chi_{A_k}, S_n - S_k\right) + \mathbb{E}\left[S_k\chi_{A_k}\right]\mathbb{E}\left[S_n - S_k\right] = \mathbb{E}\left[S_k\chi_{A_k}\right]\mathbb{E}\left[S_n - S_k\right].

Observe que SkrS_k \geq r em Ak,A_k, logo

E[SkχAk]r, \mathbb{E}\left[S_k\chi_{A_k}\right] \geq r,

mas

E[SnSk]=0, \mathbb{E}\left[S_n - S_k\right] = 0,

de maneira que

E[SkχAk(SnSk)]=0. \mathbb{E}[S_k\chi_{A_k}(S_n - S_k)] = 0.

Assim, podemos completar os quadrados e escrever

E[(Sk2+(SnSk)2)χAk]=E[(Sk2+2Sk(SnSk)+(SnSk)2)χAk]=E[(Sk+(SnSk))2χAk]=E[Sn2χAk]. \begin{align*} \mathbb{E}[(S_k^2 + (S_n - S_k)^2) \chi_{A_k}] & = \mathbb{E}[(S_k^2 + 2S_k(S_n - S_k) + (S_n - S_k)^2)\chi_{A_k}] \\ & = \mathbb{E}[(S_k + (S_n - S_k))^2\chi_{A_k}] \\ & = \mathbb{E}[S_n^2\chi_{A_k}]. \end{align*}

Desta forma,

P(max1kn{Sk}r)1r2(E[Sn2χA1]++E[Sn2χAn])=1r2E[Sn2(χA1++χAn)]. \mathbb{P}\left(\max_{1\leq k \leq n} \{S_k\} \geq r\right) \leq \frac{1}{r^2}\left( \mathbb{E}[S_n^2\chi_{A_1}] + \cdots + \mathbb{E}[S_n^2\chi_{A_n}]\right) = \frac{1}{r^2}\mathbb{E}[S_n^2\left(\chi_{A_1} + \cdots + \chi_{A_n}\right)].

Como os conjuntos A1,,AnA_1, \ldots, A_n são disjuntos, temos

χA1++χAn=χA1An1, \chi_{A_1} + \ldots + \chi_{A_n} = \chi_{A_1 \cup \cdots \cup A_n} \leq 1,

de modo que

E[Sn2χA1An]E[Sn2]. \mathbb{E}[S_n^2\chi_{A_1 \cup \ldots \cup A_n}] \leq \mathbb{E}[S_n^2].

Como SnS_n também tem valor esperado nulo, o lado direito é igual à variância de Sn,S_n, nos levando à desigualdade final, conhecida como desigualdade de Kolmogorov:

P(max1kn{Sk}r)1r2Var(Sn2), \mathbb{P}\left(\max_{1\leq k \leq n} \{S_k\} \geq r\right) \leq \frac{1}{r^2}\mathrm{Var}\left(S_n^2\right),

para r>0r > 0 arbitrário.

Exercícios

  1. Considere um vetor aleatório (X1,,Xn)(X_1, \ldots, X_n) como na desigualdade maximal de Kolmogorov, com variáveis independentes e assuma, mais geralmente, que, para um dado mN,m\in\mathbb{N}, os momentos são finitos, i.e. E[Xkm]<,\mathbb{E}[X_k^{m}] < \infty, k=1,,n,k=1, \ldots, n, e que cada XkX_k é simétrico em relação à origem, ou seja, XkX_k e Xk-X_k tem a mesma distribuição. Modifique a demonstração acima da desigualdade maximal de Kolmogorov para obter que

P(max1kn{Sk}r)1rmE[Snm], \mathbb{P}\left(\max_{1\leq k \leq n} \{S_k\} \geq r\right) \leq \frac{1}{r^{m}}\mathbb{E}\left[S_n^{m}\right],

para todo r>0r > 0 e todo inteiro mN.m\in\mathbb{N}.

Dicas:

(i) Substitua a desigualdade de Chebyshev por P(Ak)=E[χAk]1rmE[SkmχAk]. \mathbb{P}\left(A_k\right) = \mathbb{E}[\chi_{A_k}] \leq \frac{1}{r^{m}}\mathbb{E}[S_k^{m} \chi_{A_k}].

(ii) Escreva Snm=(Sk+(SnSk))m=i=0m(mi)Skmi(SnSk)i. S_n^{m} = (S_k + (S_n - S_k))^{m} = \sum_{i=0}^{m} \left( \begin{matrix} m \\ i \end{matrix}\right)S_k^{m - i}(S_n - S_k)^{i}.

(iii) Quando ii é ímpar, segue da simetria de cada XjX_j que SnSkS_n - S_k também é simétrico em relação a origem e, portanto, E[(SnSk)i]=0.\mathbb{E}\left[(S_n - S_k)^i\right] = 0. Além disso, SnSkS_n - S_k é independente de SkmiχAk.S_k^{m - i}\chi_{A_k}. Assim, E[Skmi(SnSk)iχAk]=E[SkmiχAk]E[(SnSk)i]=0.\mathbb{E}[S_k^{m - i}(S_n - S_k)^{i} \chi_{A_k}] = \mathbb{E}[S_k^{m - i}\chi_{A_k}]\mathbb{E}[(S_n - S_k)^{i}] = 0.

(iv) Quando ii é par, temos (SnSk)i0.(S_n - S_k)^i \geq 0. Além disso, Skr>0S_k \geq r > 0 em Ak,A_k, de modo que SkmiχAk0.S_k^{m - i}\chi_{A_k} \geq 0. Portanto, E[Skmi(SnSk)iχAk]0.\mathbb{E}[S_k^{m - i}(S_n - S_k)^{i} \chi_{A_k}] \geq 0.

(v) Mantendo apenas o termo i=0i=0 e descartando os outros que se anulam ou são não-negativos, obtemos E[SnmχAk]E[SkmχAk].\mathbb{E}[S_n^{m} \chi_{A_k}] \geq \mathbb{E}[S_k^{m}\chi_{A_k}].

(vi) Isso nos dá que P(Ak)=E[χAk]1rmE[SkmχAk]1rmE[SnmχAk].\mathbb{P}\left(A_k\right) = \mathbb{E}[\chi_{A_k}] \leq \frac{1}{r^{m}}\mathbb{E}[S_k^{m} \chi_{A_k}] \leq \frac{1}{r^{m}}\mathbb{E}[S_n^{m} \chi_{A_k}].

(vii) Somando em k=1,,nk=1, \ldots, n e usando que os conjuntos A1,,AnA_1, \ldots, A_n são disjuntos, como na demonstração acima, obtemos, finalmente, a desigualdade desejada.

  1. Sob as condições do exercício anterior, assume, ainda, que E[eXk]<,\mathbb{E}[e^{X_k}] < \infty, para todo k=1,,n.k=1, \ldots, n. Mostre que

P(max1kn{Sk}r)eλrE[eλSn], \mathbb{P}\left(\max_{1\leq k \leq n} \{S_k\} \geq r\right) \leq e^{-\lambda r}\mathbb{E}\left[e^{\lambda S_n}\right],

para r>0r > 0 e λ0\lambda \geq 0 quaisquer. Dica: use o resultado anterior em uma série de potências.



Last modified: July 20, 2025. Built with Franklin.jl, using the Book Template.