Tempo de resposta (A) | Freq |
---|---|
69 | 2 |
70 | 7 |
71 | 1 |
Considere os seguintes valores das variáveis X, Y e Z:
Note que a média aritmética de cada variável é igual a 70.
Note que o conjunto x é mais homogêneo que os conjuntos y e z.
Note que y é mais homogêneo que o conjunto z, pois há menor diversificação entre cada um dos valores e a média.
As medidas de tendência central são tanto mais descritivas de um conjunto de dados quanto menor for a variabilidade.
Considere dois servidores, A e B, que processam requisições. Ambos têm o mesmo tempo (segundos) médio, 70 segundos.
Tempo de resposta (A) | Freq |
---|---|
69 | 2 |
70 | 7 |
71 | 1 |
Tempo de resposta (B) | Freq |
---|---|
68 | 2 |
69 | 1 |
70 | 2 |
71 | 2 |
72 | 2 |
73 | 1 |
Mesmo que ambos os servidores tenham o mesmo tempo médio de resposta, o Servidor B mostra uma maior variabilidade nos tempos de resposta
Essa variabilidade pode impactar a consistência da experiência do usuário, especialmente em sistemas que exigem tempos de resposta previsíveis.
As medidas de dispersão são fundamentais na estatística descritiva, pois indicam o quanto os dados estão espalhados ou concentrados em torno de um valor central (como a média ou a mediana).
Elas são essenciais para entender a variabilidade dos dados
A medida mais simples de variabilidade é amplitude \(\mbox{Amplitude} = \mbox{maior valor} - \mbox{menor valor}\)
Em uma análise de tempo de resposta de servidores, a amplitude pode indicar a diferença entre o tempo mais rápido e o mais lento de resposta.
X | fa | fr | Fa | Fr |
---|---|---|---|---|
35 | 1 | 0.05 | 1 | 0.05 |
36 | 6 | 0.30 | 7 | 0.35 |
37 | 9 | 0.45 | 16 | 0.80 |
38 | 2 | 0.10 | 18 | 0.90 |
39 | 1 | 0.05 | 19 | 0.95 |
40 | 1 | 0.05 | 20 | 1.00 |
X | (34,36] | (36,38] | (38,40] | (40,42] | (42,44] | (44,46] | (46,48] | (48,50] |
PM | 35 | 37 | 39 | 41 | 43 | 45 | 47 | 49 |
fa | 3 | 10 | 9 | 5 | 12 | 2 | 8 | 1 |
fr | 0.06 | 0.20 | 0.18 | 0.10 | 0.24 | 0.04 | 0.16 | 0.02 |
Fa | 3 | 13 | 22 | 27 | 39 | 41 | 49 | 50 |
Fr | 0.06 | 0.26 | 0.44 | 0.54 | 0.78 | 0.82 | 0.98 | 1.00 |
Um problema com as medidas de dispersão anteriores, como a amplitude e o intervalo interquartil, é que elas consideram apenas as diferenças entre valores em determinadas posições quando os dados são ordenados.
Existem medidas que indica a variabilidade de uma variável levando em conta todos os seus valores.
Considere o tempo (segundos) de cinco tarefas realizadas por um CPU \((x: 3, 6, 5, 7, 9)\). Calcule a variância.
Obtenha a média, ou seja, 6.
Observação (\(x\)) | \((x-\bar{x})\) | \((x-\bar{x})^2\) |
---|---|---|
3 | (3-6=-3) | \((-3)^2=9\) |
6 | (6-6=0) | 0 |
5 | (5-6=-1) | 1 |
7 | (7-6=1) | 1 |
9 | (9-6=3) | 9 |
Total | 0 | 20 |
Divida 20 por \(n-1\), ou seja, \(5-1=4\). Portanto, \(S^2=\dfrac{20}{4}=5 segundos^2\)
Uma interpretação prática será visto juntamente com o conceito de desvio padrão
X | fa | fr | Fa | Fr |
---|---|---|---|---|
35 | 1 | 0.05 | 1 | 0.05 |
36 | 6 | 0.30 | 7 | 0.35 |
37 | 9 | 0.45 | 16 | 0.80 |
38 | 2 | 0.10 | 18 | 0.90 |
39 | 1 | 0.05 | 19 | 0.95 |
40 | 1 | 0.05 | 20 | 1.00 |
X | (34,36] | (36,38] | (38,40] | (40,42] | (42,44] | (44,46] | (46,48] | (48,50] |
PM | 35 | 37 | 39 | 41 | 43 | 45 | 47 | 49 |
fa | 3 | 10 | 9 | 5 | 12 | 2 | 8 | 1 |
fr | 0.06 | 0.20 | 0.18 | 0.10 | 0.24 | 0.04 | 0.16 | 0.02 |
Fa | 3 | 13 | 22 | 27 | 39 | 41 | 49 | 50 |
Fr | 0.06 | 0.26 | 0.44 | 0.54 | 0.78 | 0.82 | 0.98 | 1.00 |
As unidades elevadas ao quadrado associadas à variância tornam difícil obter uma compreensão e uma interpretação intuitiva do valor numérico da variância;
Considere o tempo (segundos) de processamento do Servidor A
[1] 26 36 35 30 24 35 34 34 34 28 34 37 30 25 34 34 28 38 26 32
Desvio padrão amostral é dado por \(s = \sqrt{s^2}\).
Considerando os salários iniciais dos graduados, tem-se que o desvio padrão dos tempos de procesamentos é de \(s=\) 4.244
Portanto, os valores dos tempos estão em torno de uma média amostral (\(\bar{x}\)) com desvio \(s\), isto é, \(\bar{x}\pm s\). Portanto 31.7 \(\pm\) 4.244 segundos
Para calcular o desvio padrão no R usamos: sd(x)
Um desvio padrão pode ser considerado grande ou pequeno dependendo da ordem de grandeza da variável.
Uma maneira de se expressar a variabilidade dos dados tirando a influência da ordem de grandeza da variável é através do coeficiente de variação.
Interpretado como a variabilidade dos dados em relação à média. Quanto menor o CV mais homogêneo é o conjunto de dados.
O fato de o coeficiente de variação ser dado em valor relativo nos permite comparar conjuntos de valores que apresentam unidades de medida distintas.
Suponha que você tenha medido o tempo de execução (em milissegundos) de dois algoritmos de ordenação, Algoritmo A e Algoritmo B, em várias execuções com o mesmo conjunto de dados. Os tempos de execução foram registrados como segue:
Algoritmo A: Tempos de execução: 15, 16, 15, 17, 14, 16, 15 ms
Algoritmo B: Tempos de execução: 45, 47, 44, 46, 45, 48, 46 ms
O Algoritmo A tem um CV de aproximadamente 6.33%, enquanto o Algoritmo B tem um CV de aproximadamente 2.93%.
Isso indica que o Algoritmo B possui uma variabilidade menor em relação ao seu tempo de execução médio, sendo mais consistente do que o Algoritmo A.
A análise do coeficiente de variação é útil para comparar a consistência de desempenho dos algoritmos, independentemente das unidades de medida.