Comprender la estadĂstica es una de las habilidades fundamentales que se requieren para el análisis cuantitativo, se tratan dos conceptos básicos distribuciĂłn y probabilidad, ambos conceptos están estrechamente relacionados, el concepto de probabilidad nos brinda un soporte para los cálculos matemáticos y las distribuciones nos ayudan a visualizar lo que está sucediendo con los datos.
Distribución de frecuencia e histograma🦖
Comencemos por la parte más sencilla, una distribuciĂłn es simplemente una manera de describir el patrĂłn de los datos, ejemplo simple pensamos en los rendimientos diarios de una acciĂłn en bolsa o en los resultados de un backtest, estos retornos son nuestros datos de muestra, para tener una visiĂłn más clara a estos rendimientos o rentabilidades podemos clasificarlos en intervalos de igual tamaño y contar el nĂşmero de observaciones de cada intervalo, si representamos estos resultados en un gráfico obtendremos lo que en estadĂstica se llama un histograma de frecuencias, los histogramas nos permiten tener un panorama general de cĂłmo se han distribuido los retornos.
Además, a partir de esta distribución de frecuencias podremos conocer sus medidas de tendencia central de nuestra muestra.
– El valor que está en el centro de nuestro histograma nos indica la media aritmética de los datos (el rendimiento medio).
– La mediana parte la distribución en dos dejando la misma cantidad de valores a un lado que a otro.
TambiĂ©n podremos ver quĂ© tan variables han sido los resultados medidas de dispersiĂłn, la volatilidad de los retornos se mide con la desviaciĂłn estándar o desviaciĂłn tĂpica, por Ăşltimo tambiĂ©n podremos ver la forma que tiene la distribuciĂłn, si es una distribuciĂłn simĂ©trica, si tiene colas más gordas lĂ©ase resultados más extremos de lo que deberĂa, etc.
Vamos a ver estas caracterĂsticas con mayor detalle, caracterĂsticas de una distribuciĂłn🔥
AsimetrĂa estadĂstica
Un aspecto muy importante es la simetrĂa de la distribuciĂłn, si una distribuciĂłn es simĂ©trica, existe el mismo nĂşmero de valores a la derecha que a la izquierda de la media, por tanto, el mismo nĂşmero de desviaciones con signo positivo que con signo negativo, decimos que hay asimetrĂa positiva o a la derecha si la cola a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha, diremos que hay asimetrĂa negativa o a la izquierda si la cola a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.
Cuando hablamos de sistemas de trading, un sistema puede tener una asimetrĂa negativa o positiva segĂşn cĂłmo sean sus caracterĂsticas, para mĂ, el ejemplo más evidente es cuando analizamos la distribuciĂłn entre los resultados de un sistema tendencial comparado a los resultados de un sistema de reversiĂłn a la media, en el primer caso, nuestra muestra tendrĂa una simetrĂa positiva cuando acierta gana mucho y los retornos se alejan del valor medio media, cuando no acierta pierde poco y los valores a la izquierda de la media no están muy alejados de esta, en el segundo caso serĂa a la inversa.
Curtosis
La curtosis es una medida estadĂstica que determina el grado de concentraciĂłn de los valores de una distribuciĂłn alrededor de su media, el coeficiente de curtosis indica si la distribuciĂłn tiene colas «pesadas», es decir, si los valores extremos concentran o no una alta frecuencia. El coeficiente mide el «grado de apuntamiento o achatamiento de las colas» respecto a la distribuciĂłn normal, entonces, si tomamos la distribuciĂłn normal como referencia, una distribuciĂłn puede ser leptocĂşrtica, platicĂşrtica o mesocĂşrtica.
DistribuciĂłn de probabilidad
Hasta aquĂ simplemente hemos estados analizando los datos de nuestra muestra en el ejemplo, los resultados de las operaciones utilizando estadĂstica descriptiva, sin embargo, tal y como comentábamos en nuestro sobre las series temporales y la inversiĂłn cuantitativa, cuando trabajamos con los datos buscamos algo más que simplemente describirlos, buscamos poder predecir cĂłmo se comportará esa serie de datos en el futuro, para esto echamos mano de la teorĂa de la probabilidad y la estadĂstica inferencial, a partir los resultados de una muestra, buscamos extraer conclusiones para el total de la poblaciĂłn, existen numerosos tipos de distribuciĂłn de variables, solo nos vamos a ocupar de la distribuciĂłn normal, que es el tipo de distribuciĂłn más conocido y sobre el que se asientan la mayorĂa de modelos de probabilidad, para describirla solo se necesitan dos parámetros la media aritmĂ©tica que define el valor central y la desviaciĂłn estándar que describe el ancho de la campana.
Antes comentaba que para modelizar el riesgo lo único necesario es conocer la media y la desviación estándar, esto es asà porque la distribución de probabilidad asigna una probabilidad a cada posible resultado de un experimento, la función de probabilidad que se mencionaba antes en el extracto es un concepto matemático que nos permite utilizar el área debajo de la curva para representar el espacio de probabilidad, podemos entender intuitivamente que aquellos valores que están más distantes de la media se repiten con menos frecuencia, mientras que aquellos valores más cercanos a la media son mucho más frecuentes, de esta forma se pueden definir intervalos de probabilidad dentro de los cuales podremos encontrar la rentabilidad del total de la muestra., este tipo de análisis es el que utiliza el modelo de VaR (Value at risk) para evaluar la probabilidad del riesgo de una inversión.
La volatilidad, que en este caso está medida por el valor de la desviación estándar, es una medida de incertidumbre riesgo, esta incertidumbre está relacionada con la probabilidad de obtener un rendimiento que sea igual al rendimiento esperado la media, como podemos ver en ejemplo de debajo, para el mismo rendimiento esperado, la curva se aplana cuando la volatilidad es más grande mientras que se vuelve más delgada y más alta cuando la volatilidad disminuye, un activo cuya rentabilidad tiene una desviación estándar más alta se considera más volátil, y por lo tanto, más arriesgado que un activo con una volatilidad más baja.
Otras notas🦖
Cuando hablamos de una distribuciĂłn de toda la poblaciĂłn, las propiedades media, desviaciĂłn tĂpica, etc, son parámetros, cuando hablamos de la distribuciĂłn de la muestra, las propiedades son estadĂsticas.
ÂżPor quĂ© utilizar distribuciones estadĂsticas para medir el riesgo, si al final los resultados no se ajustan a un modelo de distribuciĂłn?, porque estás trabajando con modelos, tener un marco teĂłrico en el que asentar una estrategia de inversiĂłn cuantitativa añade solidez al conjunto.