Análisis de datos - data science

Ejercicio 1 - ¿hay una relación inversa entre la longitud de una palabra y su frecuencia absoluta en un corpus?

Es decir, ¿a mayor frecuencia de palabra menor longitud?

Para determinarlo hay que calcular la correlación. Se hará a continuación en R y en Python (pandas)

Los datos, que se refieren a formas y no a lemas, han sido tomados de http://corpus.rae.es/lfrecuencias.html y procesados.

R

if (!require("data.table")) install.packages("data.table")
library(data.table)

freq_data <- fread("src/CREA_total.tsv")
# filter
freq_data = subset(freq_data,freq_data$Frec.absoluta>=100)

# Create the predictor and response variable.
x <- nchar(freq_data$Forma)
y <- freq_data$Frec.normalizada

print("Correlación:")
cor(y, x)

Python

import pandas as pd

df = pd.read_csv('src/CREA_total.tsv', delimiter='\t')
# filter
df = df[df["Frec.absoluta"] >= 100]
# df = df[0:100000]

df['length'] = df.Forma.str.len()

corr = df['Frec.normalizada'].corr(df['length'])
print("Correlación: %s" % corr)

Resultado

cor = -0.05115404

El valor de la correlación es próximo a cero, luego no hay correlación. Para que se hubiera demostrado la hipótesis inicial este valor debería ser próximo a -1.