Análisis de datos - data science
Ejercicio 1 - ¿hay una relación inversa entre la longitud de una palabra y su frecuencia absoluta en un corpus?
Es decir, ¿a mayor frecuencia de palabra menor longitud?
Para determinarlo hay que calcular la correlación. Se hará a continuación en R
y en
Python (pandas)
Los datos, que se refieren a formas y no a lemas, han sido tomados de http://corpus.rae.es/lfrecuencias.html y procesados.
R
if (!require("data.table")) install.packages("data.table")
library(data.table)
freq_data <- fread("src/CREA_total.tsv")
# filter
freq_data = subset(freq_data,freq_data$Frec.absoluta>=100)
# Create the predictor and response variable.
x <- nchar(freq_data$Forma)
y <- freq_data$Frec.normalizada
print("Correlación:")
cor(y, x)
Python
import pandas as pd
df = pd.read_csv('src/CREA_total.tsv', delimiter='\t')
# filter
df = df[df["Frec.absoluta"] >= 100]
# df = df[0:100000]
df['length'] = df.Forma.str.len()
corr = df['Frec.normalizada'].corr(df['length'])
print("Correlación: %s" % corr)
Resultado
cor = -0.05115404
El valor de la correlación es próximo a cero, luego no hay correlación. Para que se hubiera demostrado la
hipótesis inicial este valor debería ser próximo a -1
.