Cómo automatizar el procesado de datos de vacunaciones por CCAA
Actualmente para actualizar las vacunaciones por CCAA se sigue este proceso, como se describe en la wiki:
vas a los últimos commits de escovid19data del día https://github.com/montera34/escovid19data/commits/master y busca sel último de las vacunas. Por ejemplo: este: https://github.com/montera34/escovid19data/commit/73a62031dcc3b0fbe2f860d42973943a42c62a1d. Copia las filas en verde (las añadidas al final del archivo data/original/vacunas/estado_vacunacion_.csv) y pégalas en el archivo al final del archivo
data/original/spain/vacunaciones.csv
Pues bien, ha habido un cambio en el archivo estado_vacunacion_.csv
pues se ha añadido la columna "Total 1 vacuna".
Os cuento por qué falla el script que hace las gráficas. Para asignar el dato a la fecha uso la columna "Última fecha de actualización de datos", porque si usara la fecha de publicación "date_pub" creo que no sería correcto.
El problema es que los dato nos simpre se actualizan y un día la fecha de "Última fecha de actualización de datos" puede ser la misma que la siguiente, y eso da problemas a la hora de insertar los datos en la tabla con todos los datos de las CCAA (porque al hacer los merges solamente debe haber un dato por fecha).
Por eso cada día añado manualmente los nuevos datos de vacunaciones Y elimino la "Última fecha de actualización de datos" que esté repetida y me quedo con la última.
Para detectar duplicados se usa este script de R (al final de este archivo que procesa todos los datos):
spain_ccaa <- spain_ccaa %>% mutate(
dunique = paste0(date, ccaa)
)
n_occur <- data.frame(table(spain_ccaa$dunique))
print("qué CCAA y que fecha están duplicadas: ")
n_occur[n_occur$Freq > 1,]
Al añadir una nueva columna al dataset de vacunas hay que hacer ese proceso de nuevo (seguro que se puede automatizar), esto es, ver que filas comparten "Última fecha de actualización de datos" para una misma CCAA y quedarse con la última.
¿Se os ocurre cómo automatizar este proceso?