Datos de COVID-19 por Estado en México

Tratando de ayudar a quien le puedan ser útiles estos datos ya que los formatos en que Secretaría de Salud los ha estado publicando no son los mejores para análisis y visualización.

Los siguientes datos son “semioficiales” ya que son extraídos del mapa de México en el sitio del Sistema Nacional de Vigilancia Epidemiológica. Los datos son almacenados tal como se extraen del mapa y luego son procesados para generar archivos en un formato similar a los publicados en el repositorio de Johns Hopkins.

  • Reporte diario contiene un archivo CSV por día con los números a la fecha, por estado, con las siguientes columnas:
    • Casos probables
    • Casos confirmados
    • Casos descartados
    • Fallecimientos
  • Series de Tiempo contiene archivos CSV con datos agregados en forma de series de tiempo (un día por columna) por cada Estado, para cada una de las categorías:
  • Series de Tiempo con datos adicionales contiene archivos equivalentes a los mencionados arriba pero con tres días anteriores agregados del repositorio de @wallyqs. Los datos scrapeados por este proyecto los voy a mantener en el directorio original.
  • Datos originales contiene una copia de los datos tal como fueron extraídos del mapa. La última versión del archivo se guarda con ‘latest’ y las versiones anteriores se pueden acceder mediante commits anteriores. Hasta el 2020-04-05 se guardaba un archivo con timestamp: el nombre es un timestamp del momento de la extracción.

Los datos son extraídos automáticamente 2 veces al día esperando tener los mas actualizados lo antes posible.

Repositorio en Github

Directorio de repositorios de datos sobre COVID-19 en México

Estoy manteniendo este directorio de recursos y datos sobre COVID-19 en México con el fin de apoyar a quienes quieren usarlos para análisis, visualización o simplemente para aprender. Hasta el día de ayer, 13 de Abril, los datos oficiales se estaban publicando en documentos PDF en tablas y en un mapa por estados, lo que dificultaba su aprovechamiento. Se han dado muchos esfuerzos ciudadanos de almacenar, curar y procesar estos datos y es el tipo de información que estoy agregando en este directorio.

Repositorio en Github pages.

Comparación de Modelos de Lenguaje en Español con fines de Clasificación

Read this post in English

Recientemente hemos visto un enorme incremento en el uso de técnicas de Procesamiento de Lenguaje Natural (NLP) pero en los próximos meses y años estaremos viendo su aprovechamiento en tareas y aplicaciones, y su gran potencial será evidente. Como menciona Sebastian Ruder en su blog, estamos viviendo el momento ImageNet de NLP. Parece que cada semana hay uno o varios equipos de investigadores que publican nuevos y mejores Modelos de Lenguaje implementados con deep learning.

Como practicantes de Machine Learning e Inteligencia Artificial nuestro trabajo es crear aplicaciones de “mundo real” considerando tanto los últimos avances en las áreas de investigación como las implicaciones prácticas de su implementación con el fin de resolver necesidades de negocio. Tal vez no usemos el modelo más reciente, o el más grande, o el que actualmente es estado del arte tan pronto como sea publicado en Github o Tensorflow hub, sino que usemos uno que sea mas simple de implementar, más rápido y/o más ligero, y esperemos hasta el momento en que usar uno mas complejo tenga sentido para las tareas específicas de nuestro negocio. Dicho esto, es útil tener un método que nos permita evaluar rápida y fácilmente modelos para nuestras tareas específicas. Además algunos de los resultados de esas evaluaciones se pueden considerar guías generales del desempeño de los modelos, con la esperanza de que puedan ser generalizados a otras tareas.

He estado trabajando en un método como el descrito arriba y quiero compartir algunos resultados que he encontrado de la comparación de varios Modelos Neuronales de Lenguaje que Google ha puesto a disposición de la comunidad en Tensorflow Hub. Hay pocos recursos disponibles en español en comparación a otros idiomas por lo que espero que esto contribuya a quien lo pueda necesitar. Los resultados más importantes que he encontrado son:

  • Los modelos NNLM entrenados en español tienen un mejor desempeño que los mismos modelos entrenados en inglés.
  • La versión normalizada de estos modelos tiene un mejor desempeño que los modelos no normalizados.
  • En general los modelos de 50 y 128 dimensiones tienen un desempeño similar. Sin embargo parece que la optimización de hiperparámetros puede beneficiar más al modelo de 128 dimensiones.

Todos los detalles y resultados están disponibles en este repositorio de Github. Espero poder agregar a la comparación otros modelos mas recientes basados en Transformers próximamente.