Recientemente hemos visto un enorme incremento en el uso de técnicas de Procesamiento de Lenguaje Natural (NLP) pero en los próximos meses y años estaremos viendo su aprovechamiento en tareas y aplicaciones, y su gran potencial será evidente. Como menciona Sebastian Ruder en su blog, estamos viviendo el momento ImageNet de NLP. Parece que cada semana hay uno o varios equipos de investigadores que publican nuevos y mejores Modelos de Lenguaje implementados con deep learning.
Como practicantes de Machine Learning e Inteligencia Artificial nuestro trabajo es crear aplicaciones de “mundo real” considerando tanto los últimos avances en las áreas de investigación como las implicaciones prácticas de su implementación con el fin de resolver necesidades de negocio. Tal vez no usemos el modelo más reciente, o el más grande, o el que actualmente es estado del arte tan pronto como sea publicado en Github o Tensorflow hub, sino que usemos uno que sea mas simple de implementar, más rápido y/o más ligero, y esperemos hasta el momento en que usar uno mas complejo tenga sentido para las tareas específicas de nuestro negocio. Dicho esto, es útil tener un método que nos permita evaluar rápida y fácilmente modelos para nuestras tareas específicas. Además algunos de los resultados de esas evaluaciones se pueden considerar guías generales del desempeño de los modelos, con la esperanza de que puedan ser generalizados a otras tareas.
He estado trabajando en un método como el descrito arriba y quiero compartir algunos resultados que he encontrado de la comparación de varios Modelos Neuronales de Lenguaje que Google ha puesto a disposición de la comunidad en Tensorflow Hub. Hay pocos recursos disponibles en español en comparación a otros idiomas por lo que espero que esto contribuya a quien lo pueda necesitar. Los resultados más importantes que he encontrado son:
- Los modelos NNLM entrenados en español tienen un mejor desempeño que los mismos modelos entrenados en inglés.
- La versión normalizada de estos modelos tiene un mejor desempeño que los modelos no normalizados.
- En general los modelos de 50 y 128 dimensiones tienen un desempeño similar. Sin embargo parece que la optimización de hiperparámetros puede beneficiar más al modelo de 128 dimensiones.
Todos los detalles y resultados están disponibles en este repositorio de Github. Espero poder agregar a la comparación otros modelos mas recientes basados en Transformers próximamente.