En los últimos meses el equipo de Machine Learning Foundations de Microsoft Research ha lanzado una serie de modelos de lenguaje pequeños (SLMs) llamados “Phi”, que han logrado un rendimiento notable en diversas pruebas.
Tras Phi-1, que alcanzó un rendimiento líder en codificación en Python, y Phi-1.5, que destacó en razonamiento de sentido común y comprensión del lenguaje,Microsoft acaba de presentars Phi-2, un modelo de lenguaje con 2.700 millones de parámetros que demuestra un destacado razonamiento y comprensión del lenguaje.
El aumento masivo en el tamaño de los modelos de lenguaje ha desbloqueado capacidades emergentes, redefiniendo el procesamiento del lenguaje natural. La pregunta clave es si se pueden lograr habilidades emergentes a una escala menor mediante elecciones estratégicas en la formación, como la selección de datos.
Con los modelos Phi en Microsoft se ha buscado responder a esta pregunta, logrando un rendimiento comparable a modelos de mayor escala. Los dos principales enfoques para romper con las leyes convencionales de escala de modelos de lenguaje con Phi-2 son:
Phi-2 es un modelo basado en Transformer con un objetivo de predicción de la siguiente palabra, entrenado en 1,4 billones de tokens de pases múltiples en conjuntos de datos sintéticos y web para NLP y codificación. El entrenamiento de Phi-2 se llevó a cabo en 96 GPUs A100 durante 14 días. A pesar de no haber sido alineado a través de aprendizaje por refuerzo de retroalimentación humana (RLHF) ni haber sido afinado mediante instrucciones, se ha observado un comportamiento más favorable en términos de toxicidad y sesgo en comparación con modelos de código abierto existentes que sí pasaron por el alineamiento.
Phi-2 ha superado el rendimiento de modelos más grandes en diversos benchmarks, incluyendo Mistral y Llama-2. A pesar de tener solo 2.700 millones de parámetros supera el rendimiento de modelos más grandes hasta 25 veces en tareas complejas como codificación y matemáticas. Además, Phi-2 se compara favorablemente con el recientemente anunciado Google Gemini Nano 2, a pesar de su menor tamaño.
Salesforce presenta Agentforce 2.0, la plataforma digital que transforma el trabajo empresarial con agentes de…
Estas tendencias giran en torno a la resiliencia de los datos, la ciberseguridad, el puesto…
Linda, el innovador asistente de IA desarrollado por Bewe Software, ha sido galardonado como Caso…
Bajo el lema Mindset of Motion, defiende que las personas puedan experimentar el potencial de…
Será el primer terminal OnePlus con doble certificación IP68 e IP69.
HUAWEI introduce también la serie de teléfonos móviles Nova 13 y los auriculares FreeClip y…