Databricks ha lanzado DBRX, un nuevo modelo de lenguaje grande (LLM) abierto y de propósito general que establece un nuevo estándar en el campo de la IA. A continuación exploramos sus características y bondades frente a otros conocidos.
***
DBRX supera a los modelos abiertos establecidos en tareas de comprensión del lenguaje, programación y matemáticas
DBRX es competitivo con modelos cerrados como GPT-3.5, Gemini 1.0 Pro y Mistral Medium
Solo costó unos USD $10M entrenarlo durante 2 meses
La arquitectura de mezcla de expertos (MoE) de DBRX permite una mayor eficiencia de entrenamiento e inferencia
Databricks, una empresa líder en datos e inteligencia artificial, ha presentado DBRX, un innovador modelo de lenguaje grande (LLM) abierto y de propósito general que promete revolucionar el campo de la IA.
Este nuevo modelo no solo establece un nuevo estándar en términos de rendimiento en una amplia gama de tareas, sino que también ofrece una eficiencia de entrenamiento e inferencia sin precedentes gracias a su arquitectura de mezcla de expertos (MoE).
Superando a los modelos abiertos establecidos
En una serie de benchmarks estándar, DBRX ha demostrado su superioridad frente a otros modelos abiertos establecidos.
En particular, destaca en tareas de comprensión del lenguaje, como lo demuestra su puntuación en MMLU (73,7%). Además, DBRX sobresale en programación y matemáticas, superando incluso a modelos especializados como CodeLLaMA-70B en HumanEval (70,1% vs 67,8%).
Estas capacidades vienen acompañadas de mejoras significativas en la eficiencia de entrenamiento e inferencia.
Gracias a su arquitectura MoE de grano fino, DBRX avanza en el estado del arte en eficiencia entre los modelos abiertos. La inferencia es hasta 2 veces más rápida que LLaMA2-70B, y DBRX tiene alrededor del 40% del tamaño de Grok-1 en términos de recuento total y activo de parámetros.
Compitiendo con los modelos cerrados más conocidos
Pero DBRX no solo supera a otros modelos abiertos, sino que también es competitivo con los modelos cerrados más conocidos.
Según las mediciones de Databricks, DBRX supera a GPT-3.5 y es competitivo con Gemini 1.0 Pro y Mistral Medium.
En casi todos los benchmarks considerados, DBRX supera o, en el peor de los casos, iguala a GPT-3.5. Sobresale especialmente en razonamiento matemático y programación, como lo demuestran sus puntuaciones en HumanEval (70,1% vs 48,1%) y GSM8k (72,8% vs 57,1%).
La eficiencia de la arquitectura MoE
Uno de los aspectos más destacados de DBRX es su arquitectura de mezcla de expertos (MoE) de grano fino.
Esta arquitectura permite una mayor eficiencia tanto en el entrenamiento como en la inferencia en comparación con los modelos densos tradicionales.
Durante el entrenamiento, los clientes de Databricks descubrirán que entrenar modelos MoE es aproximadamente 2 veces más eficiente en términos de FLOP, que entrenar modelos densos para la misma calidad de modelo final.
Esto se traduce en ahorros significativos de tiempo y recursos computacionales.
En cuanto a la inferencia, DBRX puede generar texto a una velocidad de hasta 150 tokens por segundo por usuario cuando se aloja en Mosaic AI Model Serving.
Esta eficiencia se debe en gran parte al hecho de que DBRX utiliza relativamente pocos parámetros para cada entrada, a pesar de tener un gran número total de parámetros.
Implicaciones y consideraciones éticas
Si bien los avances técnicos de DBRX son impresionantes, es importante considerar también las implicaciones sociales y éticas del desarrollo de modelos de IA tan potentes.
Por un lado, estos modelos tienen el potencial de revolucionar diversos campos y mejorar la vida de las personas. Podrían ayudar a resolver problemas complejos, impulsar la innovación y automatizar tareas tediosas.
Sin embargo, también existen riesgos y desafíos que deben abordarse. La IA avanzada podría exacerbar las desigualdades existentes si no se desarrolla y despliega de manera responsable.
Además, existe el riesgo de sesgos y discriminación si los modelos se entrenan con datos sesgados o se utilizan de manera inapropiada.
Es crucial que empresas como Databricks y la comunidad de IA en general aborden activamente estas cuestiones y se esfuercen por desarrollar una inteligencia artificial ética y responsable. Esto implica considerar cuidadosamente las implicaciones de estos modelos, involucrar a diversas partes interesadas en el proceso y establecer directrices y salvaguardas sólidas.
El futuro de la IA abierta
Con el lanzamiento de DBRX, Databricks ha demostrado su compromiso con el avance de la IA abierta y accesible.
Este nuevo modelo no sólo establece un nuevo estándar de rendimiento, sino que también ofrece a la comunidad abierta y a las empresas la oportunidad de construir sus propios LLM con capacidades previamente limitadas a las API de modelos cerrados.
A medida que más organizaciones adopten y construyan sobre DBRX, es emocionante imaginar las innovaciones y aplicaciones que surgirán.
Desde la mejora de la productividad hasta el descubrimiento de nuevos conocimientos, las posibilidades son vastas. Sin embargo, como con cualquier tecnología poderosa, se debe avanzar con cuidado y consideración.
Es responsabilidad de todos – investigadores, desarrolladores, empresas y la sociedad en general – asegurarnos de que la IA se utilice de manera ética y beneficiosa. Sólo entonces podremos aprovechar todo el potencial de modelos como DBRX mientras mitigamos los riesgos y desafíos.
En conclusión, DBRX representa un emocionante paso adelante en el campo de la IA abierta. Su impresionante rendimiento, eficiencia y accesibilidad abren nuevas posibilidades para la innovación y el descubrimiento.
A medida que continuamos explorando y desarrollando estas poderosas tecnologías, debemos hacerlo con responsabilidad, ética y un compromiso inquebrantable con el bien común.
Fuente: databricks.com
Imagen de DBRX
DiarioBitcoin