Microsoft presenta un modelo de IA que puede entender el contenido de imágenes y resolver acertijos visuales

Microsoft presenta un modelo de IA que puede entender el contenido de imagenes y resolver acertijos visuales

El pasado 27 de marzo, varios investigadores de Microsoft presentaron un modelo multimodal que es capaz de analizar imágenes en busca de contenido. Tal y como confirmaron este miércoles 1 de marzo, se trata de ‘Kosmos-1’, que consiste en un modelo diseñado para resolver acertijos visuales, hacer reconocimiento de texto visual, comprender instrucciones en lenguaje natural y aprobar experimentos de coeficiente intelectual visual. Según expertos en IA, este proyecto de IA multimodal es un camino potencial hacia la Inteligencia Artificial General para reemplazar a los humanos.

Esto deja en evidencia que la compañía, con sede en Redmond, cada vez apuesta más por la tecnología de IA. Si bien su carrera inició con la implementación de un chatbot exclusivo para Bing que fue diseñado con la ayuda de OpenAI, ahora está apostando por una herramienta que va más allá de los prototipos de IA conversacionales que se han estado desarrollando durante los últimos meses, tras el controversial éxito de ChatGPT.

Microsoft presenta una nueva IA que puede resolver acertijos visuales

Después de una alianza bastante estrategia entre Microsoft y OpenAI que tenía como fin modernizar el motor de búsqueda de los de Redmond, Bing, con un chatbot conversacional para optimizar la experiencia de sus usuarios, la compañía de Bill Gates ha decidido iniciar un nuevo proyecto de IA sin la participación de OpenAI. El pasado 27 de febrero, un equipo de investigadores de Microsoft presentó lo que será ‘Kosmos-1’.

Tal y como enfatizan, se trata de un novedoso modelo multimodal que puede analizar imágenes en busca de contenido, principalmente. Sumado a ello, ha sido adiestrado para resolver acertijos visuales, certificar pruebas de coeficiente intelectual visual, realizar reconocimiento de texto visual y comprender instrucciones en lenguaje natural. Para ello, el prototipo integra diferentes modos de entrada, desde texto y audio hasta imágenes y vídeo.

“Al ser una parte básica de la inteligencia, la percepción multimodal es una necesidad para lograr la inteligencia artificial general, en términos de adquisición de conocimiento y conexión con el mundo real”.

Investigadores de Microsoft en referencia a Kosmos-1.

Durante su presentación, los expertos explicaron que su creación es llamada “modelo de lenguaje grande multimodal” por una razón clave: sus raíces se encuentran en el procesamiento del lenguaje natural como un LLM de solo texto (algo así como ChatGPT). Por ende, para que Kosmos-1 admita la entrada de imágenes, primero se debe introducir la imagen a una serie especial de tokens basados en texto, los cuales puede comprender el LLM perfectamente.

¡Viva el verde! Neoplants es la nueva tendencia de bioingeniería para hacer diseño de interiores con plantas para purificar el aire

Este 1 de marzo, se oficializó el debut de Kosmos-1 por medio de un documento que asegura que los resultados experimentales fueron exitosos, por su impresionante rendimiento. Es por eso que, durante la última actualización, revelaron que esta novedosa herramienta de IA fue entrenada utilizando datos de la web, incluyendo extractos de The Pile y Common Crawl. Razón por la que se dice que mejorará en gran medida las habilidades de los asistentes artificiales actuales, sobre todo si se amplía en tamaño de modelo e integra la capacidad de voz, en un futuro.

Los ejemplos visuales del documento oficial sobre Kosmos-1, muestran al modelo analizando imágenes y respondiendo preguntas sobre ellas, leyendo el texto de una imagen, escribiendo subtítulos para las mismas y elaborando una prueba de coeficiente intelectual visual (con una precisión de entre 22% al 26%).

Cabe destacar que, después de superar la fase de entrenamiento, los investigadores evaluaron las habilidades de Kosmos-1 en varias pruebas. Entre estos experimentos, los principales fueron: generación del idioma, comprensión del idioma, clasificación de texto sin reconocimiento óptico de caracteres, subtítulos de imágenes, respuesta a preguntas de páginas web, respuesta visual a preguntas y clasificación de imágenes sin disparo.

Por ahora, Microsoft planea hacer que Kosmos-1 esté disponible para los desarrolladores, aunque la página de GitHub que cita el documento todavía no tiene un código específico.

Según Microsoft, Kosmos-1 superó a los modelos actuales de IA de última generación en la mayoría de las pruebas. Por ello, resaltan que este prototipo es un paso clave para construir una Inteligencia Artificial General (AGI) que logre efectuar tareas generales al nivel de un ser humano. Lo que significa que, se trata de una tecnología hipotética que podría reemplazar a los humanos en cualquier tarea intelectual, aparentemente.

Reading this paper, Kosmos-1 scored 13/50 on the Raven’s Standard test. That test normally uses 60 questions, so scaling proportionally to 15/60, this puts Kosmos in the bottom 5-10% of all 9-year-olds in the UK. That corresponds to an IQ of at most 80, but probably a bit lower. https://t.co/6wuMOJDhu5

— GENERATIVE AGE (@GenerativeAge) March 1, 2023

Microsoft presenta un modelo de IA que puede entender el contenido de imágenes y resolver acertijos visuales

Microsoft presenta una nueva IA que puede resolver acertijos visuales

Temas

Autor: Saharay Pérez

Últimas Noticias

Apple Ring: todo sobre el posible anillo inteligente de Apple

Gratis no significa seguro: Por qué el Wi-Fi público es el mejor aliado de los Hackers

¿Por qué la atención a los pequeños detalles técnicos distingue a los campeones?

¿Cómo quitar la marca de agua de TikTok gratis?

¿Cuál es el mejor editor de PDF en 2025? Por qué iMyFone PDFacademy encabeza la lista

Stellar Data Recovery revoluciona la recuperación de archivos perdidos en discos duros externos

Estos son los nuevos Cargadores UGREEN: potencia y portabilidad en dos versiones que no te puedes perder

UGREEN Nexode Pro: El Cargador Ultradelgado que revoluciona la carga de dispositivos móviles

Microsoft presenta una nueva IA que puede resolver acertijos visuales

Temas

Últimas Noticias

¡ÚNETE!