📅 Tal día como hoy 15 de diciembre... ¿QUÉ PASÓ?
Cursos Gratis Stories
Ganar Dinero Internet
Android Stories
Windows Stories
iOS Stories
MacOS Stories
Linux Stories
Facebook Stories
Amazon Stories
Netflix Stories
Whatsapp Stories
Twitch Stories
Instagram Stories
YouTube Stories
Gmail Stories
TikTok Stories
Arduino Stories
Telegram Stories
Raspberry Pi Stories

Microsoft presenta un modelo de IA que puede entender el contenido de imágenes y resolver acertijos visuales

¡Microsoft quiere tomar la delantera! Ahora decidió seguir sin la ayuda de OpenAI, para trabajar en un modelo multimodal que es un camino potencial hacia la Inteligencia Artificial General, los desarrolladores ya están ansiosos por poder probarlo desde GitHub

Saharay Pérez
Autor: Saharay Pérez
Fecha: 03 marzo, 2023 a las 13:34

El pasado 27 de marzo, varios investigadores de Microsoft presentaron un modelo multimodal que es capaz de analizar imágenes en busca de contenido. Tal y como confirmaron este miércoles 1 de marzo, se trata de ‘Kosmos-1’, que consiste en un modelo diseñado para resolver acertijos visuales, hacer reconocimiento de texto visual, comprender instrucciones en lenguaje natural y aprobar experimentos de coeficiente intelectual visual. Según expertos en IA, este proyecto de IA multimodal es un camino potencial hacia la Inteligencia Artificial General para reemplazar a los humanos.

Esto deja en evidencia que la compañía, con sede en Redmond, cada vez apuesta más por la tecnología de IA. Si bien su carrera inició con la implementación de un chatbot exclusivo para Bing que fue diseñado con la ayuda de OpenAI, ahora está apostando por una herramienta que va más allá de los prototipos de IA conversacionales que se han estado desarrollando durante los últimos meses, tras el controversial éxito de ChatGPT.

publicidad

Microsoft presenta una nueva IA que puede resolver acertijos visuales

Microsoft presenta una nueva IA que puede resolver acertijos visuales

Después de una alianza bastante estrategia entre Microsoft y OpenAI que tenía como fin modernizar el motor de búsqueda de los de Redmond, Bing, con un chatbot conversacional para optimizar la experiencia de sus usuarios, la compañía de Bill Gates ha decidido iniciar un nuevo proyecto de IA sin la participación de OpenAI. El pasado 27 de febrero, un equipo de investigadores de Microsoft presentó lo que será ‘Kosmos-1’.

Tal y como enfatizan, se trata de un novedoso modelo multimodal que puede analizar imágenes en busca de contenido, principalmente. Sumado a ello, ha sido adiestrado para resolver acertijos visuales, certificar pruebas de coeficiente intelectual visual, realizar reconocimiento de texto visual y comprender instrucciones en lenguaje natural. Para ello, el prototipo integra diferentes modos de entrada, desde texto y audio hasta imágenes y vídeo.

“Al ser una parte básica de la inteligencia, la percepción multimodal es una necesidad para lograr la inteligencia artificial general, en términos de adquisición de conocimiento y conexión con el mundo real”.

Investigadores de Microsoft en referencia a Kosmos-1.

Durante su presentación, los expertos explicaron que su creación es llamada “modelo de lenguaje grande multimodal” por una razón clave: sus raíces se encuentran en el procesamiento del lenguaje natural como un LLM de solo texto (algo así como ChatGPT). Por ende, para que Kosmos-1 admita la entrada de imágenes, primero se debe introducir la imagen a una serie especial de tokens basados en texto, los cuales puede comprender el LLM perfectamente.

Este 1 de marzo, se oficializó el debut de Kosmos-1 por medio de un documento que asegura que los resultados experimentales fueron exitosos, por su impresionante rendimiento. Es por eso que, durante la última actualización, revelaron que esta novedosa herramienta de IA fue entrenada utilizando datos de la web, incluyendo extractos de The Pile y Common Crawl. Razón por la que se dice que mejorará en gran medida las habilidades de los asistentes artificiales actuales, sobre todo si se amplía en tamaño de modelo e integra la capacidad de voz, en un futuro.

Los ejemplos visuales del documento oficial sobre Kosmos-1, muestran al modelo analizando imágenes y respondiendo preguntas sobre ellas, leyendo el texto de una imagen, escribiendo subtítulos para las mismas y elaborando una prueba de coeficiente intelectual visual (con una precisión de entre 22% al 26%).

Cabe destacar que, después de superar la fase de entrenamiento, los investigadores evaluaron las habilidades de Kosmos-1 en varias pruebas. Entre estos experimentos, los principales fueron: generación del idioma, comprensión del idioma, clasificación de texto sin reconocimiento óptico de caracteres, subtítulos de imágenes, respuesta a preguntas de páginas web, respuesta visual a preguntas y clasificación de imágenes sin disparo.

Por ahora, Microsoft planea hacer que Kosmos-1 esté disponible para los desarrolladores, aunque la página de GitHub que cita el documento todavía no tiene un código específico.

Según Microsoft, Kosmos-1 superó a los modelos actuales de IA de última generación en la mayoría de las pruebas. Por ello, resaltan que este prototipo es un paso clave para construir una Inteligencia Artificial General (AGI) que logre efectuar tareas generales al nivel de un ser humano. Lo que significa que, se trata de una tecnología hipotética que podría reemplazar a los humanos en cualquier tarea intelectual, aparentemente.

🔥ÚNETE🔥 A LA NUEVA COMUNIDAD DE IP@P ¡APÚNTATE AQUÍ!

Si te quedaste con alguna duda, déjalas en los comentarios, te contestaremos lo antes posible, además seguro que será de gran ayuda para más miembros de la comunidad. Gracias! 😉

Temas

Saharay Pérez
Autor: Saharay Pérez

Mi pasión es la tecnología y las redes sociales, investigo y documento las últimas noticias y trucos de Facebook, Twitter, Instagram, Whatsapp y cualquier red social.

Publicidad

Últimas Noticias

Deja un comentario