Lo Último en IP@P
- Goblin Mine: La Estrategia Económica Detrás del Juego de Minería que está Fascinando a Todos
- Estos son los nuevos Cargadores UGREEN: potencia y portabilidad en dos versiones que no te puedes perder
- UGREEN Nexode Pro: El Cargador Ultradelgado que revoluciona la carga de dispositivos móviles
- La computación en la nube está transformando los juegos Online y estas son sus grandes ventajas
- Actualizaciones del Programa de Afiliados de TEMU: ¡Hasta MX$500,000 al mes!
El pasado 27 de marzo, varios investigadores de Microsoft presentaron un modelo multimodal que es capaz de analizar imágenes en busca de contenido. Tal y como confirmaron este miércoles 1 de marzo, se trata de ‘Kosmos-1’, que consiste en un modelo diseñado para resolver acertijos visuales, hacer reconocimiento de texto visual, comprender instrucciones en lenguaje natural y aprobar experimentos de coeficiente intelectual visual. Según expertos en IA, este proyecto de IA multimodal es un camino potencial hacia la Inteligencia Artificial General para reemplazar a los humanos.
Esto deja en evidencia que la compañía, con sede en Redmond, cada vez apuesta más por la tecnología de IA. Si bien su carrera inició con la implementación de un chatbot exclusivo para Bing que fue diseñado con la ayuda de OpenAI, ahora está apostando por una herramienta que va más allá de los prototipos de IA conversacionales que se han estado desarrollando durante los últimos meses, tras el controversial éxito de ChatGPT.
Microsoft presenta una nueva IA que puede resolver acertijos visuales
Después de una alianza bastante estrategia entre Microsoft y OpenAI que tenía como fin modernizar el motor de búsqueda de los de Redmond, Bing, con un chatbot conversacional para optimizar la experiencia de sus usuarios, la compañía de Bill Gates ha decidido iniciar un nuevo proyecto de IA sin la participación de OpenAI. El pasado 27 de febrero, un equipo de investigadores de Microsoft presentó lo que será ‘Kosmos-1’.
Últimas Noticias de Tecnología
- Los proxys empresariales siguen su crecimiento imparable gracias a la evolución del mercado DaaS
- Explorando el mundo de las tarjetas de crédito virtuales: Un análisis detallado de los mejores servicios
- Con esta tecnología hasta tu madre podrá controlar un brazo robótico con extrema facilidad
- Nissan revoluciona el mercado con su nuevo concepto de vehículo eléctrico deportivo para Europa
- Estudiantes logran récord mundial con el auto eléctrico de mayor autonomía
SÍGUENOS EN 👉 YOUTUBE TV
Tal y como enfatizan, se trata de un novedoso modelo multimodal que puede analizar imágenes en busca de contenido, principalmente. Sumado a ello, ha sido adiestrado para resolver acertijos visuales, certificar pruebas de coeficiente intelectual visual, realizar reconocimiento de texto visual y comprender instrucciones en lenguaje natural. Para ello, el prototipo integra diferentes modos de entrada, desde texto y audio hasta imágenes y vídeo.
“Al ser una parte básica de la inteligencia, la percepción multimodal es una necesidad para lograr la inteligencia artificial general, en términos de adquisición de conocimiento y conexión con el mundo real”.
Investigadores de Microsoft en referencia a Kosmos-1.
Durante su presentación, los expertos explicaron que su creación es llamada “modelo de lenguaje grande multimodal” por una razón clave: sus raíces se encuentran en el procesamiento del lenguaje natural como un LLM de solo texto (algo así como ChatGPT). Por ende, para que Kosmos-1 admita la entrada de imágenes, primero se debe introducir la imagen a una serie especial de tokens basados en texto, los cuales puede comprender el LLM perfectamente.
Este 1 de marzo, se oficializó el debut de Kosmos-1 por medio de un documento que asegura que los resultados experimentales fueron exitosos, por su impresionante rendimiento. Es por eso que, durante la última actualización, revelaron que esta novedosa herramienta de IA fue entrenada utilizando datos de la web, incluyendo extractos de The Pile y Common Crawl. Razón por la que se dice que mejorará en gran medida las habilidades de los asistentes artificiales actuales, sobre todo si se amplía en tamaño de modelo e integra la capacidad de voz, en un futuro.
Los ejemplos visuales del documento oficial sobre Kosmos-1, muestran al modelo analizando imágenes y respondiendo preguntas sobre ellas, leyendo el texto de una imagen, escribiendo subtítulos para las mismas y elaborando una prueba de coeficiente intelectual visual (con una precisión de entre 22% al 26%).
Cabe destacar que, después de superar la fase de entrenamiento, los investigadores evaluaron las habilidades de Kosmos-1 en varias pruebas. Entre estos experimentos, los principales fueron: generación del idioma, comprensión del idioma, clasificación de texto sin reconocimiento óptico de caracteres, subtítulos de imágenes, respuesta a preguntas de páginas web, respuesta visual a preguntas y clasificación de imágenes sin disparo.
Por ahora, Microsoft planea hacer que Kosmos-1 esté disponible para los desarrolladores, aunque la página de GitHub que cita el documento todavía no tiene un código específico.
Según Microsoft, Kosmos-1 superó a los modelos actuales de IA de última generación en la mayoría de las pruebas. Por ello, resaltan que este prototipo es un paso clave para construir una Inteligencia Artificial General (AGI) que logre efectuar tareas generales al nivel de un ser humano. Lo que significa que, se trata de una tecnología hipotética que podría reemplazar a los humanos en cualquier tarea intelectual, aparentemente.
Reading this paper, Kosmos-1 scored 13/50 on the Raven's Standard test. That test normally uses 60 questions, so scaling proportionally to 15/60, this puts Kosmos in the bottom 5-10% of all 9-year-olds in the UK. That corresponds to an IQ of at most 80, but probably a bit lower. https://t.co/6wuMOJDhu5
— GENERATIVE AGE (@GenerativeAge) March 1, 2023