La Inteligencia Artificial avanza cada vez más y ahora GPT-4o lo demuestra

OpenAI ha anunciado el lanzamiento de GPT-4o, su nuevo modelo insignia capaz de razonar en tiempo real con audio, visión y texto. GPT-4o (la «o» significa «omni») acepta y genera combinaciones de texto, audio e imágenes, respondiendo a entradas de audio en tan solo 232 milisegundos en promedio, similar al tiempo de respuesta humano en una conversación.

Este modelo no solo mejora la comprensión de la visión y el audio en comparación con modelos anteriores, sino que también ofrece un rendimiento más rápido y un 50% más económico en la API. En versiones anteriores se utilizaban tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y genera texto, y un tercer modelo simple convierte ese texto nuevamente en audio, ahora GPT-4o procesa todas las modalidades de entrada y salida con la misma red neuronal, mejorando la precisión y la coherencia.

Por ejemplo, ahora puedes tomar una fotografía de un menú en un idioma diferente y hablar con GPT-4o para traducirla, conocer la historia y el significado de la comida y obtener recomendaciones, o bien, puedes mostrarle a ChatGPT un juego de deportes en vivo y pedirle que te explique las reglas.

OpenAI en su comunicado muestra algunos ejemplos en video de las funcionalidades de su nuevo modelo GPT-4o:

  • Traducir una conversación en diferentes idiomas en tiempo real.
  • En una videollamada puede interactuar con los participantes y para resumir lo dicho por cada uno.
  • Se le puede preguntar cualquier cosa, y es seguro que ofrecerá una respuesta. Incluso, es posible interrumpir a la IA con el fin de hacer la conversación más real, como si se tratara de otra persona.
  • Podría decir quién es el ganador de un enfrentamiento en piedra, papel o tijera. Parece simple, pero se debe resaltar el entusiasmo que pone en la narración del encuentro.
  • En una operación matemática puede fungir como un guía escolar y llevar al alumno paso a paso por el procedimiento.
  • puede desde describir lugares turísticos de interés que están frente a una persona con debilidad visual o ciega hasta avisarle cuando su taxi ha llegado.
  • Y muchas funciones más, las puedes consultar aquí.

GPT-4o estará disponible en una amplia variedad de idiomas, con mejoras notables en la comprensión y generación de texto, se mencionan 20 idiomas representativos para la nueva tokenización del modelo, lo que sugiere un enfoque en una amplia diversidad lingüística.

En términos de seguridad, GPT-4o incorpora múltiples técnicas de filtrado y refinamiento de comportamiento, evaluado según el Marco de Preparación de OpenAI. A pesar de sus avances, GPT-4o ha sido diseñado para no superar el riesgo Medio en diversas categorías de evaluación de seguridad, incluyendo ciberseguridad y desinformación.

Aunque actualmente solo están disponibles las entradas de texto e imagen y las salidas de texto, se prevé la incorporación de salidas de audio con voces predefinidas siguiendo las políticas de seguridad existentes. OpenAI continuará mejorando la seguridad del modelo a medida que se descubran nuevos riesgos.

Las nuevas capacidades de GPT-4o en texto e imágenes comienzan a estar disponibles en ChatGPT desde el día de hoy y llegará de forma progresiva a todos los usuarios, tanto para las personas suscritas a ChatGPT Plus como para quienes usen la versión gratuita de ChatGPT. La conversación mejorada de GPT-4o llegará dentro de las próximas semanas a los usuarios de ChatGPT Plus.

Visítanos diariamente para que no te pierdas ninguna noticia. Suscríbete al canal de YouTube donde verás El Recuento y reviews de  smartphones. Además, no olvides escuchar esta misma sección a través de podcasts por Spotify.

Deja un comentario

Descubre más desde Isa Marcial

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo