Si aún no lo has hecho un testigo En el evento OpenAI de ayer, recomendé encarecidamente hacer precisamente eso. El titular de la noticia fue que el último GPT-4o funciona a la perfección con cualquier combinación de texto, audio y vídeo.
Esto incluye la capacidad de «mostrar» a una aplicación GPT-4o la grabación de pantalla que estás capturando en otra aplicación, y esa es una capacidad que la compañía mostró con una demostración bastante loca del gurú de la IA del iPad…
GPT-4o
OpenAI dijo que la «o» significa «omni».
GPT-4o («o» de «omni») es un paso hacia una interacción más natural entre humanos y computadoras: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de texto, audio e imagen como salida.
Puede responder a la entrada de voz en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humana (se abre en una nueva ventana) en una conversación. […] GPT-4o es particularmente mejor para comprender la visión y el sonido que los modelos actuales.
Incluso el aspecto de audio de esto es un gran problema. Anteriormente, ChatGPT podía aceptar entradas de voz, pero las convertía a texto antes de trabajar con ellas. Por el contrario, GPT-4o realmente entiende el habla, por lo que se salta por completo la etapa de conversión.
Como señalamos ayer, los usuarios gratuitos también obtienen muchas funciones que anteriormente estaban limitadas a los suscriptores de pago.
Demostración del profesor de iPad con IA
Una de las capacidades demostradas por OpenAI es la capacidad de GPT-4o de ver lo que estás haciendo en la pantalla del iPad (en modo de pantalla dividida).
El ejemplo muestra una IA enseñando a un estudiante que tiene un problema de matemáticas. Se puede escuchar que GPT-4o entendió el problema al principio y quiso resolverlo de inmediato. Pero el nuevo formulario puede verse interrumpido, en cuyo caso se le pide que ayude al alumno a resolverlo él mismo.
Otra habilidad que surge aquí es que el modelo pretende detectar emociones en el habla y también puede expresar las emociones mismas. Para mi gusto, esto fue un poco exagerado en la versión beta, y eso se refleja aquí: la IA quizás sea un poco condescendiente. Pero todo esto es ajustable.
Efectivamente, todos los estudiantes del mundo pueden tener un tutor privado con este tipo de habilidades.
¿Cuánto de esto integrará Apple?
Sabemos que la IA es el enfoque principal de iOS 18 y que se está cerrando un acuerdo para llevar las funciones de OpenAI a los dispositivos Apple. Si bien en ese momento se describió como específico de ChatGPT, ahora parece muy probable que el trato real sea el acceso a GPT-4o.
Pero también sabemos que Apple ha estado trabajando en sus propios modelos de IA, con sus propios centros de datos ejecutando sus propios chips. Por ejemplo, Apple lo estaba desarrollando. rey Una forma de permitir que Siri comprenda las pantallas de las aplicaciones.
Así que no sabemos exactamente qué capacidades GPT-4o traerá la compañía a sus dispositivos, pero esta característica parece tan perfecta para Apple que tengo que creer que se incluirá. Esto realmente es utilizar la tecnología para empoderar a las personas.
imagen: AbiertoAI. Benjamín Mayo contribuyó a este informe.
FTC: utilizamos enlaces de afiliados automáticos para obtener ingresos. más.
«Explorador amigable con los hipster. Fanático del café galardonado. Analista. Solucionador de problemas. Alborotador».
More Stories
Microsoft dice que Call of Duty: Black Ops 6 establece un récord en la cantidad de “adiciones de suscriptores de Game Pass el día del lanzamiento”.
Las descargas de Call of Duty: Black Ops 6 maximizan su uso de Internet
Nada hace que el teléfono brille en la oscuridad