Whisper V3, alimentado por más de un millón de horas de audio etiquetado y más de 4 millones de horas de audio pseudoetiquetado, presenta mejoras significativas en comparación con su predecesor. Con una reducción de errores entre el 10 y el 20%, Whisper V3 ha alcanzado niveles de precisión notablemente superiores. En el caso del idioma español, su tasa de error es inferior al 5%, posicionándolo como uno de los modelos más competentes en este idioma.

Una característica sobresaliente de Whisper V3 es su capacidad multitarea, permitiendo el reconocimiento y la traducción de múltiples idiomas. Su habilidad para identificar automáticamente cambios de idioma en una misma conversación añade versatilidad a esta potente herramienta.

OpenAI ha proporcionado modelos de Whisper V3 de diversos tamaños, desde versiones compactas con menos de 1 GB de VRAM hasta el modelo “large”, entrenado con 1.550 millones de parámetros y requerimientos de alrededor de 10 GB de VRAM. Esta variedad permite a Whisper V3 adaptarse a diversas aplicaciones y necesidades, ofreciendo a los usuarios la flexibilidad que buscan.

por admin

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *