La herramienta permite separar voces, instrumentos o ruidos específicos a partir de indicaciones multimodales y ya puede probarse de forma abierta.

Meta anunció este martes el lanzamiento de SAM Audio , un nuevo modelo de inteligencia artificial orientado a la separación y edición de audio , que promete facilitar tareas complejas del procesamiento sonoro mediante el uso de indicaciones de texto, referencias visuales y marcas temporales.

El anuncio fue realizado por Mark Zuckerberg , quien presentó la herramienta como una evolución del proyecto Segment Anything , una familia de modelos desarrollados por la compañía para segmentar elementos específicos dentro de imágenes, videos y ahora también audio.

Según informó la empresa, SAM Audio permite aislar cualquier sonido dentro de una fuente audiovisual , como una voz, un instrumento musical o un ruido ambiental, sin necesidad de conocimientos técnicos avanzados. El sistema admite tres tipos de indicaciones que pueden utilizarse de manera individual o combinada.

Una de las principales novedades del modelo es su enfoque multimodal. Por un lado, permite ingresar indicaciones de texto , como “voz cantando” o “ruido de tráfico”, para extraer sonidos específicos. También admite indicaciones visuales , que consisten en seleccionar dentro de un video a la persona u objeto que produce el sonido que se desea aislar.

Además, incorpora por primera vez en este tipo de desarrollos las llamadas indicaciones de intervalo , que permiten marcar segmentos de tiempo concretos en los que ocurre el audio objetivo. Esta combinación busca replicar la forma en que las personas identifican y piensan el sonido en situaciones cotidianas.

Desde Meta señalaron que este enfoque unificado supera la fragmentación habitual de las herramientas de edición de audio, que hasta ahora estaban diseñadas para usos muy específicos, como la limpieza de voces o la separación de pistas musicales.

Usos y aplicaciones posibles

La compañía destacó que SAM Audio puede aplicarse en múltiples ámbitos, como la producción musical, el podcasting, el cine y la televisión, la creación de contenido digital, la investigación científica y el desarrollo de soluciones vinculadas a la accesibilidad.

Entre los ejemplos de uso mencionados se incluyen la eliminación de ruidos de fondo en grabaciones realizadas en exteriores, la separación de instrumentos en videos musicales o la limpieza de audios para mejorar la comprensión en contenidos hablados.

Disponibilidad y próximos pasos

SAM Audio ya se encuentra disponible para pruebas en el Segment Anything Playground, una plataforma que permite a cualquier usuario experimentar con los modelos de la colección utilizando archivos propios o materiales provistos por Meta. El modelo también puede descargarse para su evaluación.

En paralelo, la empresa informó que se encuentra explorando futuras integraciones del sistema en sus productos y anunció acuerdos de colaboración con Starkey, fabricante de audífonos con sede en Estados Unidos, y con 2gether-International, una aceleradora de startups enfocada en proyectos liderados por personas con discapacidad.

Según Meta, el nuevo modelo establece un estándar superior de calidad y eficiencia frente a desarrollos previos en tareas de separación de audio, con mejoras verificadas en distintos escenarios y pruebas comparativas.