Informática Musical y Telecomunicaciones: Fundamentos, Representaciones y Edición
Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 99,14 KB
Introducción a la Informática Musical
Orígenes y Desarrollo de la Recuperación de Información en la Musicología Computacional
En los años sesenta, los recursos computacionales eran extremadamente caros y el objetivo de la investigación entonces era desarrollar estructuras de datos y métodos que utilizaran recursos mínimos y así poder procesar una mayor cantidad de información. Esto hizo que la investigación fuera de una naturaleza más teórica que el verdadero procesamiento de datos con resultados musicales. Un ejemplo de un trabajo durante este período fue la codificación de todas las composiciones del compositor Josquin des Prez en tarjetas perforadas. A su vez, numerosas composiciones de música electrónica de esta época fueron directamente programadas en las tarjetas perforadas como formato de almacenamiento alternativo a la tradicional composición en papel. Un ejemplo de esto son las composiciones de Xenakis con el ordenador IBM 7090, al cual se le podían dar una serie de instrucciones compuestas en la tarjeta para que, posteriormente, el ordenador reprodujera los algoritmos estocásticos propios de sus obras.
Con la llegada de las computadoras de escritorio en la década de 1980, los investigadores tuvieron más libertad para desarrollar y experimentar con distintos paquetes de software estándar, así como desarrollar bases de datos y procesadores de texto para analizar datos musicales. Una de las herramientas de mayor divulgación de este período es Humdrum; desarrollado en la década de 1980 por David Huron, proporcionó una colección de herramientas para línea de comandos de UNIX que analizaba datos musicales. Ejemplos de tales estructuras de datos son una secuencia de símbolos, un vector de valores característicos, un árbol de análisis sintáctico, un conjunto de puntos en un espacio geométrico, etc. La aplicación y relación directa entre la estructura de datos y las propiedades de la música que se supone que debe representar es un factor de éxito importante para un estudio computacional de música.
La música es, a día de hoy, un recurso digital disponible en numerosos medios como teléfonos móviles, reproductores de audio digital, soportes digitales, sitios web… Debido al enorme volumen de música disponible es a veces difícil para los oyentes seleccionar una pieza musical. Por esta razón, con el objetivo de posibilitar una búsqueda eficiente, se han desarrollado numerosas herramientas tecnológicas. Los métodos tradicionales de búsqueda para una pista de música preferida según cantante, letra o compositor están siendo reemplazados por mecanismos de búsqueda más complejos mediante los cuales un oyente puede buscar una pieza de música tarareando una parte de la canción. Esta técnica se conoce como Query By Humming.
Con la intención de mejorar la funcionalidad de búsqueda y navegación así como la investigación en el área del descubrimiento de patrones en la música, se han desarrollado métodos que se enmarcan en lo que se conoce como Music Information Retrieval (MIR). El MIR se puede entender como un área de investigación que se encuentra en los ámbitos académicos e industriales. Por ejemplo, aplicaciones que una gran parte de la sociedad usa hoy como Spotify o Apple Music dependen de herramientas desarrolladas dentro del campo de investigación de MIR. Las tareas involucradas en musicología computacional y en MIR incluyen la clasificación por géneros, extracción de la melodía, reconocimiento del artista, recomendaciones, etc. Los beneficios de MIR llegan a varias categorías como la industria de la grabación, oyentes, profesionales, intérpretes de música, profesores, musicólogos, abogados de derechos de autor, productores de música, etc.
MIR Basado en Metadatos
Es decir, información textual como nombre del artista, compositor, álbum, año, letra de una canción, etc. Hay muchos servicios de búsqueda de música que solo usan metadatos. Por ejemplo, Pandora.com es un sistema de música basado en metadatos comerciales en el que el usuario puede buscar una canción en particular especificando el nombre del artista o el nombre de la canción; a continuación una estación de radio, con esa canción y canciones similares a ella, se creará por el sistema. El sistema funciona con los metadatos ingresados externamente en cada una de las pistas. Sin embargo, cuando los catálogos se vuelven muy grandes, es extremadamente difícil mantener las descripciones de los metadatos y que sean eficientes. Además, la supervisión editorial de los metadatos es necesaria. El éxito de un sistema MIR basado en metadatos depende de la precisión de las descripciones sobre la música contenida en su repositorio. Por esta razón, si los datos sobre el artista, álbum, año, título de la pista, letra, duración, etc. son incorrectos, pueden afectar gravemente la utilidad de los sistemas MIR basados en metadatos. Debido a estas limitaciones, los sistemas MIR basados en metadatos tienen una utilidad limitada. Incluso los sistemas MIR comerciales que usan metadatos no pueden proporcionar a los usuarios capacidades de búsqueda para encontrar música que no saben cómo buscar.
Las limitaciones de los metadatos centralizados se pueden superar, hasta cierto punto, permitiendo a los usuarios actualizar el contenido de los metadatos por ellos mismos. Por ejemplo, sitios web como gracenote.com y musicbrainz.org proporcionan metadatos aportados por comunidades de usuarios. Del mismo modo, los usuarios de servicios web como youtube.com pueden encontrar artículos de interés indexados por usuarios con gustos similares. Por ejemplo, el sitio web shazam.com, puede identificar una grabación particular de una muestra de entrada y generar el artista, álbum y título de la pista.
Muchas discográficas utilizan sistemas MIR basados en contenido para analizar el impacto potencial de una nueva obra musical en el mercado de audio a partir de información sobre contenido musical, como melodía, acordes, ritmo, etc. Por ejemplo, la compañía Polyphonic HMI usa un software llamado Hit Song Science para predecir el éxito comercial de un nuevo álbum musical antes de su lanzamiento. Del mismo modo, la compañía Platinum Blue Music Intelligence analiza nuevas canciones presentadas por músicos, predice su éxito comercial y ofrece sugerencias para mejorar. Este tipo de aplicaciones incorporan técnicas avanzadas de áreas tales como procesamiento de señales, inteligencia artificial y medidas estadísticas basadas en cognición musical y otros parámetros como, por ejemplo, el comportamiento social del usuario potencial. Con la intención de estudiar y entender mejor qué procesos cognitivos intervienen en la memorización de la música y qué hace que una pieza sea “pegadiza”, recientemente se ha desarrollado un proyecto llamado Hook.
Las tareas principales de MIR son: La descripción, el análisis y la recuperación de documentos musicales. Los distintos casos de uso definen el tipo de consulta, la coincidencia y la forma del resultado. Las consultas y los resultados pueden ser fragmentos de música, grabaciones, valoraciones, o características de la música. El grado o precisión de la transcripción durante la recuperación se llama especificidad del sistema MIR. Los sistemas MIR basados en contenido se pueden dividir en tres categorías según su especificidad:
- Los sistemas que identifican el contenido exacto se llaman sistemas de alta especificidad. Los sistemas de alta especificidad combinan instancias de contenido de la señal de audio. Es decir, realizan una comparación exacta del nivel de contenido entre la señal de audio en la consulta de entrada y la señal de audio en la base de datos.
- Los sistemas que devuelven música con algunas características globales coincidentes se llaman sistemas de baja especificidad. Hacen uso de descripciones amplias de música, como el género. Las informaciones devueltas por dichos sistemas tendrán solo una relación relativamente abstracta y amplia en común con la consulta.
- El tercer tipo de sistemas MIR basados en contenido son los sistemas de especificidad media, que combinan características musicales de alto nivel, como la melodía, pero que no concuerdan con el contenido de audio.
Las tareas de alta especificidad incluyen detección de plagio, vigilancia de derechos de autor, etc. (útiles por ejemplo para sociedades de gestión de derechos como la SGAE). Las tareas de especificidad media son por ejemplo identificaciones de artistas, identificación de compositores, identificación de melodías, clasificación, etc. Ejemplos de tareas de baja especificidad son identificación de emociones, género, detección de instrumentos, etc.
Representación de la Música
La representación de la música es un factor importante en MIR. Hay dos tipos de representaciones musicales basadas en los contenidos dentro del campo de estudio abarcado por el MIR:
- Las representaciones de datos de audio.
- Las representaciones de datos simbólicos.
Datos de audio significan una onda de sonido muestreada y cuantificada, mientras que los datos simbólicos significan algún tipo de nivel superior de representación de la música en la que las notas, los tonos, las duraciones, los instrumentos, etc. están explícitamente codificados. Una representación de audio es el sonido que llega al oído, mientras que una representación simbólica está más cerca de la notación musical. Para estudios que involucran partituras, la representación simbólica es ideal, ya que es la representación más directa del material que se estudia. Los datos de audio son ideales para búsquedas basadas en contenido y otras actividades de recuperación de información. Las tareas basadas en el audio dentro el MIR son la detección de pulsos, seguimiento del tempo, detección del tono, separación de fuentes, etc. Extraer información musical del contenido de una señal de audio es una tarea muy difícil. Incluso en el caso de un solo instrumento, o un cantante no acompañado, detección de propiedades básicas como el tono que suena en cierto momento en el tiempo es muy difícil. Para señales más complejas que representan el sonido de muchos instrumentos sonando juntos, el problema se vuelve más complicado, si bien en los últimos años y gracias al avance exponencial de la capacidad de procesamiento, softwares como Melodyne de Celemony son capaces incluso de separar las melodías de una grabación con varios instrumentos y modificar las notas individualmente. Aunque es difícil obtener información musical a partir del audio, este tipo de información extraída será muy similar a la sensación musical real experimentada por el oído humano en comparación con la información simbólica. La información de contenido musical manejada por sistemas MIR basados en contenido puede ser de dos tipos: Contenido de música de alto nivel. Características de audio de bajo nivel.
Información de Alto Nivel del Contenido de la Música
La información musical de alto nivel incluye conceptos musicales como la melodía, el ritmo, el timbre y la armonía. Se usan para describir el contenido de la música. La melodía nos permite distinguir una obra de otra y reproducirla cantando, tarareando o silbando y hace que la música sea memorable. Gracias a la melodía, podemos recordar una canción mucho más tarde en el tiempo, a pesar de haber olvidado su texto. Los sistemas de búsqueda por “humming” intentan extraer contenido melódico de las señales de audio para que el usuario pueda buscar música cantando o tarareando parte de la melodía. La extracción de conceptos musicales como la melodía, el ritmo, el timbre y la armonía son categorizadas como alto nivel. Es una tarea extremadamente difícil, especialmente a partir de grabaciones polifónicas, es decir, múltiples instrumentos que se reproducen simultáneamente.
Funciones de Audio de Bajo Nivel
Los estándares simbólicos existentes como los archivos MIDI no son lo suficientemente amplios como para representar los matices de la música no occidental, especialmente la música clásica india, andalusí y china. El MIREX, que estudia la extracción automática de descripciones de música objetiva, cultural y de alto nivel, ha encontrado que, incluso en el caso de la música occidental, los métodos de audio de bajo nivel superan los métodos simbólicos incluso cuando está disponible información simbólica limpia como MIDI. Las características de audio de bajo nivel son medidas cuantitativas de señales de audio tales como la frecuencia fundamental, amplitud, etc. que contienen información musical codificada. En general, los métodos para la extracción de características de audio de bajo nivel se pueden clasificar en tres tipos:
- Métodos basados en “frames” en los que la señal de audio de entrada se segmenta en intervalos que pueden tener una duración de 10 ms a 1000 ms.
- Métodos sincrónicos de compás donde las características se alinean con los límites del compás musical.
- Medidas estadísticas donde las distribuciones de probabilidad utilizando las características extraídas se construyen para el análisis.
Representaciones de Audio
Fundamentos Básicos de Propagación y Percepción del Sonido
Para que el sonido se pueda percibir auditivamente, las vibraciones deben estar en el rango audible humano. Un oído joven y sano puede captar vibraciones entre las 20 y las 20000 oscilaciones en un segundo. Esta manera de medir las oscilaciones se conoce como Hercio (1 Hercio es una oscilación en un segundo). Así, cuando hablamos de un rango de frecuencias entre los 20 y los 20000 Hz nos referimos al número de oscilaciones contenidas en un segundo. La relación entre el periodo (el tiempo que tarda una onda en completar un ciclo) y la frecuencia es inversamente proporcional y viene dada por el tiempo que conlleva a una onda de distinta frecuencia recorrer un ciclo. t=1/T La sensibilidad de nuestro sistema auditivo no es igual para todas las frecuencias. La biología evolutiva nos ha permitido desarrollar una mayor sensibilidad al rango de la voz humana y específicamente el rango del llanto de bebés. (Curvas de Fletcher–Munson). En el caso de la música, el desarrollo de la instrumentación ha sido histórica y relativamente condicionada por nuestra sensibilidad auditiva, así como por el medio en el que estos instrumentos se iban tocar. Con el advenimiento de la tecnología sobre todo durante el siglo XX, el desarrollo de posibilidades acústicas, como en el caso de la música en directo, ha dado lugar a nuevas sonoridades comprendidas en todo el rango de una audición sana de mediana edad. Esto es claramente visible en la música electrónica, la música por ordenador y la electrificación de instrumentos.
Transducción y Conversión Acústico-Digital
Para poder registrar el sonido en la memoria o disco duro de un dispositivo digital necesitamos convertirlo a un formato digital. Esto conlleva numerosos pasos.
Microfonía
En primer lugar, necesitamos un micrófono capaz de convertir la energía de una onda en una señal de audio por medio de una corriente eléctrica. El proceso de transducción puede ser activo o pasivo.
Transducción Pasiva
Los micrófonos dinámicos son transductores pasivos y contienen una bobina rodeada por un campo magnético (un imán) y una membrana. La onda sonora incide en la bobina y la vibración producida por esta incidencia es captada por la bobina haciendo que la bobina se desplace. Los movimientos de la bobina son captados por el campo magnético generando así la energía eléctrica que es transmitida al amplificador, mesa de mezclas o instrumento de grabación (analógico o digital). Este tipo de transductores no tienen una carga constante eléctrica externa. Debido a la simplicidad de su construcción permiten intensidades relativamente potentes y suelen ser resistentes a condiciones ambientales más extremas que los micrófonos de condensador.
Transducción Activa
La transducción activa consiste en acumular una carga eléctrica constante en un condensador situado junto al diafragma haciendo que este sea más sensible a las variaciones de presión sonora. El diafragma ondula en el espacio al recoger las vibraciones producidas por las ondas sonoras. El movimiento del diafragma hace que el espacio entre el condensador y el diafragma varíe. Estas variaciones en la distancia entre el diafragma y el condensador producen un cambio en la capacidad del condensador. Es por esta razón que los micrófonos de condensador necesitan una carga continua. En la industria del audio, la carga constante recibida por los micrófonos de condensador suele ser de 48 voltios o 5 voltios para los micrófonos “electret”. Aun así, en función del micrófono o el aparato de grabación a veces encontramos sistemas o micrófonos con cargas distintas (phantom). Los micrófonos de condensador suelen ser más sensibles que los micrófonos dinámicos y suelen permitir una mayor calidad en la captura de la fuente sonora.
Conversión Analógico-Digital
Una vez que el sonido es transferido por medio eléctrico a un amplificador, mesa de mezclas o medio de almacenamiento en función del destino de este (ya sea un disco de vinilo, rodillo de cera o disco duro), la señal eléctrica será tratada de distinta manera. En esta sección nos centraremos en la conversión analógica-digital, ya que el medio digital es hoy en día el medio más común para el almacenamiento y distribución de música. La corriente eléctrica transmitida desde el micrófono se denomina corriente analógica ya que varía de manera continua e instantánea en el tiempo. La señal de audio analógica es continua y solamente limitada por el rango de magnitud del voltaje permitido por el medio en el que se transmite.
En el caso del audio digital, sin embargo, la señal tiene que convertirse a un código interpretable y computable por el ordenador, que en última instancia es binario. Por esta razón, la señal se tiene que discretizar. Es decir, de la señal continua debemos de tomar muestras discretas que puedan ser codificadas para representar la magnitud del voltaje representado. El proceso de conversión analógico-digital se puede resumir en una cuantización de la señal de entrada y un muestreo. La cuantización implica truncar la amplitud del voltaje de la señal a un valor determinado que está definido por el “bit depth”. El número de valores disponibles para representar la amplitud del sonido es denominado “bit depth”. Esto significa que en función de la resolución de bits tendremos más o menos niveles de "volumen" y así la señal podrá variar en la amplitud con mayor o menor "naturalidad". 1 bit contiene 2 valores de resolución, ya que es 21. 2 bits contienen 4 valores de amplitud distintos. 8 bits, 256 valores. 16 bits son 65536 valores distintos. Este valor equivale a un rango dinámico de hasta 96 decibelios posibles. En el estándar CD, 96 dB se considera un valor óptimo para nuestra percepción.
El muestreo consiste en capturar la señal sobre el tiempo. Es decir, hacer de una señal continua una representación estática de duración predeterminada. El número de muestras por segundo que se toman está determinado por el "sampling rate". Así, cuando vemos en un programa de software 44.1 KHz o 48 KHz significa que en el periodo de un segundo de audio la muestra se dividirá en 44100 o 48000 muestras.
Representación del Sonido en el Dominio Temporal
La representación temporal del sonido permite capturar la evolución del sonido en distintos descriptores. La mayoría de los programas orientados a la edición de audio usan, al menos, un tipo de representación del sonido en relación con la amplitud. En este tipo de representación el eje horizontal (X) es el tiempo y el eje vertical (Y) es la energía del sonido. Este tipo de representación basada en el tiempo es muy útil para distinguir visualmente secciones o ataques en el audio o la música representados. En la figura 7 podemos ver una representación de una melodía del Nocturno Op.2 de Chopin interpretado en piano. Como se puede observar en la representación azul, el ataque de las distintas notas está marcado por una mayor amplitud. Mientras que hay líneas completamente planas entre notas que reflejan la falta de sonido en esos momentos. De esta manera, solamente con observar el ploteo azul, podemos distinguir aquellas secciones en las que hay una articulación más marcada entre notas bien por la presencia de un mayor ataque en la energía o por una mayor cantidad de silencio entre las notas. El tipo de ataque en relación con la articulación de la nota interpretada es otra de las informaciones que podemos interpretar cuando los sonidos analizados son monofónicos. En la Figura 8 podemos ver una representación temporal de amplitud de una nota tocada en una flauta travesera. Como se puede observar, la diferencia al comienzo de la nota entre la representación del piano y la representación de la flauta es notable, siendo la de la flauta una articulación menos marcada y definida que la de la Figura 7. También podemos observar cómo el sonido decae por nota de una manera más rápida en la grabación del piano que en la grabación de la flauta. Finalmente, otra característica que se puede observar en la nota interpretada en la flauta es la oscilación en la amplitud producida por el vibrato. Podemos concluir que en la representación temporal podemos captar distintas cualidades específicas de los instrumentos relacionadas con el sonido y el volumen. Si ampliamos haciendo zoom in sobre la señal analizada podemos ver qué tipo de periodicidad la señal analizada tendrá, una cierta periodicidad y estructura determinada en parte por el timbre del instrumento o la fuente analizada. Como hemos visto, el número de veces que la señal sinusoidal completa un ciclo por segundo está determinado por la frecuencia. De esta manera podemos saber cuál es la frecuencia del sonido analizado. Estas propiedades sugieren que la representación temporal es una herramienta complementaria a la señal sonora útil para el análisis y extracción de información sobre el mismo. Además de la representación de la energía sobre el tiempo, gracias al procesamiento digital de audio, podemos extraer una amplia información con el fin de describir la señal. Parte de esta información se puede obtener a través de la descomposición de un sonido en sus componentes espectrales. Mediante el uso de un espectrograma podemos ver cuál es la presencia de los diferentes componentes armónicos contenidos en una señal de audio. En la figura 9 podemos ver la representación temporal de la amplitud y la del espectrograma equivalente.
Representación del Sonido en el Dominio Frecuencial
Como hemos visto, con la representación en el dominio del tiempo, necesitamos de un espectrograma para poder recuperar más información sobre la señal. Por ejemplo, si queremos saber cuál es la armonía de un acorde o fragmento polifónico necesitamos recuperar información indicando qué frecuencias tienen una mayor energía o cuál es la frecuencia fundamental sobre la cual el resto de la serie armónica se extiende. Esta se genera por medio de la Transformada de Fourier (FT) sobre la misma señal. Esta transformación permite pasar de un dominio a otro preservando información sobre la amplitud, la fase y la frecuencia. En la Figura 10 podemos observar cómo una señal puede descomponerse en numerosos componentes armónicos en ambos dominios. La línea roja representa la señal en el dominio del tiempo. En azul, verde y morado las tres componentes armónicas de la misma. Para señales discretas normalmente usamos la Transformada de Fourier Discreta (DFT). El análisis de espectro se realiza sobre muestras o conjuntos de muestras de la señal de una duración predeterminada para poder capturar las variaciones de la frecuencia a lo largo del tiempo. Matemáticamente esto se expresa multiplicando la señal discreta por una función con una forma determinada para delimitar entre las muestras extraídas para la transformación
Descripción del Sonido
El campo de Music Information Retrieval – MIR (Recuperación de la Información en Música) hace uso de la combinación de procesamiento de señal, percepción y cognición musical junto al aprendizaje automático para extraer información y validar distintas hipótesis relacionadas con la investigación musical por medio de la informática. En este campo, las distintas representaciones de música se pueden agrupar en distintos tipos de descriptores. En MIR generalmente se distinguen entre descriptores de tres tipos: Bajo nivel. Nivel medio. Alto nivel.
Descripción de Bajo Nivel
Los descriptores a bajo nivel son aquellos que se extraen directamente de la señal o mediante alguna transformación en el procesamiento de la señal a veces obtenida a través de un algoritmo. Ejemplos de estos descriptores son:
- Temporales (Energía, Zero Crossing Rate...).
- Espectrales (Spectral Centroid, Spectral Roll-off, Irregularidad espectral, Entropía espectral, Spectral skewnees, Spectral kurtosis, Spectral spread).
Descripción de alto nivel: Los descriptores de alto nivel son aquellos que tienen en cuenta procesos perceptuales generalmente relacionados con algún tipo de abstracción basada en la teoría de la música. Por tanto, son abstracciones sobre la señal orientadas a los humanos. Ejemplos de estos descriptores son: tonalidad, género musical, armonía, ritmo, líricas.
Descripción de Nivel Medio
Finalmente tenemos un tercer tipo de descriptores a nivel medio que son aquellos que relacionan aspectos de los descriptores a bajo nivel con aquellos descriptores a medio nivel. Ejemplos de estos descriptores son: MFCCs (que representan el espectro de un sonido en una fracción de tiempo de una manera que imita algunas de las propiedades de la percepción), detección automática de onsets (ataque de la nota). Esta clasificación no es estricta, por ejemplo el programa de audio Sonic Visualiser clasifica los MFCCs como descriptores a bajo nivel.
La recuperación de distintos descriptores tanto en música como en audio tiene varios usos y objetivos. El objetivo principal, desde un punto de vista musicológico y científico, es capturar características de la música que permitan descubrir relaciones en corpus musicales. Por ejemplo, ¿qué relaciones existen entre la música de J.S. Bach y la de C.P.E. Bach? ¿Podemos capturar qué propiedades expresivas hacen que podamos distinguir entre distintos pianistas? ¿Es posible entender cómo somos capaces de distinguir entre ritmos? Todas estas preguntas requieren una metodología científica, cuantitativa y cualitativa sobre la cual podamos responder a distintas hipótesis planteadas y validarlas o no. El segundo objetivo es facilitar la automatización de los procesos de catalogación, anotación e interpretación objetiva sobre la cual se puedan desarrollar algoritmos para la búsqueda o recomendación con fines académicos o comerciales. Por ejemplo, Spotify o Google hacen un uso extensivo de estos descriptores para incorporarlos en sus algoritmos y poder recomendar a sus usuarios listas de música.
Representaciones Simbólicas
Representaciones Simbólicas de Música
MIDI
MIDI es, hasta la fecha, el tipo de representación simbólica más extendida y usado en informática musical. MIDI es un acrónimo que significa "Musical Instrument Digital Interface". Si bien comúnmente es referido como formato de archivo (con extensión .mid), es un estándar industrial y protocolo de comunicaciones digitales. El MIDI fue acordado en 1981 entre las empresas líderes en la producción de instrumentos musicales electrónicos y presentado por primera vez en 1983. La intención de este protocolo era hacer posible la compatibilidad entre distintos productos creados por estas empresas. El formato fue adoptado posteriormente por desarrolladores de software. La masiva producción de instrumentos electrónicos principalmente para la música pop y electrónica, hizo que el MIDI se convirtiese en poco tiempo en un elemento tecnológico clave en el desarrollo de la música del siglo XX.
El protocolo MIDI no es comparable con una señal de audio debido a la discretización y representación simbólica de los diferentes componentes. Siendo un protocolo para la transferencia de mensajes a través de distintos dispositivos e interfaces, la idea clave a entender sobre el MIDI es que el mensaje en sí no contiene información sobre el sonido sino información sobre una formalización que representa el sonido. Este aspecto es la base para el desarrollo de la mayoría de los lenguajes incluidos a continuación en esta unidad didáctica. Un dispositivo MIDI como, por ejemplo, un teclado "maestro" se comunicará con otros dispositivos receptores de MIDI (“esclavos”) como un ordenador, enviando mensajes sobre el estado de los distintos parámetros manipulados. Así, al pulsar una tecla en el teclado maestro el mensaje MIDI incorpora una breve descripción numérica de la acción realizada. Se envía, por tanto, un mensaje de Canal de Voz (Channel Voice Messages) que incluye, entre otras, las siguientes informaciones:
- Canal MIDI
- Note ON / Note OFF
- Velocidad
- Presión / Aftertouch Monofónica / Polifónica de canal
- Modulación de tono (Pitch bend)
- Cambio de programa (Program Change)
Por ejemplo, los mensajes Note-ON (pulsación de nota) y Note-OFF (nota sin pulsar) se envían de manera separada. Esta elección de diseño en el protocolo MIDI se puede entender desde el punto de vista del secuenciador, en el cual la duración de una nota MIDI depende de la instrucción Note-OFF. En otros lenguajes posteriores como MusicXML la duración es un "mensaje" en sí.
En un mensaje MIDI se envian 3 bytes (debemos reseñar que 1 byte contiene 8 bits). El primer byte (byte 0) contiene información con distintos códigos básicos. El segundo byte (byte 1) incluye información sobre la altura y la octava. Es decir, qué nota se está tocando (si se está tocando alguna nota). El tercer byte (byte 2) incluye información sobre la velocidad de la nota. Cada uno de estos bytes puede acumular, por tanto, 7 bits de data, ya que un bit (acrónimo de Binary Digit) solo puede contener los valores 0 o 1, y tenemos 7 bits de data: 27 = 128. Es por esta razón que los mensajes MIDI pueden contener como máximo 128 valores distintos (de 0 a 127). Así, cuando recibimos MIDI en un secuenciador no podemos recibir más de 128 notas sonando simultáneamente. Por la misma razón, un instrumento MIDI no puede contar con más de 128 alturas de nota distintas o niveles de dinámica distintos. Teniendo en cuenta que un piano acústico moderno cuenta con 88 notas distintas, 128 es evidentemente más que suficiente. Aun así, en casos en el que el teclado MIDI está programado para otras utilidades como por ejemplo micro-tonalidad, 128 valores pueden ser insuficientes. Lo mismo sucede con el control de velocidad. Si se establece una relación lineal de 0 a 127 valores en las posibles dinámicas, esto puede ser deficiente en el comportamiento deseado. Es por esta razón que en la mayoría de los conversores de software de MIDI para instrumentos virtuales se utiliza una relación no lineal en la conversión del byte 2. Así, los sonidos fuertes suenan más fuertes que si fuera una relación lineal. Este tipo de relaciones e interpretaciones en los mensajes MIDI es muy común en secuenciadores e instrumentos VST.
Si bien la resolución de 128 valores distintos resultó una elección óptima en los orígenes del MIDI, plantea algunas limitaciones en distintos ámbitos musicales cuando estos mensajes deben ser convertidos a audio, ya que la relación entre los distintos parámetros en algunos instrumentos acústicos es más compleja y no linear. Es por esto que los 128 valores pueden resultar escasos. Aunque el MIDI ha tenido una gran presencia en la popularización de teclados y sintetizadores, y fue diseñado principalmente por fabricantes de estos instrumentos, ha sido aplicado a muchos otros instrumentos. El formato MIDI garantiza que el mismo número de mensajes sea enviado independientemente del instrumento. Así sea cuando giramos un potenciómetro, manipulamos un pedal, usamos un joystick, movemos un acelerómetro, ejercemos presión sobre un sensor que recoge la intensidad, alteramos la luz incidente en un sensor de luz... A continuación, veremos algunos instrumentos MIDI alternativos a los teclados.
Influencia del MIDI en la Investigación Musicológica
La aparición, popularización y desarrollo del MIDI es un elemento clave en la evolución del campo de la musicología empírica, cognitiva y computacional. El formato MIDI trajo consigo nuevas posibilidades para tratar el estudio de la música como un área científica, ya que permitió registrar cuantitativamente aspectos de la música que anteriormente estaban limitados al audio. Aún más importante, debido a la posibilidad de intercambiar archivos MIDI y documentar cuantitativamente el método experimental y los resultados obtenidos, numerosos estudios empíricos pudieron validarse o rectificarse con un mayor rigor científico. De esta manera, también se pudieron poner a prueba numerosas hipótesis en todas aquellas áreas en las que los estímulos o fuentes de estudio contenían MIDI.
Una de las áreas de investigación en la que más ha influido el MIDI es la del Estudio y Modelado de la Expresividad Interpretativa. Debido a la facilidad con la que se puede registrar pianistas con este formato, numerosos estudios han dado lugar a la formalización y modelado de patrones de expresividad e interpretación. En el campo de la musicología cognitiva, el MIDI también ha sido abundantemente estudiado para generar estímulos en los que distintas variables pueden ser controladas o manipuladas y el comportamiento del oyente o el intérprete son testeados. Debido a la limitación de los aspectos disponibles en MIDI, las variables más exploradas son aquellas relacionadas con aspectos relacionados con variaciones en el tempo (incluido el "timing"), el ritmo, la articulación, la altura, la dinámica o el vibrato. A pesar de que el formato MIDI cuenta con un canal para el control de banco de sonidos, el estudio del timbre no se puede controlar con el formato MIDI.
ESAC
La EsAC ("Essen Associative Code") es una representación simbólica musical desarrollada inicialmente para la codificación, archivo e intercambio de música popular europea. Actualmente obsoleta, fue enfocada en la investigación de melodías populares. La ESaC es una representación monofónica, lo cual limita el ámbito de investigación enormemente. La altura de las notas en EsAC es codificada de acuerdo al sistema de solfeo occidental europeo: do=1, re=2, mi=3, fa=4, etc. La duración de las notas puede variarse por medio de porcentajes: por ejemplo, incrementar 100% o reducir el valor de la nota a la mitad. La principal diferencia del EsAC comparado con el MIDI es que la notación del EsAC es relativa. Esto significa que tanto la altura de las notas como su duración no tienen un valor absoluto, sino un valor relativo entre ellos. Esto puede ser una ventaja. Por ejemplo, las melodías no tienen que transportarse al cambiar de tonalidad. Basta con comenzar por el tono deseado y la melodía es transportada a la tonalidad equivalente. Además, en la ESaC, se comienza a utilizar el formato para incluir información adicional sobre la partitura que no se usaba en el MIDI. Por ejemplo, información sobre el fraseo "expresivo" o información sobre el origen de la obra analizada. La ventaja principal de este formato es que la representación, si bien limitada en algunos aspectos respecto a otras más avanzadas como Kern o MusicXML, es simplificada y muy intuitiva.
Humdrum Kern
Fue ideado juntamente con Humdrum, que es una herramienta de software desarrollada para el análisis automático de partituras, creada por David Huron como investigador principal. En este tipo de notación podemos representar simultáneamente distintas voces. En el ejemplo de la Figura 10, podemos ver representada la "primera" voz de la Fuga 2 del Libro 1 del “Clave bien temperado". Las ventajas principales que el formato Kern representa en comparación al EsAC son:
- Podemos incluir información sobre el tipo de instrumentos e información expresiva como la articulación o el tempo.
- Podemos incluir información expresiva detallada. Por ejemplo, qué arcos deben ser usados en obras para instrumentos de cuerda.
- Podemos incluir información extra sobre la obra o la expresividad intencionada en el fraseo
Lilypond
El formato y software Lilypond es similar al de Kern y Hundrum, desarrollado con la intención de escribir y almacenar partituras. Tiene probablemente el código más simple e intuitivo de todos los formatos simbólicos, pero aun así, a día de hoy, no está tan extendido como los demás principalmente en el campo de la investigación y la musicología computacional.
MusicXML
El formato MusicXML es un formato basado en el lenguaje XML (Extended Markup Language) que es sobre todo utilizado en aplicaciones web. Fue desarrollado inicialmente con el objetivo de poder compartir archivos musicales de partituras a través de distintas aplicaciones software. La primera versión, publicada en 2004, fue desarrollada por "Recordare LLC" e inspirada por otros formatos orientados hacia la investigación musicológica como el formato Kern. Programas de edición de partituras como MuseScore
o Finale usan MusicXML. Además, es usado en librerías para la investigación y desarrollo en informática musical como Music21. El formato de MusicXML es el más completo hoy en día. Permite codificar información dentro de la notación occidental además de incluir en la misma partitura símbolos nuevos o no comunes dentro de la notación occidental. Hoy en día podemos encontrar más de 200 aplicaciones de software que usan MusicXML.
2. VENTAJAS E INCONVENIENTES DE LOS FORMATOS SIMBÓLICOS MUSICXML Y MIDI: Al igual que el formato Kern, el MusicXML es un formato más adecuado que el MIDI para la investigación basada en partituras. Algunos de los elementos que el MusicXML incluye y el MIDI carece son: • Dirección de voces. • Notación de expresividad (acentos, ligaduras, notas de gracia). • Silencios. • Ornamentos. • Articulación. • Compás. • Tonalidad. • Agrupación de notas. • Tablatura. • Texto.
Algunos de los elementos y funcionalidades que el MIDI contiene y MusicXML o Kern carecen son: • ON y OFF en las Velocidades (equivalentes a articulación en sonido). • Dinámicas (en un rango entre 1 y 127). • Datos de controlador (controladores MIDI pueden ser desde pedaleras de guitarra o slider en un teclado a micro-controladores con MIDI de cualquier tipo). • SysEX (formato para el intercambio de "presets" y funcionalidades MIDI). • Meta eventos (para representación jerárquica). • Gestión de bancos de sonidos. Como podemos ver, la preservación de estos elementos disponibles en MusicXML en las partituras es esencial cuando queremos comparar distintas fuentes u obras. Ya que el MusicXML es un formato relativamente nuevo, no cuenta con tantas partituras disponibles como el MIDI.
Unidad 4. Edición musical a través de software
1. SOPORTES DE ALMACENAMIENTO SONORO
BREVE HISTORIA DE EDICIÓN FONOGRÁFICA: Para estudiar los diferentes tipos de soporte de almacenamiento de sonido a lo largo de la historia reciente vamos a hacer “una visita” a la Colección de Registros Sonoros de la Biblioteca Nacional.
1.1 Cilindros de cera: En 1877 Thomas A. Edison construyó y patentó, por primera vez en la historia, un medio eficaz para grabar el sonido y reproducirlo a voluntad. Llamó “fonógrafo” a su invento, que utilizaba como soporte unos cilindros de cera que ofrecían cierta calidad y estabilidad en el registro de la voz y del sonido, lo que posibilitaba una producción industrial de los mismos para su comercialización.Los primeros fueron de papel de estaño, después de cartón parafinado y a partir de 1890 de cera maciza. Funcionaban mediante una aguja sujeta a una membrana, que recogía las vibraciones producidas por la música, la voz o cualquier otro sonido, y las grababa mediante surcos en la superficie del cilindro. El impacto de este invento llevó a colaborar a ingenieros, científicos, artistas, comerciantes, etc. que lograron perfeccionar el mecanismo de los posteriores gramófonos de discos, inventados por Emilio Berliner. Los cilindros de cera fueron muy populares entre 1887 y 1915. En la década de 1910, el sistema competidor basado en discos de gramófono triunfó en el mercado y se convirtió en el soporte de audio comercial dominante, provocando que la producción comercial en masa de los cilindros de fonógrafo terminara en 1929.
1.2 Rollos de pianola: Los primeros rollos musicales de papel perforado aparecieron hacia 1880. Pueden escucharse por medio de un instrumento mecánico de teclado denominado “pianola”, que funciona con un sistema neumático accionado por el pedaleo del “pianolista”. Las distintas notas musicales se producen al tiempo que va desenrollándose el papel, que lleva codificadas las posiciones de las notas del teclado en la colocación de las perforaciones.
1.3 Discos perforados: Los primeros discos que se utilizaron para la reproducción del sonido en el siglo XIX empleaban aparatos reproductores (los “tocadiscos” más primitivos) basados en mecanismos neumáticos similares al del organillo (como en los modelos Ariston, Ariosa o Herophon) o de caja de música (como en el Symphonion). Al girar los discos sobre el plato, accionados por una manivela, las perforaciones activan los mecanismos de producción de sonido. La duración de cada pieza es siempre muy breve y coincide con lo que tarda en girar el disco una vuelta completa; a partir de ese punto, la música empieza a repetirse.
1.4 Discos de pizarra: Desde la invención del gramófono por E. Berliner en 1887 hasta mediados de los años cincuenta del pasado siglo, se editaron cientos de miles de grabaciones en discos, popularmente denominados discos de pizarra, aunque estaban construidos de un tipo frágil de plástico negro.
1.5 Discos de vinilo: A finales de la década de los cuarenta empezaron a editarse los primeros discos de vinilo. Durante un tiempo el nuevo soporte convivió con el disco de pizarra, pero hacia 1956 lo sustituyó completamente como medio más adecuado para la comercialización de sonido grabado. El disco de vinilo gozó de enorme popularidad durante la segunda mitad del siglo XX, época dorada de la industria discográfica, y generó un importante fenómeno de coleccionismo público y privado. Se presenta básicamente en dos formatos, el “Single”, de menor tamaño y capacidad, y el “Long Play” (más conocido por sus iniciales “LP”). Las velocidades de giro suelen ser de 45 o 78 rpm para los discos de menor formato y de 33 1/3 para los de larga duración. Los aparatos reproductores “tocadiscos” fueron un objeto de consumo muy popular en todos los hogares españoles durante casi cuarenta años.
1.6 Cintas magnéticas: De los formatos vistos hasta ahora fue el único que permitió la edición de audio posterior a la grabación. Existen diferentes modalidades: • Cinta abierta: Soporte en el que se conservan las primeras grabaciones de los actos culturales celebrados en la Biblioteca Nacional en la década de 1980. • Cartucho: Un formato de ocho pistas grabadas en un solo sentido que alcanzó muy poca difusión comercial. La colección de la BNE es de 3.134 cintas que contienen en su mayoría música ligera de los años sesenta y setenta. • Cassette: Fue, junto al disco de vinilo, el sistema más popular de grabación y comercialización del sonido, por lo que una parte importante de su edición comercial se corresponde con otra idéntica en disco. La colección de la BNE es de unas 160.000 cintas de todos los géneros musicales y de archivo de la palabra. • Hilo magnético: Utilizado en la primera mitad del siglo XX como sistema de grabación de emisiones radiofónicas. La BNE cuenta con un aparato reproductor para este tipo de soporte y una pequeña colección de himnos y discursos políticos, la mayoría emitidos durante la Guerra Civil de 1936- 1939.
1.7 Cintas digitales (DAT - Digital Audio Tape): Es un soporte utilizado principalmente como medio de conservación y difusión de grabaciones realizadas originalmente por procedimientos analógicos. Una parte importante de la colección de discos de pizarra de la BNE se conserva también en este tipo de cinta (trabajo que se realizó entre 1996 y 2000), así como las copias de seguridad de los actos de la Biblioteca Nacional. Es un formato híbrido pues almacena datos digitales en un formato analógico.
1.8 Discos Compactos (CD): El nuevo soporte digital CD-Audio está aún vigente en el mercado y desplazó completamente en la década de 1990 al cassette y al disco de vinilo. La colección de la BNE ha ingresado mayoritariamente por Depósito Legal y supera en la actualidad los 150.000 volúmenes
2. PROGRAMAS DE EDICIÓN DE PARTITURAS
Tanto Sibelius como Finale han sido un estándar en la edición profesional de partituras. Sibelius suele resultar más accesible y flexible a la mayoría de los compositores, dando la posibilidad de utilizarlo como una herramienta de composición y no solo de edición. No obstante, el resultado en ambos programas es igual de profesional. En la actualidad, la mayoría de estos programas y aplicaciones expande su finalidad principal hacia otras funcionalidades como son la visualización de partituras en directo mediante una app, el estímulo de una comunidad de usuarios que intercambie partituras y una tienda online para la comercialización de partituras. En el campo de la Musicología, los programas de edición de partituras ponen al alcance de la mano de cualquier persona la edición y revisión de partitura originales con valor histórico para ser escuchadas, compartidas y publicadas en tesis doctorales, trabajos de investigación o con fines comerciales. SIBELIUS: Es un software de edición de partituras, es decir, un programa para escribir, editar, imprimir y publicar partituras de música. Actualmente lo desarrolla la empresa AVID (propietaria también del DAW Pro Tools), quien explota su licencia de uso. El progreso reciente de la tecnología ha llevado su evolución hacia la digitalización de la escritura manual sobre superficies digitales como el iPad o tablet por medio de la aplicación NotateMe. Existe una versión simplificada gratuita llamada Sibelius First. FINALE: Es otro de los programas más importantes de edición de partituras. Fue creado por la empresa MakeMusic. Existe una versión gratuita llamada Finale Notepad. MUSESCORE: Es un programa gratuito de notación musical desarrollado con licencia de software libre GNU (Licencia Pública General o en inglés General Public License). También existe una versión para iOS y Android. Otros programas: • Noteflight: Editor de partituras online. • Gregorio: Programa de notación de canto gregoriano y notación cuadrada desarrollado en software libre. Software libre de código abierto (Free Software escrito en código Open Source) es todo programa informático cuyo código fuente (el lenguaje en el que está programado) puede ser estudiado, modificado, utilizado libremente con cualquier fin y redistribuido con o sin cambios o mejoras.
2.1 Apps. • Notate Me: Aplicación de escritura musical para iOS y Android que digitaliza la escritura musical manual sobre la superficie de un iPad o un Tablet. • For Score: Una de las apps más utilizadas en iOS para visualizar partituras en formato pdf durante los conciertos. Permite además la edición de la partitura con notas de ensayo. Este tipo de aplicaciones ofrecen al intérprete la cómoda posibilidad de pasar de página por medio de un pedal.• Staffpad: Aplicación de escritura musical para Android que digitaliza la escritura musical manual sobre un Tablet
2.2 Formatos de exportación. Formatos de exportación de programas de edición de partituras: Además de los formatos propios de cada programa para guardar cada archivo existen formatos universales de exportación que permiten abrir los archivos con diferentes programas. El archivo pdf permite su visualización mientras que el MIDI nos permite escucharlo con diferentes programas. El archivo XML nos permite compartir partituras entre diferentes programas de edición de partituras además de programas de edición de audio como Logic Pro o Pro Tools. Hoy en día su precisión no resulta del todo funcional en algunas ocasiones.
2.3 Limitaciones de los programas de edición. Los programas de edición musical son una gran ayuda a la hora de compartir partituras y publicarlas con un resultado profesional, aunque no están exentos de multitud de limitaciones a la creatividad del compositor a la hora de transcribir algunas estéticas musicales. En el campo de la música contemporánea encontramos numerosos ejemplos donde los programas de edición musical habrían resultado una herramienta poco efectiva. Este es el caso de la música textural, la microtonalidad, las partituras gráficas, la música conceptual, etc. En composición y notación musical existen diferentes grados de determinación a la hora de definir los diferentes parámetros que constituyen la obra. Una partitura convencional nos permite definir la altura de las notas, la duración de estas, el carácter, el fraseo, la articulación, el tempo, etc., pero también se pueden definir estos parámetros de otras formas que den más libertad al intérprete a la hora de ejecutarlos; definiendo algunos de ellos, pero dejando otros sin definir. En el caso del jazz, por ejemplo, se suele clasificar como música improvisada, aunque el margen de improvisación en los estándares clásicos es bastante limitado, al quedar acotado a una improvisación melódica sobre una serie de acordes dados. El polo extremo de la indefinición sería la improvisación libre. Ejemplos de notación con menores grados de determinación que la convencional serían la notación espacial (proporcional) y las partituras gráficas. Otros programas que también permiten la edición de partituras son Logic Pro, Pro Tools, y muchos otros DAW. Aunque no es su función principal, pueden ser realmente útiles a la hora de exportar música previamente concebida en MIDI, valiéndose de bibliotecas de instrumentos virtuales, para ser posteriormente exportada como una partitura y poder ser grabada en directo por un grupo o una orquesta.
3. PROGRAMAS DE EDICIÓN Y PRODUCCIÓN DE AUDIO. El nombre técnico de estos programas de edición y producción de audio es DAW, que significa Digital Audio Workstation. Los programas profesionales de mayor longevidad en la industria son Pro Tools, Cubase y Logic, pero los más utilizados actualmente, y que han creado nuevos conceptos y funcionalidades son Ableton Live, Presonus Studio One, Bitwig, FL Studio, entre otros. Logic Pro: Programa propiedad de Apple únicamente disponible para Mac, utilizado por muchísimos compositores en todo el mundo por su versatilidad, integración con Mac, calidad de sonidos, etc. Pro Tools: Es el estándar de grabación y edición de audio profesional. Sigue siendo el DAW más utilizado en estudios profesionales de sonido principalmente porque en su momento era el único que ofrecía un paquete integral de software y
hardware certificado. Ableton Live: Programa inicialmente destinado a la interpretación de música en directo, se ha convertido en un favorito para la producción y composición. Es el favorito de la mayoría de productores actuales por su gran estabilidad, su claridad en el interfaz y su versatilidad para la creación (y re- creación) en directo. Audacity: Se trata de un editor de audio más que un DAW. Dentro del software de código abierto (open source) destaca Audacity. A pesar de su simplicidad es un programa muy utilizado. Otros programas de edición de audio comerciales son Adobe Audition, Steinberg Wavelab o Magix Sound Forge. Actualmente los editores de audio cada vez tienen menos uso ya que un software de producción de audio (DAW) es capaz de editar con precisión, incluso un software de producción de vídeo. Presonus Studio One: Es compatible con PC y MAC, tiene versión gratuita que incluye todo lo necesario para realizar una producción profesional de sonido, cuenta con sección específica de masterización, de interpretación en directo, edición de partituras, etc. Es intuitivo, rápido, estable Cockos Reaper: REAPER (acrónimo de Entorno Rápido para Producción de Audio, Ingeniería, y Grabación) es un software de grabación y una DAW creada por Cockos. La versión actual está disponible para Windows y macOS y hay versiones beta para Linux. Su gran ventaja es que dispone de una versión gratuita durante 60 días, que se puede extender indefinidamente si no se hace un uso comercial. Es el software que utilizaremos en la asignatura en este curso.
4. INTERFACES DE AUDIO: Interfaz es lo que conocemos en inglés como interfaces. En informática, se utiliza para nombrar a la conexión funcional entre dos sistemas, programas, dispositivos o componentes de cualquier tipo, que proporciona una comunicación de distintos niveles permitiendo el intercambio de información. Ejemplos de interfaces en informática son las interfaces de usuario (entre computadora y persona), como sería una pantalla o un ratón (si hablamos de hardware), o la ventana gráfica de un programa con la que interactuamos (si hablamos de software). En informática musical utilizamos “interfaz de audio” para referirnos a un aparato electrónico (hardware) que transforma audio analógico en digital y viceversa. En inglés nos referimos como audio interface, que funciona como DAC (Digital-to-Analog-Converter). El auge de la informática musical ha permitido que en la actualidad podamos acceder a interfaces de audio de altísima calidad por precio muy competitivos. Una interfaz de 2 canales de grabación y 2 canales de salida, con calidad de grabación máxima a 192 Khz como la Focusrite Scarlett 2i2 no cuesta más de 150 euros, cuando un equipo de esas características hace 20 años hubiera costado fácilmente 10 veces más (sin posibilidad de tener calidades más allá de muestreo a 48 Khz y 16 bits de profundidad). Las empresas más importantes de desarrollo de interfaces de sonido son Focusrite, Presonus, MOTU, Behringer, Universal Audio, RME, Audient o Steinberg. Las interfaces se conectan a los equipos informáticas a través de conexiones estándar de datos digitales como USB principalmente en la actualidad, pero también otras como firewire, PCI o incluso ethernet. Dentro de una interfaz debemos fijarnos en básicamente: número y tipo de las entradas y salidas, modo de conexión, si incluye interfaz MIDI, así como otros detalles como salida para auriculares, alimentación phantom, monitorización directa, existencia de software de control, mezclador virtual, etc
5. INSTRUMENTOS Y EFECTOS VIRTUALES
Además de los controladores MIDI (teclados, etc.) que vimos en la unidad 3, el lenguaje MIDI sirve para controlar instrumentos virtuales. Los instrumentos virtuales se pueden diferenciar en varios tipos: 1. Sintetizadores o generadores de sonido algorítmicos. Crean el sonido mediante cálculos muy avanzados: a) Emulaciones de sintetizadores clásicos y cajas de ritmo, etc (Arturia V Collection, Roland, Korg…) b) Sintetizadores y generadores de sonido diseñados directamente en formato virtual (Native Instruments Reaktor, Massive…) 2. Instrumentos virtuales que emulan el sonido de instrumentos acústicos, bien por modelado físico, o mediante técnicas híbridas junto a sampleado, etc. a) Pianos e instrumentos de teclado basados en cuerda percutida (modelado físico): Modartt Pianoteq b) Instrumentos basados en sampleado y procesado posterior: Bajo (IK Multimedia Modo Bass), Guitarra (UJAM Guitar), etc. 3. Bibliotecas de sonidos sampleados. Se realizan conjuntos de grabaciones de instrumentos reales realizadas mediante un proceso de muestreo / sampleado (“sampling”). Estas grabaciones pueden ser de notas o sonidos individuales o de fragmentos de interpretaciones (realizadas por músicos). Se registran múltiples grabaciones por nota a diferentes intensidades, y características del instrumento en cuestión. Posteriormente se asociarán a diferentes intensidades y modificaciones del intérprete sobre el teclado MIDI, creando un efecto natural en la respuesta del teclado MIDI, al imitar los cambios de dinámica, interpretación, timbre que sucederían naturalmente en el instrumento real. Sampler: Es un instrumento virtual que nos permite organizar las muestras (“samples”) para poder utilizarlas como si fuera un instrumento musical al asociar estas grabaciones con las teclas del piano (controlador MIDI). El sampler además nos permite editar el sonido por medio de filtros (ecualización, efectos, etc.). El instrumento virtual basado en librerías de sonido más conocido y utilizado actualmente es Kontakt, y podemos encontrar librerías de cualquier instrumento real, actual, histórico, desaparecido…, teclados, vientos, metales, percusiones, baterías acústicas, electrónicas, etc. pero también librerías de instrumentos virtuales directamente sampleados.
5.1 Efectos virtuales. De forma equivalente, existen efectos virtuales, es decir, emulaciones de efectos para procesamiento de sonido tales como: reverberación, eco, ecualización, compresión, puertas de ruido, y otros más creativos como chorus, flanger, phaser... junto a combinaciones y nuevas creaciones que han sido posibles gracias a la capacidad de procesamiento matemático de la actualidad. Estos efectos son también denominados “plugins”, y existen en múltiples formatos (VST, VST3, AU, AAX, RTAS, TDM). Los instrumentos virtuales también se instalan en formato de plugin, pero no suelen denominarse de esa manera.
6. FUNDAMENTOS DE PRODUCCIÓN DE AUDIO (DAW – COCKOS REAPER). Sin pretender utilizar la unidad didáctica como base formativa, ya que para ello es necesario las sesiones de webinars online, pero baste comentar los fundamentos: Un DAW va a tener siempre dos partes bien diferenciadas: la zona de producción o edición lineal, con base de tiempo, donde colocaremos los elementos ya sean de audio o MIDI (instrumentos virtuales), y la zona de mezcla o procesado, donde normalmente contaremos con un mezclador virtual en el que podremos insertar efectos virtuales, etc. Para poder realizar la producción o edición, contamos con canales de audio (mono, estéreo, multicanal) o MIDI, que son tratados como unidades de procesado individuales a nivel del mezclador, pero estos canales pueden agruparse en grupos (buses) y también existen canales específicos para efectos (FX) a los cuales podemos realizar envíos (sends). Todos estos canales finalmente van a ser dirigidos a un canal maestro (master) sobre el que podemos asimismo realizar procesamiento global de la mezcla final, o realizar posteriormente en una fase dedicada que es lo que se denomina masterización o mastering.%
Tema 5. Generación y documentación musical a través de software I
1. LOS COMIENZOS DE LA MÚSICA ELECTRÓNCIA
1.1 Los primeros instrumentos
1.1.1 Theremin
El físico y músico Lev Sergeyevich Termen, conocido en occidente como Leon Theremin, inventó el “Aetherophone” (“eterófono”) en 1919. Este instrumento se conoce popularmente como Theremin, y es uno de los primeros instrumentos electrónicos de la historia.
Se controla sin necesidad de contacto físico con el instrumento durante la interpretación. El instrumento consta de dos antenas metálicas que detectan la posición relativa de las manos del thereminista respecto a los osciladores para controlar con una mano las variaciones en la frecuencia y la amplitud con la otra. Estas variaciones producen una señal eléctrica que se amplifica y se reproduce por un altavoz.
El sonido resultante está relacionado con las variaciones del campo electromagnético que produce el propio cuerpo humano dentro de un campo electromagnético generado por una frecuencia de radio oscilante.
1.1.2 Ondas Martenot
Otro de los instrumentos que se sitúa en el origen de la música electrónica es el denominado “Ondas Martenot”. Fue presentado por el inventor y violonchelista francés Maurice Martenot en 1928 recibiendo una gran acogida del público.
Este impresionante instrumento está formado por un teclado, varios altavoces y un generador de ondas de radio oscilantes. La altura del sonido se modifica mediante un anillo metálico que el intérprete se ha de colocar en el dedo índice de su mano derecha y que se mueve paralelamente a un teclado parecido al de un piano. La altura del sonido cambia de forma lineal al mover el anillo, lo que produce un timbre característico rico en glissando y que permite el vibrato . Además, cuenta con controles en la mano izquierda con los que varía múltiples cualidades del sonido.
1.1.3 El magnetófono
En torno a 1935 la compañía eléctrica alemana AGE presenta al público el “Magnetophon”, un prototipo desarrollado a partir del magnetófono de alambre que había sido comercializado desde 1898 para el uso civil. Además de las mejoras en la calidad y la fidelidad de la grabación de sonido, el magnetófono permitió por primera vez la edición del audio registrado, que quedaba fijado sobre cintas de plástico magnetizadas.
El género musical al que dio lugar el uso de esta tecnología y de la cinta magnética como medio de expresión y como “instrumento musical”, que permitía por primera vez la descontextualización y re-contextualización sonora, se denominó originalmente música concreta.
1.1.4 Sintetizadores
Un sintetizador es un instrumento que “sintetiza” (crea, genera) sonidos transformando señales eléctricas a través de circuitos, para ser convertidas en sonidos audibles.
El componente del sintetizador que genera la señal eléctrica se llama oscilador. La estructura básica contiene además: filtrado, envolventes y osciladores de baja frecuencia (LFO), además de generadores de ruido, moduladores, etc. Existen diferentes tipos de síntesis de sonido de acuerdo con los diferentes procesos que se aplican para generar y procesar una señal de audio: Síntesis aditiva, síntesis substractiva, de modulación de frecuencia (FM), de modelado físico (PM), distorsión de fase (PD), etc.
Un ejemplo de uno de los primeros instrumentos que genera sonido mediante síntesis aditiva fue el popular órgano eléctrico Hammond, creado por el inventor estadounidense Laurens Hammond y comercializado entre 1935 y 1978. Se basa en la suma de componentes senoidales básicas, que producen una síntesis compleja. El sonido de este instrumento ha impregnado con su timbre característico multitud de grupos de blues, jazz y rock de la historia de la música popular reciente. Algunos ejemplos de sintetizadores clásicos (hardware):
- Síntesis substractiva analógica (parte de una onda rica en armónicos a la que sustrae componentes): Casi toda la línea MOOG Sequential Circuits Prophet 5, Roland Juno 60.
- Síntesis aditiva (parte de una onda básica, como una senoidal, a la que va añadiendo más armónicos): La línea K de Kawai (K1, K5, K5000) Seiko DS 250, Synergy
- Síntesis por modulación de frecuencia (FM) (parte de un oscilador cuya frecuencia se modula por otro y otros): Serie Yamaha DX (DX7, DX11…)
- Síntesis de distorsión de fase (PD) (varía la fase de formas de onda almacenadas en memoria): Línea CZ de Casio (CZ-1, CZ-101, CZ-3000…)
- Síntesis de modelado físico (PM): Yamaha VL1, VL7. Al ser un tipo de síntesis que requiere mucha computación la oferta es más amplia en sintetizadores software como Chromaphone, Pianoteq, Noisy, etc.
2. ALGUNOS PIONEROS DE LA MÚSICA ELECTRÓNICA
2.1.1 EEUU
Bebe Barron y Louis Barron fueron dos estadounidenses pioneros en el campo de la música electrónica. Realizaron las primeras composiciones de música electrónica en cinta magnética, y la primera banda sonora de una película completamente electrónica para el título Forbidden Planet.
2.1.2 Elektronische Musik
El compositor alemán Karlheinz Stockhausen trabajó durante años en el estudio de música electrónica que la WDR1 creó en 1951 en Colonia. El trabajo que desarrolló en este estudio sentó las bases de la música electrónica contemporánea alemana de vanguardia “Elektronische Musik”, e influyó notablemente en el resto de Europa.
2.1.3 IRCAM
El Institut de Recherche et Coordination Acoustique/Musique (IRCAM) es un instituto francés de investigación sobre acústica y música fundado en París en 1970 por Pierre Boulez. Es uno de los principales centros de referencia e investigación de música contemporánea creada por ordenador.
3. HERRAMIENTAS DE COMPOSICIÓN ELECTRÓNICA EN LA ACTUALIDAD
El desarrollo de la informática en el mundo audiovisual brinda en la actualidad multitud de nuevas posibilidades de expresión. En este caldo de cultivo en constante evolución que integra el mundo musical, el visual y el tecnológico surgen numerosos entornos informáticos, programas y lenguajes de programación que logran asentarse como referentes durante años, aunque algunos caen en desuso, sustituidos por actualizaciones más versátiles o simplemente por nuevas tendencias estéticas del ámbito del arte contemporáneo.
3.1 Music Coding / Live Coding
Live Coding se refiere al hecho de “programar” durante una actuación en directo como medio de expresión, utilizando el ordenador como un instrumento musical, que, en lugar de responder al movimiento físico del intérprete, responde a los comandos de programación por él introducidos en el ordenador. El programador/compositor (“Live Coder”) utiliza varios entornos informáticos para crear sus obras, como por ejemplo los programas Max MSP, Reaktor, el hardware Arduino o los lenguajes ChucK o SuperCollider.Estos lenguajes se pueden utilizar tanto para la interpretación en directo como para la composición de obras o creación de efectos sonoros en estudio.
3.1.1 SuperCollider
Entorno informático desarrollado en 1996 por James McCartney como herramienta de síntesis de sonido en tiempo real y composición algorítmica.
3.1.2 ChucK
ChucK es un lenguaje de programación y síntesis de sonido (2002) que permite generar, grabar y sintetizar sonido en tiempo real. Fue creado por Ge Wang y Perry Cook, en la Universidad de Princeton, EEUU.
3.1.3 Max MSP
Max MSP es uno de los programas informáticos más utilizados por compositores de música electrónica contemporánea y artistas multimedia, y ha logrado permanecer por ya casi 40 años. Fue escrito originalmente por Miller Puckette en IRCAM (Institut de Recherche et Coordination Acoustique/Musique de París) a mediados de los años 80 y actualmente lo comercializa la compañía Cycling '74.
Max MSP es un entorno gráfico que permite construir circuitos virtuales en el ordenador. Los circuitos se construyen mediante bloques de componentes electrónicos virtuales y entre ellos puede suceder cualquier tipo de interacción electrónica para luego transformarse , en sonido, visuales o movimientos mecánicos. Es como si el compositor, para la creación de su obra, pudiera disponer de cualquiera de los aparatos electrónicos que ya existen en el mundo físico , pero con la ventaja de estar todos directamente sobre el escritorio de su ordenador.
Las posibilidades que ofrece no se limitan al mundo sonoro sino que se expanden hacia el mundo audiovisual y multimedia al permitir el control y la comunicación con otros “aparatos” electrónicos, sensores, y gestores de contenido audiovisual.
3.1.4 Reaktor
Reaktor es parecido a Max MSP pero en una versión más accesible, con algunas limitaciones audiovisuales respecto a Max MSP, aunque con otras ventajas en cuanto a la facilidad y la calidad del sonido que le otorgan un enorme potencial profesional. Está comercializado por Native Instruments (NI) y su uso también es más popular en producción musical.
3.1.5 ARDUINO: Software + Hardware
Arduino es el nombre de un proyecto que engloba una compañía, una comunidad de usuarios desarrolladores, un programa (open source) y una serie de kits de circuitos electrónicos para construir dispositivos digitales interactivos que funcionan como sensores y que pueden controlar objetos del mundo real.
Arduino está enfocado en facilitar el uso de la electrónica y la programación de sistemas aplicados a proyectos multidisciplinares. Tiene una vertiente pedagógica muy accesible a diferentes edades al combinar la música y la robótica de una forma muy intuitiva y divertida.
4. APPS Y PROGRAMAS PARA MÚSICOS
Existe una enorme variedad de aplicaciones y programas informáticos relacionados con la música. Algunos de ellos ya los hemos ido viendo en las unidades anteriores. Una posible catalogación de estos sería:
4.1 Herramientas de medición
En esta categoría podemos incluir todo tipo de metrónomos y afinadores. Algunos metrónomos ofrecen grandes posibilidades a la hora de configurar ritmos irregulares. Ej: Tempo Advanced (iOS).
Otra opción muy divertida en lugar de estudiar con metrónomo (desde escalas a obras) es utilizar aplicaciones que ofrecen ensambles completos de percusión interpretando diferentes patrones rítmicos (latinos, flamencos, etc.). Ej: Afro Latin DM (iOS).
Además de los múltiples afinadores comunes que permiten calibrar la altura relativa de las notas (como por ejemplo el La a 440Hz, a 442Hz, etc.), existen algunos que además dan la posibilidad de afinar de acuerdo con escalas no temperadas (escalas históricas, pitagóricas, etc.). Ej: Cleartune (IOS).
4.2 Herramientas de catalogación
En este apartado vamos a destacar el programa para ordenador Muscat, desarrollado por RISM (Répertoire International des Sources Musicales), organización sin ánimo de lucro fundada en 1952 en París con el objetivo de ofrecer un catálogo del repertorio musical internacional. En la actualidad dicho catálogo cuenta con aproximadamente 1.132.000 fuentes musicales.
El programa Muscat, desarrollado en programación Open Source, ofrece al usuario la posibilidad de gestionar su propia base de datos, de acceder a la base de datos internacional, así como de hacer aportaciones propias a dicha base de datos.
4.3 Herramientas para la composición y la producción
En la unidad anterior exploramos varios de los programas profesionales denominados “Estaciones de trabajo para Audio Digital” o DAW (Digital Audio Workstation), que permitían la edición de audio, la producción y la composición, la generación de sonidos mediante sintetizadores virtuales y la gestión de bibliotecas de muestras o samples. Existen además versiones no profesionales de los mismos que ofrecen un amplio abanico de recursos y herramientas para el desarrollo de la creatividad y el aprendizaje a través de la grabación, la edición de audio y diferentes recursos MIDI. Ej: Garageband (macOS, iOS), Toc and Roll (iOS): una versión para niños que facilita la composición de canciones.
Otro software gratuito muy interesante que permite la manipulación de audio además del ya mencionado Audacity es Paulstretch. En este caso este pequeño programa está especializado en estirar o comprimir la onda de audio, en realidad es más un plugin autónomo.
4.4 Herramientas para la interpretación en directo
Una de las innovaciones que ha traído la tecnología a la música en directo es el uso de tablets o iPads para leer partituras (tanto en conciertos como en el estudio personal). Los problemas que solucionan estas aplicaciones y estos interfaces que permiten pasar página con un pulsador de pie son un gran alivio, en muchos casos, a la carga de habilidades que ya conlleva la interpretación en directo. Las aplicaciones suelen funcionar como bibliotecas de partituras en formato pdf que permiten su edición con notas de ensayo, visualización simultánea de la partitura general y la parte de cada instrumento y otras ventajas prácticas (tamaño reducido para almacenar y transportar un gran número de partituras, iluminación siempre adecuada en la partitura, etc.). Estas ventajas las han convertido en la opción elegida por numerosas agrupaciones e instrumentistas. Los pedales y las tablets/iPads se suelen comunicar vía Bluetooth. Ej: Fourscore (IOS).
La mayoría de los programas de edición de audio (DAW) y de interpretación en directo pueden ser controlados mediante aplicaciones que transforman los tablets/iPads en superficies de control táctil para manipular sus parámetros. Muchos programas incluyen este tipo de aplicaciones como parte del software original que se comunican con el ordenador por medio de Wifi, Bluetooth u OSC en combinación con MIDI.
Existen también numerosas aplicaciones para dispositivos que transitan entre el juego y la herramienta compositiva para generar sonidos, melodías, etc.
Otra herramienta relacionada con la música, que va desde el ámbito profesional hasta el amateur, es el software y el hardware para DJs. No hay que olvidar que además de estar de moda es una de las actividades más lucrativas en la actualidad y a las empresas les gusta invertir en el desarrollo de productos cuyo éxito en venta está asegurado. Ej: Traktor de Native Instruments, Mixxx (software gratuito open source).
4.5 Herramientas pedagógicas
La gamificación de la metodología en la pedagogía musical resulta una gran aliada para el desarrollo de las habilidades de cualquier músico. Uno de los pilares para una educación sana es la comprensión por parte del profesor de que cada persona aprende de maneras y a ritmos diferentes. Las aplicaciones pueden ser buen un aliado en este sentido, si además estimulan el carácter lúdico del aprendizaje al margen de la presión a la que se ha sometido innecesariamente a multitud de alumnos de música en el sistema tradicional de enseñanza. En este sentido, el docente cuenta hoy en día con una batería de apps y juegos para el entrenamiento auditivo, la lectura a primera vista, la teoría musical, etc. Ej: Ear Master (entrenamiento auditivo).
Tema 6. Generación y documentación musical a través de software II
1. HOME STUDIO
El concepto de “home studio” (estudio en casa) nos sitúa a finales de los años 90, y ha supuesto el mayor cambio de paradigmas en los procesos de grabación, edición y producción de audio, como consecuencia del desarrollo de la tecnología digital.
Antes de la era digital los estudios de grabación solo estaban al alcance de algunas empresas discográficas que actuaban como inversores al cubrir los gastos de producción de nuevos álbumes a los grupos por ellos seleccionados.
2. CABLES
Probablemente a muchos de nosotros nos gustaría vivir ignorando la multitud de tipos de cables y conectores que inundan nuestra vida cotidiana, pero tarde o temprano llega un momento en el que es necesario un conocimiento básico sobre estos utensilios electrónicos y digitales del siempre cambiante mundo de la tecnología. A continuación exponemos los cables más comunes dentro del ámbito del sonido y la tecnología digital.
2.1 Cables analógicos o digitales
Los cables digitales transmiten información codificable en 0s y 1s mientras que los cables analógicos transmiten la información de ondas sonoras transducidas (transformadas) en ondas electromagnéticas. Ejemplos de cables analógicos: XLR, RCA, TRS, etc. Ejemplos de cables digitales: USB, fibra óptica, etc.
2.2 Cables balanceados
Se utilizan en equipos de audio profesional ya que evitan o reducen sustancialmente ruidos e interferencias electromagnéticas. Constan de tres cables (uno de señal positiva, otro de señal negativa y otro de toma de tierra). Durante la transmisión del sonido por cable se generan normalmente ruidos (interferencias electromagnéticas) que se van sumando a la señal original. En el caso de los cables balanceados, al final del recorrido las señales opuestas (positiva y negativa) se unen filtrando la mayoría de estas interferencias. Ejemplos de cables balanceados son los XLR (canon) o TRS (Jack ¼).
DI box (“Direct box”) o caja de inyección es un dispositivo que transforma una señal no balanceada en una señal balanceada de baja impedancia para poder transmitirse a través de cable reduciendo ruidos.
2.3 XLR
La impedancia eléctrica es la oposición (resistencia) al paso de la corriente eléctrica por un medio. XLR (también conocido como “canon”) es un cable de audio balanceado que se utiliza principalmente para conectar micrófonos, altavoces, sistemas de pre-amplificación, etc.
2.4 Jack (TRS, TS y TRRS)
Los cables TRS y TS son comúnmente denominados “Jack”. Existen dos tamaños principales: el Jack ¼ y el Mini Jack.
El Mini Jack es uno de los tipos de cables estero más utilizados a nivel usuario (como por ejemplo para conectar los auriculares al teléfono).
El Jack ¼ (6,35 mm) puede ser TRS o TS dependiendo del número de anillas (vías) que tenga. Una de las vías siempre funciona como toma de tierra. Las otras dos pueden funcionar para cada uno de los canales estéreo (derecho e izquierdo) o para transmitir una señal balanceada (señal + y señal -).
- Los TRS (tip - ring - sleeve; es decir, punta - anillo - manga) son cables balanceados de tres vías. También se pueden utilizar para transmitir señales estéreo no balanceadas.
- Los cables TS (tip – sleeve, o, en castellano, punta – manga) son cables no balanceado de dos vías. Es el caso por ejemplo de los cables que conectan las guitarras y bajos eléctricos con los amplificadores (corta distancia, alta tolerancia al ruido).
Los cables Mini Jack TRRS tienen tres anillas y utilizan esa cuarta vía (además del canal derecho, el izquierdo y la toma de tierra) para la toma de micrófono. Por ejemplo, los auriculares que se utilizan para hablar por teléfonos móviles llevan integrado un micrófono en los auriculares.
2.5 RCA
El nombre RCA viene de la antigua compañía estadounidense de electrónica Radio Corporation of America, que introdujo su diseño en 1940. Es un cable no balanceado, de baja calidad y de uso doméstico común, presente, por ejemplo, en los equipos de audio estéreo (lectores de CD, amplificadores, etc.).
2.6 Fibra óptica
Los cables de fibra óptica se utilizan especialmente en el ámbito de las telecomunicaciones y redes de datos por su enorme capacidad de transmisión de información digital. Estos cables, formados por un haz de hilos de plástico transparente y muy finos, permiten la transmisión de información a larga distancia mediante impulsos de luz , inmunes a interferencias electromagnéticas.
2.7 USB
USB es un cable de transmisión de datos digitales. Su nombre responde a las siglas de Universal Serial Bus. Es uno de los cables más utilizados en el mundo de la informática para conectar todo tipo de aparatos periféricos con el ordenador, como interfaces MIDI.
3. MESAS DE MEZCLAS
La función principal de una mesa de mezclas analógica, como su nombre indica, es combinar fuentes de sonido diferentes para ser reproducidas simultáneamente. La mesa nos permitirá ajustar los niveles de salida (volumen), la distribución panorámica (derecha/izquierda), la ecualización (graves/medios/agudos) y la aplicación de efectos (filtros) a cada una de las fuentes de la mezcla.
Cuando un DJ “mezcla” en directo, su trabajo consiste, en un nivel básico, en fusionar de forma natural el final de una canción con el principio de otra. Este proceso requiere el control de ambas fuentes de sonido en tiempo real así como la posibilidad de pre-escucha de las nuevas canciones. Las mesas de mezcla para DJ tienen funciones similares a las mesas de mezcla estándar pero incluyen muchas funciones específicas.
Cuando uno o varios micrófonos suenan en directo sobre una grabación de audio también es necesaria una mesa de mezclas para equilibrar sus volúmenes.
En el caso del sonido digital. Las mesas de mezcla digitales pueden actuar de forma equivalente a las analógicas encargándose de la digitalización internamente del sonido, pero también pueden ser un controlador MIDI, o, dicho en otras palabras, una especie de enorme ratón o teclado que nos permite interactuar físicamente (interfaz) con el software del ordenador, realizando las mismas funciones que con el ratón actuando sobre los mismos controles que podemos tener visualmente en la pantalla.
4. GRABACIÓN Y EDICIÓN DIGITAL DE AUDIO
Las estaciones digitales de audio (DAW) ofrecen unas posibilidades increíbles para la grabación, edición y producción de audio al poner a nuestro alcance, en un ordenador, las funcionalidades de los antiguos estudios de grabación y de la multitud de equipo que era necesario para capturar una interpretación musical en directo, procesarla e intemporalizarla en formatos tangibles y móviles disponibles al público. Estos programas integran habitualmente: una mesa de mezclas, una biblioteca de herramientas para la edición y la producción de audio (plugins con filtros, efectos, etc.), una biblioteca de instrumentos virtuales controlados por MIDI (instrumentos acústicos sampleados) y una biblioteca de sintetizadores.
El siguiente paso en el proceso de producción tras la grabación del sonido por medio de micrófonos sería el de la edición de las grabaciones a fin de estructurar la obra musical. Cuando hablamos de edición de audio nos referimos a los procesos de cortar, mover y pegar y, en definitiva, reorganizar el texto musical
Existen múltiples posibilidades para gestionar el proceso creativo. Inicialmente, hasta finales de los años 60 los grupos musicales grababan “en directo” como si de un concierto en el estudio se tratara. Posteriormente la aparición de grabadores multipistas permitió la grabación individual, y permitió pequeñas ediciones a través de la manipulación de las cintas magnéticas que servían de soporte. Hoy en día la mayoría de los grupos graban por separado en pistas que se van editando y añadiendo una sobre otra. Para poder gestionar y editar las múltiples grabaciones con facilidad, se establece un tempo fijo con un pulso de metrónomo (click track). De esta forma se crea una cuadrícula (grid) sobre la que se van alineando todas las grabaciones.
La posibilidad de estructurar la música en un tiempo fijo es un gran aliado a la hora de editar, pero también conlleva una pérdida de expresividad. Igual sucede con la tendencia a utilizar el plugin de Antares “Auto-Tune” para afinar las voces (cuando la mayoría de las músicas populares contienen elementos microtonales e inflexiones tonales que no se ajustan a las cuadrículas de la afinación temperada).
El documental “GET BACK” de The Beatles (2021) es un ejemplo único del proceso de creación, grabación, mezcla, producción… a finales de los años 60, donde podemos ver las limitaciones técnicas y artísticas existentes en ese momento. Altamente recomendable
5. PRODUCCIÓN DIGITAL DE AUDIO
La producción digital de audio funciona de manera similar a la analógica. La mayoría del software digital que sustituye a los aparatos electrónicos físicos es una copia de estos en el intento por imitar sus características sonoras e incluso su aspecto físico y sus nombres. De esta manera se comercializan multitud de plug-ins para todo tipo de procesos de producción de audio (ecualización, compresión, etc.).
Uno de los estándares de la industria, adoptados por su calidad y su similitud acústica a los módulos de producción originales, son los plug-ins de la marca Waves. A continuación vamos a definir algunos de los procesos básicos a los que se somete la señal de audio con el objetivo de mejorar el resultado final de la producción.
Como en todo campo, existen diferentes escuelas y estilos de producción: algunos productores defienden que la fase más importante es la grabación y reducen al mínimo el número de efectos de post-producción; otros utilizan todas las herramientas posibles hasta rebasar los límites de un resultado sobreproducido; algunos buscan una estética depurada como si pudiéramos escuchar cada instrumento muy cerca; otros buscan un sonido global contundente sin importar los detalles; y los hay que siguen a rajatabla los cánones establecidos en la guerra del volumen para intentar ganar la batalla en el proceso de masterización.
5.1 EQ (Procesos en frecuencia)
La ecualización es un proceso que afecta al timbre del sonido y que consiste en subir o bajar el nivel de un determinado rango de frecuencias. El efecto de la ecualización es el mismo que el que se produce al variar la posición de la boca mientras emitimos un mismo sonido. Generalmente la ecualización se trabaja en dos fases:
- Ecualización correctiva: Se utiliza para limpiar la grabación de frecuencias no deseadas, como por ejemplo ruidos de un instrumento, siseos (al pronunciar las consonantes “p” o “s” se produce una distorsión molesta, acentuada al comprimir la pista), problemas de feedback (realimentación), etc.
- Ecualización creativa: Se utiliza para dar color tímbrico e integrar el instrumento dentro de la mezcla final (evitando que entre en conflicto con otros instrumentos en la estética global deseada).
5.2 Compresión y limitación (Procesos de dinámica)
La compresión de audio se aplica para dar estabilidad dinámica a las grabaciones de cada pista y a la mezcla final en el proceso de masterización. Sirve, entre otras cosas y de forma sencilla, para subir el volumen (aumentar la amplitud de onda) de los sonidos con menos señal y para bajar el volumen de los que más señal tienen. Al igual que el resto de herramientas de producción, un exceso de compresión afectará negativamente a la mezcla ya que perderá expresividad en la interpretación al limitar las diferencias en el rango dinámico (además de sacar a la luz ruidos no deseados, como por ejemplo el sonido de los trastes al cambiar de posición en la guitarra). Hay compresores especializados en determinados procesos como los De-Esser (compresión de la zona de siseo de la voz), o preparados para comprimir específicamente la voz humana o determinados tipos de instrumentos según su tiempo de ataque y relajación fijados.
Los limitadores son compresores especializados idealmente con un ratio de 1:infinito que básicamente sirven para evitar que lo que suena en una de las pistas sobrepase un determinado nivel. A nivel de masterización es el último efecto que se inserta en el máster para controlar el nivel final de la pista.
5.3 Distorsión / Excitación (Procesos armónicos)
Es la alteración de la señal original manipulando, principalmente, su espectro armónico. Existen múltiples tipos. Uno de los más frecuentes es la distorsión por saturación de la señal (overdrive). Toda la música Rock se basa en el descubrimiento de la distorsión de señal aplicada a la guitarra eléctrica. La creación de nuevos armónicos en una señal resulta en una percepción subjetiva de mayor riqueza auditiva. Los equipos de grabación analógica llevan implícita la distorsión armónica en muchos de sus procesos, grabación a cinta, paso de la señal a través de los canales de mezcla, equipo, etc. Esa sutil pero múltiple distorsión es lo que a veces se ha llamado “calidez analógica” que durante muchos años no podía ser replicada en el entorno digital ya que el procesamiento necesario para realizarla era muy alto. Actualmente existen multitud de plugins que simulan distorsiones de decenas de equipos, procesos, etc.
5.4 Reverb, delay, eco (Procesos temporales)
Delay o retardo es la repetición de una señal con un cierto tiempo de retraso respecto a la señal original.
Dependiendo del tiempo que tarda en repetirse el sonido, el número de repeticiones y sus volúmenes, percibiremos diferentes tipos de efectos (como por ejemplo diferentes tipos de reverbs o ecos).
Reverb: Sirve para imitar espacios. Los estudios de grabación tienen una sonoridad muy seca (el sonido apenas se refleja en las paredes). Los productores buscan este efecto antinatural para poder tener más control sobre la mezcla final y poder “naturalizar” el sonido en otras fases del proceso de producción. Al añadir reverbs se puede crear la sensación acústica de que la grabación tuvo lugar en un espacio diferente al real (como por ejemplo una catedral con mucha reverberación). Distinguimos dos tipos principales de reverb: algorítmicas y de convolución.
Eco: Al igual que en el mundo físico, el entorno digital replica lo que sucedería si el sonido se reflectara sobre una pared o en una cueva. Dependiendo de las características de ese entorno se producirá un sonido característico.
5.5 Distribución espacial
Paneo: Para poder replicar el efecto espacial que se produce al escuchar música en directo (por ejemplo, en un concierto de orquesta en el que escuchamos los violonchelos y los contrabajos a la derecha y los violines a la izquierda), disponemos de la herramienta de distribución panorámica o paneo (pan o panning en inglés). Estos controles nos permiten, tanto en el mundo digital como en el analógico, graduar el envío de la señal hacia la derecha o la izquierda (siempre que estemos en un entorno estéreo). En un entorno multicanal, por ejemplo un 5.1 habitualmente usado para cine en casa, nos encargaríamos de decir donde y a que nivel debe sonar cada sonido dentro de los 2 altavoces frontales, los 2 traseros, el central y el subwoofer.
5.6 Otros efectos
Wah wah, phaser o flanger son los nombres de algunos de los numerosos efectos que se utilizan habitualmente, sobre todo en el ámbito de los instrumentos eléctricos (guitarras, bajos, etc.). Consisten en la manipulación del contenido en frecuencia a lo largo del tiempo.
“T-pain effect” es el nombre de la aplicación de uno de los efectos para voz que todos conocemos debido a su uso común en la actualidad en multitud de estilos musicales comerciales como el trap y que fue popularizado por el rapero T-Pain. En este caso el efecto se produce al configurar de una forma extrema las herramientas de corrección de afinación en concreto el efecto se inició usando Antares Auto-Tune.
5.7 Masterización
Masterización o mastering, en inglés, es una fase del proceso de post- producción de audio en la que se exporta una versión maestra de la mezcla final a partir de la cual se crean copias que se almacenan en diferentes formatos físicos (vinilos, CDs, etc.) y/o digitales (.wav, .mp3, etc.). En la actualidad el proceso de masterización suele ser digital, pero también analógico y sobre todo híbrido.
A diferencia de las fases anteriores (grabación, edición, producción y mezcla), en esta fase se trabaja normalmente con una única pista (ya sea mono, estéreo o multicanal), resultado de los procesos de producción anteriores, aunque se aplican procesos similares (eq, compresión, etc.). El objetivo de una buena masterización es que la música individualmente tenga un equilibrio tonal y dinámico acorde con el estilo y las necesidades de la producción, y que el sonido se traduzca correctamente en cualquier dispositivo (desde equipos de alta fidelidad hasta ordenadores o móviles) y en cualquiera de los formatos analógicos y digitales. Pero también, masterizar es agrupar todas las canciones de un disco y darlas equilibrio y coherencia a todos los niveles, etiquetar y preparar los archivos para los procesos de duplicación masiva, etc. así como servir de comprobación final para detectar deficiencias o errores producidos en las fases anteriores y resolverlos en la medida de lo posible, ya que el ingeniero de masterización no suele estar involucrado en los procesos anteriores, sirviendo de “oídos frescos”. Bob Katz uno de los ingenieros de masterización más reputados de la historia dice que si las fases anteriores están bien hechas la masterización idealmente sólo sería un chequeo final que no involucraría apenas procesado.
Una cadena de procesamiento para masterización puede incluir:
- Ecualización correctiva
- Control de dinámicas (compresor de una o varias bandas)
- Excitador / distorsión armónica
- Control de panorámica (estéreo o multicanal)
- Ecualización creativa
- Limitador
- Dithering (proceso para ajustar la profundidad de bit)
- Medición de respuesta en frecuencia
- Medición de niveles (dBFS, LUFS, RMS, etc.)
Sobre el dithering:
Al terminar el proceso de masterizado tenemos que extraer una versión del archivo de audio digital con la profundidad de bit adecuada. Antes de la aparición del streaming musical esto solía significar 16 bits ya que el destino final era un CD. Actualmente, la mayoría de plataformas de streaming (spotify, iTunes, etc) permite el envío a 24 bits (también a 16 bits), pero en cualquier caso hay que ajustar, lo que significa normalmente reducir la profundidad de bit de 32 o 64 bits a los 24 o 16 bits finales. El dithering es un proceso matemático que, a través de un proceso en el contenido de amplitud de la onda, permite reducir la precisión sin que conlleve pérdidas detectables.
Sobre la medición de niveles y LUFS:
Desde el inicio de la grabación de sonido, las dos unidades básicas para medición del nivel de amplitud sonora en estudio fueron los dBFS (decibelios full-scale o de escala completa) y los RMS (Root Mean Square). Los primeros permitían saber el nivel máximo de la señal o nivel de pico, y el segundo el nivel medio, más relacionado con como nuestro oído determina si algo “suena más alto o más bajo”.
En la actualidad, y no desde hace mucho, contamos con las unidades LUFS (Loudness Units Full Scale), unidades de volumen de escala completa.
Esto es una medición adaptada al funcionamiento preciso de nuestro oído, que aplica diferentes pesos o importancia a cada rango de frecuencias y nos da una medición muy acertada para poder determinar si una canción está más alta o baja respecto de un nivel de referencia.
Durante los últimos años las plataformas han usado distintos niveles de referencia, incluso distintas unidades, pero finalmente la mayoría de ellas han llegado al acuerdo de usar LUFS, y con un valor de referencia de -14 LUFS (Spotify y Youtube en 2021).
Para mayor referencia: https://youlean.co/loudness-standards-full- comparison-table/ (de fecha 2019. Algunos valores ya no son correctos, pero la mayoría siguen vigentes)
Un nivel de loudness entre -12 y -18 LUFS está en valores que se pueden considerar adecuados, teniendo siempre en cuenta el estilo y el destino final de nuestra música.
Sobre la medición de valores de dinámica:
Actualmente es conocido por el gran público lo que en su momento se llamó “Loudness war” o guerra de volumen o niveles. Esta situación en realidad comenzó ya a mediados de los años 70, cuando los músicos, productores, etc. se dieron cuenta de que el oído prefiere siempre música que suene más alta frente a música que suene baja. Esto llevó a que progresivamente, y de manera natural, los discos fueron sonando más y más alto hasta mediados de los años 90, momento en el que la tecnología comenzó a permitir utilizar limitadores muy sofisticados que permitían aumentar el nivel de loudness a niveles nunca antes imaginados
Suele fijarse como inicio del “loudness war” a la publicación del disco de Red Hot Chili Peppers “Californication”, que marcó un hito en el nivel de loudness máximo hasta la fecha. Desde entonces, año 1999 hasta hace bien poco, la batalla ha servido en detrimento de la calidad del audio, y llegó a extremos en los que hasta un oyente sin formación sentía que la música no se podía escuchar más de una vez, debido al nivel de presión sonora y falta de dinámica.
El problema reside en que, si queremos subir el nivel de volumen por encima de unos niveles naturales, sacrificamos los niveles de dinámica, esto es, la variación entre el nivel más bajo y más alto de nuestra música, con lo que nuestra música deja de sonar viva, real, fresca y directa. Con la llegada de los servicios de streaming y la adopción de niveles máximos de LUFS, la industria se ha visto obligada a abandonar la “guerra”.
Las unidades de medición de dinámica son el factor de cresta (crest factor) que es la diferencia entre el nivel de pico y el de dbRMS. Pero más actualmente el PSR (Peak to Short-Term Loudness Ratio) y el PLR (Peak to Long-Term Loudness Ratio).
Estos dos últimos miden la diferencia entre el nivel de pico y el nivel de LUFS en “short-term” (a corto plazo) y en “long-term” (a largo plazo).
Existen multitud de plugins para medición de dinámicas, muchos gratuitos. De los comerciales DYNAMETER de Meterplugs es muy recomendable.
Un valor mínimo de PSR 8 es una buena práctica para mantener unas dinámicas saludables, esto es, que en los momentos más altos de la música, la diferencia entre el nivel de pico y el de loudness no sea menor de 8 dB.