Las señales de voz ocultas que su altavoz inteligente podría estar escuchando

Si alguna vez ha decidido echar un vistazo a sus interacciones con un asistente de voz como Alexa o Google Assistant, notará que no solo puede ver (y eliminar) las transcripciones de sus comandos y preguntas, sino también reproducir la voz real. grabaciones

Es algo extraño de experimentar, volver a escuchar las canciones que estabas solicitando hace seis meses. Mucho más que simplemente leer las transcripciones. Obtienes un sentido real de ‘tú’ ese día, tal vez solo te estabas riendo con tu familia y eso se desangra o suenas aburrido.

Lea esto: Cómo Amazon, Google y Apple usan los datos de su altavoz inteligente

Eso es solo el comienzo, según Rébecca Kleinberger, asistente de investigación en el grupo Opera of the Future del MIT Media Lab. Para su doctorado, está combinando investigaciones en neurología, fisiología, música, entrenamiento de voz y más para observar «las pistas subconscientes que expresamos cada vez que hablamos», cómo podemos hacer que las personas sean más conscientes de sus propias voces y construir nuevas experiencias en torno a la voz.

En el transcurso de seis años investigando nuestras voces, su trabajo ha incluido investigaciones sobre las vibraciones físicas que producen nuestros cuerpos y cómo se relacionan con la terapia de vibración; por qué no nos gusta el sonido de nuestra propia voz; cómo mapeamos nuestros músculos para producir sonidos (nuestra ‘postura vocal’); y cómo se puede usar el aprendizaje profundo para realizar la identificación de hablantes en tiempo real, incluso entre personas que hablan varios idiomas.

Con el auge de los parlantes inteligentes en nuestros hogares, que graban nuestras voces cada vez que decimos esas palabras mágicas para despertarnos, pensamos que valía la pena examinar lo que transmitimos a través de la voz a humanos y máquinas. Y Kleinberger dice que, nos demos cuenta o no, «el cerebro humano ha evolucionado para ser extremadamente bueno en el análisis de todos esos elementos ocultos de la voz. Si son detectables a través de máquinas, significa que de alguna manera nuestro cerebro los detecta de otras personas». las voces de ™s».

Ella sugiere pensar en estos elementos inconscientes como «las feromonas de la voz, casi feromonas acústicas, que nos influyen de muchas maneras sin que nos demos cuenta».

Las señales que envía tu voz

con quien estas hablando

Nuestra voz cambia según con quién estemos hablando y el contexto, tanto que los investigadores y sus algoritmos pueden saber si estás hablando con tu madre, tu jefe o tu amigo. Incluso podrían detectar la edad de la persona con la que estás hablando.

«Incluso cuando intentas hablar con normalidad, cuando le hablas a un niño pequeño, tu voz cambia», dice Kleinberger. «La prosodia, la musicalidad que usas en tu voz es muy diferente a cuando hablas con adultos».

Tu humor

Sabemos que los equipos de Alexa de Amazon ya están investigando el análisis de voz que puede detectar, por ejemplo, cuándo la persona que habla tiene prisa y necesita información rápidamente. Google también está buscando una IA emocional que se guíe por el estado de ánimo del usuario como parte de su futuro.

Y es posible. En 2014, un equipo de científicos informáticos de la Universidad de Michigan lanzó una aplicación para teléfonos inteligentes llamada Priori que fue diseñada para monitorear llamadas telefónicas y detectar signos tempranos de cambios de humor en personas que padecen trastorno bipolar. «Los resultados de este estudio piloto nos brindan una prueba preliminar del concepto de que podemos detectar estados de ánimo en llamadas telefónicas regulares mediante el análisis de características generales y propiedades del habla, sin violar la privacidad de esas conversaciones», dijo el líder del proyecto, Zahi Karam.

cuanto tiempo durara tu relacion

Este es bastante loco. En su charla TED sobre por qué no nos gustan nuestras propias voces, que les insto a que vean o escuchen, Kleinberger señala que el análisis automático de las conversaciones entre parejas casadas se puede usar para predecir si se divorciarán y cuándo.

El año pasado, un equipo de la Universidad del Sur de California publicó un estudio que muestra que el análisis de AI del tono, la variación del tono y la entonación en conversaciones entre 134 parejas que participan en terapia, tuvo una precisión del 79,3 % en la predicción de los resultados matrimoniales, es decir, si el duraría la relación. Eso es en realidad un poco más alto que los expertos humanos que acertaron el 75,6% del tiempo.

Si estás en tu periodo… o embarazada

«Encuentro fascinante el vínculo entre los niveles hormonales y la voz», dice Kleinberger. «Sabemos que tiene un efecto. Sabemos que incluso nuestro cerebro lo detecta conscientemente sin que realmente podamos entenderlo claramente. Es información puramente acústica que nos da pistas sobre el nivel hormonal del hablante. Creo que esto podría tener tremendas consecuencias, bueno o malo en términos de detección, ética y espionaje».

Múltiples estudios realizados por Nathan Pipitone y Gordon Gallup han demostrado que los oyentes pueden detectar en qué parte de su ciclo menstrual se encuentra una hablante, al pedirles a los participantes masculinos que califiquen las voces en términos de atractivo. Del primero en 2008 en la Universidad Estatal de Albany, escribieron: «Los resultados mostraron un aumento significativo en las calificaciones de atractivo de la voz a medida que aumentaba el riesgo de concepción a lo largo del ciclo menstrual en mujeres con ciclos naturales».

Luego está el hecho, como dice Kleinberger en su charla TED, de que un día los asistentes de voz podrían saber que estás embarazada antes que tú. Nuevamente, esto se basa en gran medida en investigaciones reales.

Estudios en 2012 en el Hospital Italiano de Buenos Aires, Argentina y en 2008 en el Centro Médico de Beirut, Líbano encontraron diferencias entre las voces de los grupos de control y los grupos de mujeres embarazadas. El estudio de Beirut encontró similitudes y algunas diferencias: «No hubo diferencias significativas en la incidencia de síntomas vocales en mujeres embarazadas versus controles. Sin embargo, la fatiga vocal fue más frecuente en el grupo de embarazadas. Con respecto a los parámetros acústicos, hubo una disminución significativa en el MPT (tiempo máximo de fonación) a término».

Dr. Alexa te escuchará ahora

Una persona con la que le gustaría compartir sus conversaciones diarias es su médico. Resulta que el método médico de escuchar el cuerpo se ha practicado durante miles de años, y está en medio de una actualización en lo que respecta a la voz.

«La palabra auscultación fue utilizada por los antiguos griegos», dice Kleinberger. «Es esta noción de entender el cuerpo a través del sonido que sale del cuerpo. Entonces, básicamente, cuando el médico coloca el estetoscopio para escuchar tu corazón, ese es un tipo de auscultación. Usar la voz como una herramienta de auscultación ha sido utilizado para enfermedades cardíacas y pulmonares durante mucho tiempo, escuchando la voz entrecortada del paciente. Pero ahora realmente estamos comenzando a hacer auscultación modulada por máquina».

Investigaciones recientes sobre qué enfermedades podemos detectar a través de la voz han incluido estudios sobre la depresión y el Parkinson. Max Little, matemático y ahora profesor asociado en la Universidad de Aston, descubrió que al analizar las voces de las personas en una llamada telefónica de 30 segundos, los algoritmos podían detectar turbulencias sutiles y cambios de textura. Estos suenan naturales para el oído humano, pero Little pudo usarlos para detectar la enfermedad de Parkinson desde el principio, con tasas de precisión de alrededor del 99%. Kleinberger explica que es muy difícil para una persona que sufre de Parkinson mantener una conversación ya que su voz se cansa y no es tan fácil de controlar como las personas que no lo padecen.

Cuando se trata de depresión, la sabiduría convencional es que la gente simplemente habla más despacio: «En realidad es más complejo que eso, pero todavía tiene que ver con el ritmo. Por el trabajo que he hecho sobre la depresión, ¿qué?» Lo interesante es la variación del tempo de una palabra a otra, y de sílabas individuales, en esas palabras».

Sabemos que las ambiciones de Silicon Valley en lo que respecta a la salud no conocen límites. Alphabet tiene su propio spin-off de Verily Life Sciences que construye lentes de contacto para monitorear la glucosa y relojes de salud de grado médico. Mientras tanto, Amazon parece tener un equipo secreto de salud y bienestar dentro de su división Alexa, bajo el nombre vagamente adecuado de Alexa Domains.

En teoría, un asistente doméstico inteligente ambiental siempre activo que sepa que estamos enfermos antes que nosotros y pueda incitarnos a buscar atención médica, con razones específicas, podría salvar millones de vidas.

«Con los dispositivos domésticos, ¿qué pueden hacer con las grabaciones de voz que puedan ser buenos o malos para nosotros? No estoy seguro», dice Kleinberger. «Si nos ayudan, digamos ‘tal vez deberías ir a ver a un médico para que te haga un chequeo’, tal vez eso podría ser bueno. Si lo usan para las ganancias de la empresa, tal vez sea un poco menos bueno. Eso’ Es por eso que informar al público sobre el potencial, ya sea que eso suceda hoy o dentro de dos, cinco o diez años, creo que es muy importante saberlo. Hablamos de datos todo el tiempo, bueno, tienes muchos datos en tu voz. No es sólo lo que dices».

El futuro es el mimetismo.

De hecho, cuando hablamos de privacidad en el hogar inteligente en 2018, nos enfocamos únicamente en el contenido de estas grabaciones y transcripciones de voz, lo que podrían valer para los anunciantes, cómo se pueden combinar con otra información que Amazon, Google y Apple recopilan sobre nosotros. de servicios como Google Maps, Gmail, Amazon Prime, iTunes, búsqueda de Google, iOS y Android, etc., etc.

Eso se suma a la creciente sospecha pública de que todos, desde Facebook, Instagram, Amazon, escuchan nuestras conversaciones a través de los micrófonos de los teléfonos inteligentes (las empresas tecnológicas en cuestión lo niegan) y las patentes que ilustran que Amazon tiene diseños en todas nuestras conversaciones, no solo aquellas que comienzan con una palabra de despertar.

La otra mitad del rompecabezas cuando se trata de asistentes de voz, dice Kleinberger, son las voces de Alexa, Assistant y Siri. Sabemos que las empresas de tecnología eligen voces amistosas, en su mayoría femeninas, que «no son demasiado agudas ni demasiado graves» y «no demasiado dominantes». En este momento no les hablamos como les hablamos a otros humanos: tengo una ‘voz de instrucción’ muy específica que uso para Alexa y el Asistente de Google. Es un poco más fuerte, un poco más severo, al borde de la condescendencia y, por lo general, miro el altavoz o dispositivo inteligente cuando hablo para verificar que lo haya captado.

«La mayor parte de la investigación y la mayoría de la población muestra que usamos una voz diferente cuando hablamos con la máquina», dice ella. «No he investigado sobre esto y no está probado, pero sospecho que se parece más a cómo una persona grosera y esnob le hablaría a un mesero en un restaurante. ¿Habría interés para las empresas en ir más allá y ¿Pasar el valle inquietante? Es una pequeña prueba de Turing en términos de textura vocal. ¿Qué se necesitaría para crear una voz de respuesta que sea suficiente para hacernos considerar esta tecnología como humana?

Comenzando con el habla dirigida a niños, luego el habla dirigida por robots y máquinas, esta es un área de investigación que está creciendo: Kleinberger recientemente pasó un tiempo en el zoológico de San Diego para estudiar el habla dirigida por animales y entre especies. Pero, dice, no está claro cómo un asistente de voz que suene mucho más como un humano y pueda analizar nuestras emociones en tiempo real a través de nuestra voz, beneficiaría… a los humanos.

«Va en la dirección del mimetismo. Como humanos, imitamos inconscientemente los parámetros vocales de otras personas todo el tiempo. Los acentos y el tartamudeo son contagiosos. ¿Sería bueno o malo si las máquinas comenzaran a funcionar?» ¿haciendo eso?

«Creo que muy pronto la tecnología irá en esta dirección. Si las personas son conscientes de lo que está sucediendo, no tiene por qué ser algo malo. Tal vez haga que parte de esta tecnología sea un poco menos frustrante. Si su voz obviamente está alterada, la máquina lo detecta y en lugar de decir ‘oh, suena molesto’, si la máquina comienza a hablar en el mismo modo vocal que usted, ¿va a ayudar o no? más un modo de manipulación, es una pregunta difícil pero interesante».

Al final, todo se reduce al equilibrio de poder entre usted y la empresa multimillonaria que ha desarrollado el asistente de voz con el que está hablando. Conocen el poder de las señales que envían nuestras voces, por lo que cuanto más conscientes seamos de lo que los humanos y las máquinas pueden detectar de nuestras voces y transmitir desde las suyas, mejor.