El micrófono del móvil: ¿alguien nos escucha al otro lado?

La primera entrega del consultorio online sobre tecnología y comunicación puesto en marcha por el grupo de agencias de medios

Agencias-Medios-Movil-Microfono-Dan
¿Escuchan nuestros móviles nuestras conversaciones para mostrarnos publicidad programada?

La primera entrega del consultorio online sobre tecnología y comunicación puesto en marcha por el grupo de agencias de medios Dentsu Aegis Network (DAN) e IPMARK ya ha dado sus frutos. Beta González, chief operations officer de iProspect España, agencia de marketing digital de DAN, ha sido la encargada de responder a las preguntas de los lectores sobre inteligencia artificial, machine learning, automatización y búsqueda por voz. A continuación recogemos dos de las respuestas desarrolladas por González, ingeniera informática que cuenta con más de 10 años de experiencia en el ámbito de la comunicación digital. El resto lo publicaremos en próximos artículos.

EL MICRÓFONO DEL MÓVIL: ¿ALGUIEN NOS ESCUCHA AL OTRO LADO?

Pregunta: ¿Leyenda urbana o realidad: nuestros dispositivos móviles “escuchan” nuestras conversaciones para mostrarnos publicidad programada?

Respuesta: Gigantes como Facebook y Google niegan rotundamente que utilicen el micrófono de los dispositivos móviles para escuchar nuestras conversaciones y, en función de ellas, servir publicidad. Adicionalmente, tras la salida del nuevo Reglamento General de Protección de Datos, el pasado 25 de mayo, estas plataformas han reforzado sus mecanismos para demostrar que cumplen con la ley. Google Assistant, por ejemplo, incluyó en una serie de pantallas preliminares para indicarte que trabajarán con un algoritmo de Voice Match para reconocer tu voz cuando actives el comando OK Google, y te advierten que es posible que alguien con una voz similar a la tuya o con una grabación pueda acceder al asistente, por lo que puedes, en cualquier momento, revocar el permiso para escuchar a través de las opciones de configuración. Además, las búsquedas que antes podían encadenarse, ahora requieren que se active el micrófono cada vez, por lo que aparte del OK Google, hay que hacer clic en el ícono correspondiente, lo que reduce la cantidad de información que el asistente escucha a lo que verdaderamente quieres que escuche.

Aparte del móvil, los asistentes virtuales, como Amazon Alexa o Google Home, también han levantado suspicacias. Sobre todo el primero, por la sospecha de que se utilicen las conversaciones para ofrecer productos relacionados en la tienda Amazon. Esto también ha sido desmentido por los fabricantes de tecnología.

De lo que sí estamos seguros es de que los asistentes virtuales (ya sea en móvil u otro formato) almacenan las búsquedas que hacemos para personalizar nuestra interacción con el buscador. Pero esto no es algo nuevo, ya que el buscador lleva haciendo esto mucho tiempo para sugerir búsquedas o mostrar búsquedas relacionadas. También se almacenan comportamientos de búsqueda para luego reimpactar al usuario con una publicidad adaptada en el proceso de retargeting.

En conclusión, aunque técnicamente sea posible ―e incluso haya denuncias en miles de foros de personas que han comprobado que después de mantener una conversación con el móvil cerca, han recibido publicidad relacionada― también debemos considerar que, en muchas ocasiones, lo que nos parecen pruebas irrefutables de una conspiración no son más que meras coincidencias… ¿O no?

REDES SOCIALES: RECONOCIMIENTO DE PALABRAS CLAVE EN AUDIO Y VÍDEO

Pregunta: En redes sociales, ¿se está desarrollando alguna solución de tecnología para poder monitorizar las menciones a una palabra clave en un audio o un vídeo? ¿Y para trackear frases completas para análisis de sentimiento?

Respuesta: El reconocimiento de una palabra clave en audio o en vídeo es un proceso que consume muchísimos recursos, no sólo porque en el caso del audio la forma en que actualmente se hace este tipo de análisis es convirtiendo el audio en texto y luego analizando el texto, sino porque en el caso del vídeo se debería hacer esto con su audio y luego hacer una análisis de imágenes contenidas en cada frame o shot (grupo de frames) del vídeo.

En el primer caso existen herramientas como Amazon Transcribe o Google Speech to Text que permiten hacer el paso de audio a texto. Esto en sí mismo ya es un proceso complicado si consideramos que para 2017 Google afirmaba que podía reconocer 119 lenguajes. Sobre eso se debe aplicar luego un rastreo para buscar la presencia de la palabra clave, y si además queremos analizar sentimiento, debemos tomar en cuenta el contexto y utilizar un algoritmo de machine learning, para que analice la intencionalidad de lo expresado y vaya aprendiendo, para que a medida que pase el tiempo vaya acertando cada vez más en el análisis del sentimiento. Sin embargo, todavía este tipo de análisis no es cien por cien fiable, porque existen factores como la ironía que dificultan el análisis. De hecho, herramientas como Brandwatch indican que siempre es necesario el factor humano en el análisis.

Para el vídeo también hay soluciones como Amazon Rekognition y Google Cloud Video Intelligence. Con respecto a la incorporación de estas funcionalidades en herramientas de escucha, Sysomos cuentan con un apartado de Discovery para conseguir a la marca en contenido audiovisual, pero esto por lo general se hace por contexto, o limitado al logo del producto, como en otras herramientas de escucha tipo Talkwalker. Por tanto, no he visto gran evolución en las herramientas, sin embargo se vislumbra que el análisis en profundidad del vídeo y el audio es el futuro inmediato, no solo para el social listening, sino incluso para el tan citado recientemente brand safety. La cuestión está en cómo balancear lo costoso del análisis con la rapidez, y así hacerlo asequible para agencias y marcas.