Escucha social

La clasificación de sentimiento en Twitter en el ámbito del servicio a clientes

¿Te encuentras monitoreando las redes sociales de tu empresa y quieres dar un paso más hacia la escucha social?. La clasificación de sentimiento en las conversaciones de Twitter puede representar una gran oportunidad para marcar la diferencia que buscas en pro de tu empresa.

Existen en el mercado diversas herramientas de escucha social y clasificación de sentimiento.

Independientemente de cuál uses, una de las primeras  dudas que pueden surgir al adquirir una, es saber si los tweets estarán verdaderamente bien clasificados y además en dado caso que sí ¿cómo hace la herramienta para saber cuál es la clasificación adecuada para mi marca?

En KarmaPulse nos gusta ser transparentes con los procesos que hacemos y cómo los hacemos. Más que ser una caja negra o una solución milagrosa somos una herramienta y un equipo apasionado que te ayuda a alcanzar tus objetivos de escucha social.

En este artículo queremos contarte por qué Metrics es la herramienta correcta para hacer escucha social en el ámbito del servicio a clientes.

 

¿Qué vamos a mostrar en este artículo?

Éste es el primero de una serie de artículos donde hablaremos lo que descubrimos clasificando tweets en diferentes ámbitos y comparando métricas vs otros algoritmos de clasificación de sentimiento. Para esta ocasión hablaremos del ámbito de servicio a clientes.

Cabe agregar para los que recién nos conocen, que en KarmaPulse se incluye la clasificación de sentimiento de los tweets a través de Metrics, nuestra herramienta de escucha social. 🙂

 

¿Por qué es importante una buena clasificación de sentimiento?

La clasificación de sentimiento en las conversaciones de Twitter puede ser muy útil para distintos ámbitos de tu negocio, uno de estos ámbitos puede ser el servicio a clientes. A donde quiera que vayamos y recibamos un servicio, éste nos puede dejar con una sonrisa o un gran disgusto. Hoy en día dar seguimiento a lo que nuestros clientes aplauden, desean o protestan es clave para la salud de una marca.

Un comentario en la redes sociales puede alcanzar desde una persona hasta decenas, cientos, incluso miles. ¿Te has preguntado hasta dónde puede llegar una queja sobre mal servicio?

Ya sea por simple desahogo o porque realmente deseamos ser escuchados cuando algo sale mal en el servicio, recurrimos a las redes sociales para quejarnos. Las quejas en redes sociales son en tiempo real cuando la emoción está justo ahí,  suelen ser más perspicaces o picantes que si lo hiciéramos frente a frente en el propio lugar del incidente o a través de una clásica encuesta de satisfacción.  ¿Sería bueno para el propietario de una marca escuchar estos comentarios y darles solución pronta?

En México muchísimas empresas se dedican al rubro de servicio, servicios financieros, servicios de esparcimiento, servicios de alojamiento, incluso el sector gobierno presta un servicio de atención a la ciudadanía. Sea cual sea el servicio que preste tu empresa o institución, está en nosotros ofrecer una experiencia única a nuestros usuarios.

Hoy en día la escucha en redes sociales resulta ser estratégica para saber qué dice la gente de mi marca, ¿qué les gusta de mi servicio?, ¿salió mal en esta ocasión?, ¿a que problemas se enfrentan recurrentemente? ¿qué recomendaciones no he escuchado?

Éstas y muchas otras cosas pueden ayudar a la mejora continua de tu marca a través del buen servicio a clientes.

 

¿Qué hacemos para lograr una buena clasificación de sentimiento desde Metrics en términos de servicio de cliente?

El movimiento en las conversaciones de redes sociales es continuo, por eso buscamos siempre estar al día y tener actualizados los training sets para nuestro algoritmo de clasificación de sentimiento.

¿Cómo actualizamos un training set? Traemos muestras de tweets que posteriormente son clasificadas a mano por personas y estas muestras sirven al algoritmo para “aprender” como un humano lo haría. 😉

Entrenamos al clasificador en diversos temas, pero el tema de servicio a cliente siempre es prioridad para nosotros, de esa manera nos enteramos  del cómo se comunica la gente con las marcas y de qué se habla en redes sociales al respecto.

Sabemos que un buen entrenamiento para el algoritmo de clasificación puede dar grandes resultados. Imagina que vas al gym diariamente y después de un mes o dos ¡te sientes mejor que nunca! ¿No te dan ganas de echar carreritas con tus compañeros de a lado?

Por eso, nos dimos a la tarea de preparar el terreno y medir fuerzas con otros algoritmos de clasificación que existen el mercado.

 

¿Cuál fue la metodología para obtener la comparativa de métricas de clasificación? 

Imagina que quieres escuchar acerca de ¿cómo hablan las personas en Twitter de un “buen servicio a cliente”? ¿Cuáles son las palabras clave que la gente usa para referirse a ello?

  • Obtener un dataset

Desde Metrics, nuestra herramienta de escucha social, trajimos un dataset con la palabra “servicio” y palabras relacionadas como:  “buen”, “chido”, “mejor” o “excelente”, entre otras.

También para concentrarnos en nuestro idioma y país especificamos que los tweets pertenecieran al idioma español y que fueran de México, todo lo anterior en una ventana de tiempo de un mes, en este caso de agosto 2018.

¡Así obtuvimos nuestro dataset en unos minutos!, un total de 500 tweets, por supuesto cada uno con su clasificación de sentimiento: positivo, negativo o neutral.

¿Por qué son tan pocos tweets?, sólo es por cuestión de hacer un ejercicio breve y que podemos tener más controladas las condiciones tweet por tweet.

Para tener la comparativa se necesitaron algunos pasos adicionales: primero crear una muestra de validación, luego preparar conexiones con los otros servicios de clasificación, después obtener sus resultados y contar los aciertos de cada algoritmo de clasificación, todo lo anterior para finalmente calcular el porcentaje de exactitud de cada uno.  Ahora veamos de que se tratan estos pasos:

  • Muestra de validación

Para crear la muestra de validación, tomamos el dataset recién obtenido desde Metrics y lo re-clasificamos manualmente para saber cuál es la verdadera clasificación esperada por un humano.  Las premisas que seguimos para clasificarla fueron:

a) Marcar con etiqueta negativo los tweets que hablaban mal del servicio de una marca o los que contenían groserías mencionando algún lugar, marca o servicio (no importando que hablen bien al mismo tiempo de otra).

b) Marcar como positivo todos los tweets de agradecimiento, felicitaciones o que representaran orgullo por una acción o buen servicio, etc.

c) Marcar como neutral los tweets que fueran avisos o información muy general.

  • Conexiones con otros servicios de clasificación

Previamente se había realizado un benchmark interno de los servicios que existen en el mercado de clasificación de sentimiento, entre los que más destacan esta Microsoft con su algoritmo de Cognitive Toolkit y Amazon con su algoritmo Comprehend NLP, ambos cuentan con su API, a la cual nos conectamos previo registro para poder obtener los resultados de cada uno.

  • Resultados y porcentaje de exactitud

Teniendo las conexiones listas, enviamos a clasificar la misma muestra de validación a cada uno de los servicios, incluyendo el nuestro. ¡Con esto obtuvimos los resultados de cada algoritmo!

Pero, ¿cómo medimos su desempeño?  Una manera muy rápida de hacerlo es mediante el porcentaje de exactitud, que mide el porcentaje de aciertos que tuvo un algoritmo clasificador con respecto a la muestra de validación.

 

¿Qué contenía la muestra de validación?

Aunque era de esperarse que por las palabras asociadas hubiera una gran cantidad de tweets positivos, sorprendentemente no fue así, ya que había tweets que negaban un “buen servicio” con frases como “tu servicio no está chido”, “no es un buen servicio”. Así tuvimos que los proporciones de sentimiento en la muestra quedaron de la siguiente manera:

Gráfica 1. Proporción de sentimiento, el sentimiento de la muestra de validación se encontró muy a la par entre positivo y negativo

A la vez desde Metrics vimos el Top 10 de menciones donde se encontraban: @telmexsoluciona, @metrocdmx, @attmx y @uber_mex, ¿cuáles de estas marcas generan tanto sentimiento positivo como negativo en los usuarios?

Cuando exploramos los tweets encontramos ejemplos con distinto sentimiento, como los siguientes:

Grupo de imágenes 1. Capturas de pantalla de Tweets positivos,  mencionando cuentas de: Izzi, Axtel, Control Vehicular de Nuevo León y Sanborns.

 

 

Grupo de imágenes 2. Capturas de pantalla de Tweets negativos, mencionando cuentas de: Movistar, Telmex, SEDEMA, Izzi y Telcel.

 

Grupo de imágenes 3. Capturas de pantalla de más Tweets Negativos. Entre las cuentas mencionadas están: Banorte, Telmex, Megacable, Seven Eleven, Oxxo y TotalPlay.

 

Mención especial para los tweets del grupo de imágenes 3,  porque no sólo se quejaban con la marca, sino que estaban ya recomendando un servicio diferente o  anunciando que se van por mal servicio. Incluso un tweet dio aviso de “oportunidades de expansión” por la falla en servicio, mencionando al mismo tiempo dos marcas que son “competencia” entre ellas.

 

¿Qué resultados obtuvimos en las métricas de clasificación de sentimiento?

Como ya lo mencionamos anteriormente, con los resultados obtenidos de cada algoritmo de clasificación calculamos su porcentaje de exactitud. ¡Ahora sí con la misma métrica podemos medir fuerzas!

  • Resultados de los Porcentajes de Exactitud

Y así para la muestra de validación del tema servicio, con un total de 212 tweets negativos, 202 tweets positivos y 86 tweets neutrales, sumando en total los 500 tweets mencionados anteriormente, los algoritmos de clasificación quedaron así:

 

            Algoritmo                               Porcentaje de Exactitud

KarmaPulse                                            91%

 Amazon                                                  60%

 Microsoft                                                44%

 

Parece ser una gran ventaja sobre los demás algoritmos pero… ¿eso es todo? ¿con un porcentaje de exactitud puedo asegurar que mi muestra de validación estuvo bien calificada? ¿Qué otras métricas se existen?

  •  Resultados de la matriz de confusión

También, para medir el buen desempeño de un algoritmo de clasificación se usa la matriz de confusión, la cual muestra qué tanto se desviaron los valores esperados de los valores de predicción del algoritmo.

Para el caso del algoritmo de KarmaPulse podemos leerla así:

  • De los 212 tweets negativos esperados, el algoritmo predijo correctamente 208.
  • De los 86 tweets neutrales esperados, el algoritmo predijo correctamente 60.
  • De los 202 tweets positivos esperados, el algoritmo predijo correctamente 190.
    • Dando un total de 458 aciertos, equivalente al 91.60% de exactitud.
Imagen 1 Matriz de Confusión KarmaPulse

Si observamos la diagonal de las matrices en las imágenes 1, 2 y 3 podemos leer los datos con los totales de aciertos por cada categoría. Entre más se acerquen a los totales de la muestra de validación (indicados de lado extremo derecho), más precisión tiene el algoritmo.

Imagen 2 Matriz de Confusión Amazon

Y entonces, ¿lo que no está en la  diagonal?

Lo que se encuentra afuera de la diagonal es donde se equivocó el algoritmo respecto a la muestra de validación, por ejemplo para el caso de Amazon en la Imagen 2, de 212 tweets negativos que se esperaban,  56 se clasificaron como neutral y 32 como positivo.

Imagen 3 Matriz de Confusión Microsoft

 

En general, un algoritmo de clasificación cuando desconoce un tema o existe un empate entre probabilidades de predicción hacia determinado sentimiento toma la decisión de marcar una predicción como “neutral”, en estos casos es la decisión más acertada que se pueda tomar y es correcta para el algoritmo, aunque muchas veces no es así para el consumidor final.

Podemos ver en la Imagen 3, del clasificador de Microsoft, en la columna de “predicción neutral” como la mayoría de los no aciertos los registró con esa etiqueta, así tenemos que: de 212 tweets negativos esperados, 150 los clasificó neutral y de los 202 tweets positivos esperados, 73 tweets los clasificó neutral también.

 

¿Cómo sé si el sentimiento con que se clasificó un tweet es el ideal para mi marca?

La muestra de validación clasificada contenía menciones a diversas marcas. Imagina que tu marca es UberEats, ¿cómo clasificarías el siguiente tweet?

“Tengo que dejar de pedir comida por uber eats con la tarjeta de mi mamá, por qué el día que pida un estado de cuenta al banco, me voy a quedar sin herencia y sin mamá guarden este tweet”.

Puede ser positivo, ¡está usando mi servicio de UberEats!,  aunque también negativo… por el hecho de estar haciendo mal uso de la tarjeta de su mamá :(.   Para algunos, hasta podría ser positivo sólo por el hecho de que tiene algo de humor lo que escribe el usuario. ¿Tú cómo lo clasificarías?.

Y si fueras Bancomer, ¿cómo clasificarías el siguiente tweet?

“Pues igual yo con Banamex, pero como es probable que deje de chambear para dedicarme al doc, pues me quedo sólo con Bancomer, que es donde depositan la beca (y que me gusta más)”.

¿Será positivo por qué le gusta más Bancomer? o ¿negativo, por el hecho de usar Banamex también?

Algunos clasificadores de sentimiento no es que se equivoquen, sino que clasifican como neutral si existe la presencia de sentimientos ‘positivo’ y ‘negativo’ a la vez, precisamente algunos incluyen el sentimiento “mixed” para estos casos.

Nosotros tomamos como guía si un tweet es positivo o negativo desde una perspectiva práctica. Por ejemplo, si existe una mala palabra o queja hacia una marca dentro del tweet, lo indicamos en el training set para que se polarice al sentimiento negativo.

Y por el contrario, si el sentimiento predominante es positivo, lo indicamos desde el training set para que se alcancen a polarizar a positivo los tweets similares a ese en la predicción final.

Ya que nuestro clasificador es de español en general, tratamos de no tomar partido por una marca o personaje determinado, más bien ayudamos a resaltar esos matices de sentimiento que puede tener un tweet, para que le sean de utilidad a una marca y pueda tomar decisiones sobre ello.

Entonces, ¿qué pasa si necesito una clasificación de sentimiento que me entienda perfectamente a mí?

Existe la posibilidad de que tweets que nosotros vemos positivos cuando entrenamos el algoritmo, puedan ser totalmente neutrales para ti o incluso negativos.

También simplemente hay casos donde los tweets son muy ambiguos o poco conocidos para nuestro algoritmo de clasificación debido al contexto específico donde se mueve la conversación de tu marca. ¿Entonces qué se puede hacer?

No hay problema, nosotros  también nos podemos ocupar de ello, ¿cómo?, entrenando un clasificador  que aprenda del sentimiento que a ti te funcione mejor, un clasificador especializado para tu marca :),  con una continua adaptabilidad a tu marca, pero de eso podemos hablar más adelante en otro artículo ¿te late?

 

Conclusiones

Un algoritmo de aprendizaje automático requiere de tiempo de entrenamiento y calidad en las muestras para funcionar de una manera satisfactoria.

Algo que sucede con los algoritmos de clasificación de sentimiento es que generalizan para poder abarcar más vocabulario y entender más conversaciones, pero en muestras más específicas no alcanzan a tener probabilidades altas de polarizar hacia un sentimiento, por ende, muchos tweets con expresiones únicas de una región, tema o idioma no son reconocidos, por eso son clasificados como neutrales.

También vimos que la percepción del sentimiento de un tweet puede ser muy distinta de una persona a otra, de una marca a otra y de un servicio de clasificación a otro.

Hoy nuestro clasificador respondió muy bien a este ejercicio en el ámbito de servicio a clientes, pero sabemos que las conversaciones en la redes sociales son muy variadas y dinámicas.

Por lo anterior una de nuestras premisas es estar atentos a los cambios y evolucionar, tratando de ir a la par con las conversaciones que se generan día a día y así ofrecerte la mejor clasificación de sentimiento en español.

¿A tu empresa le sería útil hacer escucha social para mejorar la experiencia de buen servicio de tus clientes? Recuerda que con una herramienta de escucha social que incluya la clasificación de sentimiento puedes estar un paso adelante para lograrlo :).