Escucha social

Los clasificadores de sentimiento más chingones

En tema de clasificadores de sentimiento, somos los más chingones.

 

KarmaPulse no solo es una una startup nacional impulsada y operada por mentes mexicanas; KarmaPulse es una empresa que desarrolla herramientas verdaderamente enfocadas al entendimiento de las audiencias en nuestro idioma pro de los negocios de México y el mundo.

 

¿Suena muy chingón? ¡Sí, sí lo es! Como empresa tenemos el compromiso de perfeccionar cada día la clasificación del sentimiento de las conversaciones de los hispanohablantes en las redes sociales.

 

Metrics y WarRoom, poderosas herramientas de extracción y análisis de datos, operan con algoritmos que clasifican la información que recolectamos en la escucha social y nos ayudan a ordenarlos por el sentimiento con el que el usuario lo publicó.

 

El sabor de esta tarea de entendimiento es que el lenguaje es un proceso dinámico y evolutivo. ¡La forma en la que nos comunicamos cambia todos los días! Una palabra que hasta ayer no existía, hoy puede ser trending topic. Y es que los mexicanos somos muy creativos, por eso no podemos parar de enseñarle a nuestros clasificadores a entender de lo que estamos hablando.

 

Caso práctico

Aunque esto en teoría suena muy bien, en el día a día es un reto enorme. ¿Por qué es tan importante que la herramienta con la que haces escucha social entienda el idioma? Pongamos un caso real.

Desarrollas una estrategia digital para tu marca y decides usar influencers para que el alcance de la campaña sea exponencial. Lanzas esta campaña en Facebook e Instagram porque son los canales digitales que tienes activos en tu empresa.

Aunque tu marca no tiene una cuenta oficial de Twitter, es muy probable que los usuarios hablen de ella en esta red y tú no te des cuenta. Pronosticando este escenario en el que la audiencia lance comentarios de tu campaña en Twitter, activas escucha social para esta red en cuanto se avienta la campaña.

La escucha social funciona y comienzas a notar el crecimiento de las conversaciones que hablan de tu campaña. Ahora, estas conversaciones se comienzan a clasificar con tu herramienta como positivas, así que no activas ningún control de crisis. Pero resulta que no es lo mismo clasificar “¡qué chingona les quedó la campaña!” a “¿en qué chingados estaban pensando?”

 

Cuando se trata de sentimiento, los mexicanos usamos “chingar” y todas sus inflexiones de formas muy ingeniosas, tanto que la sola palabra puede darnos un mensaje muy positivo o muy negativo.

 

Evaluación

Con el propósito de autoevaluarnos hemos comenzado una serie de bloques de examinación y entrenamiento para nuestros clasificadores con conversaciones que incluyan frases típicas del argot mexicano.

 

La primera evaluación trae en el temario puras conversaciones chingonas. Nos topamos con muchas chingonerías y con un chingo de agradables sorpresas, pues nuestro clasificador resultó ser el más chingón al entender el sentimiento de este chingo de tweets.

 

Te vamos a presentar una tabla que expone el porcentaje de exactitud que algunos clasificadores, incluyendo el nuestro, tuvieron al clasificar un dataset con tweets que tuvieran alguna inflexión de la palabra chingar.

 

Hemos replicado la metodología con la que analizamos los clasificadores de sentimiento en el ámbito de servicio al cliente, puedes leerla en este enlace. Los pasos que seguimos fueron éstos:

  1. Obtención de dataset.
  2. Muestra de validación.
  3. Conexiones con otros servicios de clasificación.
  4. Resultados y porcentaje de exactitud.

 

Resultados de las pruebas

 

Al comparar el mismo dataset en los 3 clasificadores de texto obtuvimos estos resultados.

Clasificador de texto Porcentaje de exactitud
Text analytics de Microsoft 46.43%
Comprehend de AWS 47.26 %
Metrics de KarmaPulse 55.06%

Interpretemos los datos. El porcentaje de exactitud nos dice la cantidad de aciertos que tuvo el clasificador respecto a la muestra de validación empleada. En esta ocasión la muestra fue de 603 tweets, que contuvieran en el mensaje alguna palabra derivada del verbo chingar, el adjetivo chingón o el sustantivo chingada.

 

Además de encontrar la calificación con la que cada clasificador interpreta los mensajes, pudimos observar cuáles son las palabras o frases que tuvieron mayor frecuencia por sentimiento.

 

Wordcloud de palabras más frecuentes en el sentimiento negativo

Este wordcloud muestra las palabras y n-gramas* con más repeticiones en los tweets calificados como negativos. Es decir, que éstas son las combinaciones con las que más comúnmente los mexicanos nos expresamos de forma negativa.

 

Wordcloud de palabras más frecuentes en el sentimiento neutral

Las conversaciones con mensajes neutrales arrojaron como palabras con más repeticiones a las inflexiones que nos ayudan a contabilizar.

 

Wordcloud de palabras más frecuentes en el sentimiento positivo

Al referirnos a mensajes con intensión positiva, los mexicanos usamos con más frecuencia estas palabras y n-gramas* para expresar amor, gusto, aprobación o felicitaciones.

 

Matrices de confusión

 

Uno de los pilares de la evaluación que realizamos se centra en la observación de  la matriz de confusión. Estas tablas resumen los aciertos y errores que tuvieron los clasificadores evaluados al momento de ponderar los tweets como positivos, neutrales o negativos. Aunque la mayor parte de los clasificadores consideran únicamente sentimiento positivo, neutral o negativo, algunos también califican sentimiento mixto; los hemos homologado para considerar los mismos parámetros en la muestra de validación.

 

Para leer las tablas considera que el eje y (vertical) presenta los datos reales validados por humanos, mientras que el eje x (horizontal) expresa el número de tweets que el clasificador en cuestión ordenó por categoría. El interior de la tabla desglosa cada una de las calificaciones que dio el clasificador y nos confirma cuántos de los tweets evaluados eran en efecto de la categoría seleccionada y cuáles pertenecían a otra, según la muestra de validación. De tal forma, la diagonal del eje y al eje x en dirección negativo a positivo, nos dice que tan exacta fue la calificación del clasificador.

 

KarmaPulse: matriz de confusión

El clasificador de casa tiene mucha precisión al detectar el contexto de estas frases. Nuestro clasificador de texto es el mejor al ponderar los tweets como positivos y negativos.

 

Amazon: matriz de confusión

El clasificador de AWS es el que se equivoca mejor. Al tener duda del contexto califica los más de los tweets como neutrales, esto garantiza menos error en los polos de la calificación.

 

Matriz de confusión de Microsoft

Microsoft está entrenado para darle a estas palabras un contexto negativo. La mayor parte de la muestra se colocó del lado negativo.

 

Conclusiones

En esta evaluación hemos encontrado estos hallazgos:

  • Nuestros clasificadores logran una mayor exactitud al darle sentido a las frases completas de este dataset.
  • El clasificador de KarmaPulse es el que logra más precisión en la mayoría de las categorías de los clasificadores de sentimiento.
  • Aunque el clasificador de Amazon tiene categorías de sentimiento donde su precisión es muy alta, su exactitud no es la mejor calificada. Esto se debe a que ante la duda califica los tweets con menos riesgos. Éste es el clasificador que se equivoca de forma más inteligente.
  • Microsoft tiene un entrenamiento muy inclinado al polo negativo. Para él lo relacionado a las palabras chingar o chingón se emplean para contextos de descontento, queja, desagrado, etc.

 

Es entonces, como explicamos en este artículo, que nos ponemos exámenes y nos evaluamos contra herramientas reales del mercado. Hoy tenemos por clasificadores a unos guerreros, que le dan buena batalla a los retos más chingones.  Nos movemos al ritmo del lenguaje y todos los días entrenamos a nuestros clasificadores para acercarnos a la excelencia en la comprensión del español mexicano. Tenemos claro que falta mucho camino, ¡por eso nuestra próxima evaluación va a estar con madre!

 

Sigue al tanto de nuestras redes sociales para saber de qué va nuestra próxima evaluación.