Escucha social

Clasificadores de sentimiento con madres

Los clasificadores de sentimiento son un elemento esencial para las herramientas de escucha social y el de KarmaPulse vino a romper madres.

Con dignidad, orgullo, con la frente en alto, los clasificadores de sentimiento se vuelven a enfrentar. Pusimos dentro de las cuerdas, en una pelea estelar, en celebración a todas las madrecitas en su día, a los más feroces de la industria de clasificadores de texto.

 

Las 3 potencias del entendimiento de sentimiento en español se reúnen de nuevo en el ring, en espectáculo para todos ustedes, buscando el máximo trofeo, el título por “La madre de todas las herramientas de escucha social”:

Mascarita clasificadora

 

Barón AWS

Guerrero Microsoft

 

En KarmaPulse nos hemos propuesto dejar en la lona a otros clasificadores de sentimiento en cuanto a entendimiento del argot mexicano se refiere. En esta startup desarrollamos productos que minan, analizan y ayudan a interpretar data social a través de la inteligencia artificial. Es por eso que para nosotros el entendimiento del sentimiento de los datos sociales es esencial.

 

Uno de nuestros distintivos como empresa, además de la especialización en el español mexicano, es la innovación constante y el entrenamiento continuo. Tenemos como objetivo alimentar a nuestro clasificador con mexicanismos y vocabulario diariamente. Con ello aseguramos la vigencia de la comprensión de las conversaciones.

 

Autoevaluación

Para garantizar la facultad que nuestras herramientas tienen para cubrir las necesidades de nuestros usuarios, iniciamos un periodo de autoevaluación. Organizamos la evaluación en bloques de examinación y entrenamiento con data social minada para incluir frases típicas mexicanas.

 

El primer bloque que analizamos es el de los clasificadores chingones. Como te contamos en el artículo que escribimos para ese ejercicio, extrajimos conversaciones que incluyeran alguna inflexión de las palabra chingón o chingar. Ve al artículo para conocer más de nuestro primer examen, aunque te adelantamos que fuimos los más chingones.

 

Cada uno de los bloques a analizar procura la valoración de los porcentajes de exactitud de nuestro clasificador en dos frentes: contra otros clasificadores y contra nosotros mismos. ¿Por qué? Porque es importante demostrar que en el mercado tenemos una oferta de valor para las empresas interesadas en el sector hispanohablante y, por otro lado, porque podemos detectar y perfeccionar los puntos ciegos de nuestras herramientas para volverla más competitivas.

 

¡Madres! ¿Cómo elegimos los temas?

¿Qué nos define como mexicanos? Nuestro humor, nuestro doble sentido, nuestro ingenio, nuestro sarcasmo y hasta nuestros memes.

 

Los mexicanos tenemos una habilidad casi única para jugar con el lenguaje y darle, según el contexto, el sentido que nos plazca. Por eso es tan importante que entendamos a madre todas las madres que como usuarios publicamos en redes sociales.

 

Elegimos la palabra “madre” y su plural, “madres”, como segundo bando de evaluación porque, si bien es cierto hay una tendencia negativa a calificar las expresiones que usamos con ella, también hay textos que están con madre y pueden manifestar optimismo.

 

Para las marcas y las empresas es importante entender a sus audiencias con claridad. Las herramientas que analizan los mensajes deben garantizar el entendimiento del sentimiento que los usuarios le dan a los mensajes. Nosotros tradujimos esa confianza a porcentajes de exactitud.

 

Metodología

En la realización de este ejercicio hemos replicado los pasos de nuestra primera prueba. Lo explicamos:

 

  1. Obtención de dataset: minamos los datos continuos durante un plazo de dos semanas, extrayendo conversaciones de Twitter que estuvieran en español, fueran originales y contuvieran las palabras madre o madres. Descartamos aquellas que hicieran referencia a madre como mamá o progenitora.
  2. Muestra de validación: seleccionamos una muestra de este universo para calificar correctamente los tweets y usarlos como punto de partida en el examen de cada uno de los clasificadores.
  3. Conexiones con otros servicios de clasificación: evaluamos esta muestra en el clasificador de KarmaPulse, el de AWS y el de Microsoft.
  4. Resultados y porcentaje de exactitud: analizamos los resultados y calculamos los porcentajes de exactitud de cada uno. Aquí los presentamos.

 

Resultados de las pruebas

 

Luego de analizar el mismo dataset en los 3 clasificadores de texto llegamos a estos resultados:

Clasificador de texto Porcentaje de exactitud
Text analytics de Microsoft 52.85%
Comprehend de AWS 62.33%
Metrics de KarmaPulse 63.58%

Trabajamos con una muestra de validación de 876 tweets que cumplieran con las condiciones descritas para la recolección del dataset. Esta muestra de validación se encuentra equilibrada en tweets positivos, negativos y neutrales; así hacemos más natural la observación de proporciones en cada categoría.

 

Wordcloud de palabras más frecuentes en el sentimiento negativo

Esta nube de palabras muestra los n-gramas más frecuentes en las conversaciones consideradas negativas.

 

Wordcloud de palabras más frecuentes en el sentimiento neutral

Las conversaciones con sentimiento neutral forman esta nube de palabras compuesta por n-gramas con las palabras más empleadas.

 

Wordcloud de palabras más frecuentes en el sentimiento positivo

Cuando formulamos mensajes con intención positiva podemos usar una combinación de palabras muy similar a las de sentimiento negativo. Es aquí donde ponemos a prueba la capacidad de comprensión de los clasificadores para catalogar los textos como positivos o negativos.

 

Matrices de confusión

Al calificar la exactitud de los clasificadores no sólo consideramos los aciertos que consiguen las plataformas en apego a la muestra. Es importante analizar la forma en la que aciertan o se equivocan los clasificadores para la mejora de los entrenamientos.

 

A cada clasificador se le dio a calificar el mismo número de tweets positivos, negativos y neutrales. Estas tablas muestran cuántos tweets calificó el clasificador para cada categoría y los ordena de forma que podamos ver cuántos de estos tweets se asignaron a la categoría correcta y cuántos pertenecen a otro sentimiento. Recuerda que la diagonal del eje y al eje x en dirección negativo a positivo, nos dice qué tan exacta fue la calificación del clasificador.

 

KarmaPulse: matriz de confusión

La  matriz revela la exactitud del sentimiento negativo en nuestro clasificador, lo cual nos asegura que las predicciones de este clasificador en la categoría negativa estarán en su mayoría correctamente calificados. En exactitud le sigue el sentimiento neutral, siendo el sentimiento positivo el que más porcentaje de error presenta.

 

Amazon: matriz de confusión

A pesar de que la cantidad de tweets que eligió este clasificador para cada categoría está muy equilibrada, los tweets que seleccionó se alejan más de la exactitud que nuestro clasificador. Como podemos ver en la tabla este clasificador considera positivos un número más elevado de tweets, lo que arriesga la interpretación de los datos en casos prácticos.

 

Matriz de confusión de Microsoft

Este clasificador se encuentra polarizado, no alcanzó un porcentaje considerable en la categoría de neutrales. Incluso al estar polarizado, para este clasificador este tipo de conversaciones son más negativas que positivas.

 

Conclusiones

Destacamos los siguientes hallazgos:

  • El clasificador de KarmaPulse es el que consiguió mejor exactitud y precisión durante estas pruebas.
  • Aunque nuestro clasificador tiene un porcentaje de exactitud de 49% en el sentimiento positivo, en su precisión para esta misma categoría consigue un 71%. Esto significa que del total de los ejemplos positivos que le pasamos (292) solo predijo correctamente bien la mitad (144), pero si nosotros revisáramos uno por uno los tweets clasificados automáticamente, tendríamos la confianza que un 71% de los clasificados “positivos” sí corresponden a esa categoría.
  • Amazon presenta muy buen desempeño con 67% de exactitud sobre la muestra de validación para positivos y negativos. El porcentaje para los textos neutrales alcanzó el 53. Esto lo coloca solo 1% debajo de KarmaPulse.

 

El réferi cuenta hasta 3, Barón AWS y Guerrero Microsoft han quedado contra la lona. Barón AWS estuvo a punto de pararse en el número 2 del conteo pero Mascarita Clasificadora se corona hoy como La madre de todas las herramientas de escucha social.

 

¿Quién decidirá enfrentarse a este campeón y competir por el título?