Más allá de lo que nosotros como usuarios disfrutamos de las redes sociales, al interactuar en ellas, revelamos muchísimo sobre cómo nos comportamos en redes, y si estos se estudian y analizan con audacia, pueden darnos muchísima información extremadamente importante para la toma de decisiones.
Ahora bien, muchos piensan que cuando se hace análisis de redes sociales, alguien está sentado grabando Tweets, o visitando cuentas de otros, para luego revisarlos y leerlos en la noche. No, todo ocurre a nivel de programación, pues los volúmenes de información son muy altos. Resulta ser que todas las redes sociales proveen una especie de vía de comunicación para desarrolladores, para poder obtener información de las redes, a través de programas de computadora.
Hoy mostraré qué se puede hacer cuando se obtiene un conjunto de miles de tweets a través de programación, y algo de análisis que es posible con esa información. Me voy a concentrar en Twitter, y lo primero que hay que saber es que para conectarse hay que usar lo que se llama el API.
API
Para los que trabajamos en analítica como yo, lo que utilizamos para obtener datos es lo que se llama un API (application programming interface) para comunicarnos con la información de Twitter. Las API son una serie de herramientas y protocolos de comunicación que permiten a desarrolladores y analistas obtener información de usuarios, sus tweets (o posts de otras redes), seguidores, etc. Para utilizarlo, es necesario registrarse como desarrollador (cualquiera lo puede hacer), y seguir ciertas directrices de cómo no utilizar la información para desarrollar bots (robots digitales), o utilizarlo para actividades de vigilancia o control estatal.
Una vez registrado, se puede utilizar casi que cualquier herramienta de programación como Python y R entre otras. Para esta columna, yo utilicé la herramienta Wolfram Mathematica,
una plataforma de programación y análisis extremadamente poderosa la cual tengo más de 20 años de utilizar para análisis matemático, estadístico y computacional (y para dar clases). No voy a entrar en detalles técnicos, pero mediante comandos, e identificando usuarios específicos, se puede a través de Matemática, acceder a toda la información de un usuario, y almacenar en un conjunto ordenado de datos decenas de miles de tweets.
Al conectarme a Twitter a través del API puedo por ejemplo obtener rápidamente detalles de cualquier usuario de Twitter, vean por ejemplo el de CRHoy.com:
Cómo pueden ver en la imágen anterior, solicité a través de un código, información del usuario @crhoycom. Con eso obtengo información de seguidores, cuando fue creada la cuenta y otras cosas. Todo esto es información pública, pues nosotros al registrarnos en una red social aceptamos esas condiciones.
Pero puedo ir más allá y también puedo solicitar los últimos miles de tweets. Acá una muestra de 10 Tweets,
Noten como del contenido de texto de los Tweets (columna o atributo Text), se pueden sacar estadísticas de temas, palabras clave, hashtags, frases, imágenes, ver retweets, menciones, etc. Todos los Tweets obtenidos se almacenan en un set de datos, los cuales pueden ser explorados con herramientas estadísticas, matemáticas, de machine learning y otras.
Como son tantos Tweets, el análisis de textos no se hace manual, no puedo ir uno a uno leyéndolos. Para eso analizo con diferentes herramientas computacionales (por ejemplo búsqueda con expresiones regulares), con el fin de entender ordenar, etiquetar, clasificar, y extraer información específica.
Utilizando Mathematica, voy a hacer un análisis sencillo para mostrar algunas de las posibilidades. Utilizando los Tweets, exploremos las reacciones debidas a las noticias (Tweets) relacionadas con lo sucedido con el “Trol”.
Un ejemplo de análisis de noticias del “Trol”
En Costa Rica casi la mayoría estamos familiarizados con las noticias del Trol. En pocas palabras, es la historia de un trol presuntamente recibió pagos por sus servicios de “trolear” por parte de personas del gobierno. Esta noticia arranca en diciembre del 2021 y la gran mayoría de medios noticiosos, comienzan a publicar Tweets sobre el tema.
Revisando los Tweets de los medios La Nación, CrHoy, El Observador y El Mundo, durante el período de diciembre del 2022 a mediados de enero del 2023, y filtrando solamente aquellos que se relacionan a la noticia del trol, es decir, mencionan alguna de varias palabras claves sobre el tema, obtenemos la siguiente distribución de publicaciones sobre el trol,
Marco con línea punteada en el gráfico las fechas en que hubo mayor actividad, que se relacionan a cuando diputados piden a el trol comparecer (finales de diciembre), cuando comienzan reacciones de algunos sectores (primeros días de enero), y en el día de la comparecencia (marcado como 1,2 y 3 en el gráfico). Se observa la típica actividad de ciclos noticiosos que duran máximo unos 7 días.
El medio que más publicaciones hace sobre el tema es La Nación, llegando a ocupar en su momento más alto (la comparecencia ante la asamblea), un 20% de sus publicaciones ese día. El que menos publica es El Observador con sólo unos 7 Tweets el día de la asamblea. No incluí en el gráfico a DelfinoCR, el medio que menos Tweets hizo del tema (solo 9 en total, comparado a 92 de La Nación).
Ahora bien, en el análisis de redes sociales, los Re-Tweets (RT) son extremadamente importantes. Aunque los likes, nos hacen sentir bien, los RT son los que realmente propagan los posts. En las cadenas de noticias esto es especialmente importante. Si es una noticia trágica, por ejemplo, difícilmente le damos “like”, pues sería como decir que nos gusta la tragedia, por eso los likes son poco representativos. Más bien si nos sentimos identificados o nos afecta, hacemos RT, y si además queremos opinar, hacemos RT con comentarios. Al final del día, los RT son un buen indicador de interacción e interés en el tema.
CrHoy por ejemplo hace un promedio de 80 Tweets por día (promedio entre diciembre del año pasado y enero de este año). En su punto máximo, el número de Tweets que se referían al Trol, sólo ocupaban alrededor del 5% de los Tweets, en realidad no son tantos, pero el interés del público en el tema se refleja en los RT. Veamos el siguiente gráfico,
En el gráfico, A muestra la cantidad de RT por día en CrHoy. Noten como hay muchos más RT en las mismas fechas que indicamos anteriormente, en particular el día de la comparecencia ante la asamblea. Los RT son las respuestas del público, refleja el interés popular sobre el tema. Como se ve también en el gráfico en B, la probabilidad de tantos RT es muy baja, y ocurre en lo que llamaríamos algo de viralidad por la noticia. Acá sólo muestro el caso de CrHoy para mantener el artículo corto, pero el resultado es similar en otros medios.
Bueno yo lo dejo hasta acá, pero así podríamos seguir analizando con mucho más detalle y de manera más profunda, incluso explorando la naturaleza de los Tweets, RT, quienes son los que hacen RT, etc.
Comentario final
Muchas veces nos parece eterno un tema noticioso, y decimos que ya estamos cansados de escuchar del asunto, la realidad es que nuestra propia interacción con la noticia es la que la replica y amplifica. Toda noticia tiene un ciclo de vida, por un lado los medios de prensa “enfatizan” algún tema, y al final, si se propaga, es por nosotros (y bueno, troles).
En el ejemplo que muestro, el énfasis de los medios es solo un poco más de lo que se publica sobre otras noticias del día, eso, sumado por el interés por lo “jugoso” de la noticia, hace que todos nosotros usuarios de Twitter, comencemos a propagar la información.
Los RT en Twitter son ese motor que propaga información. Un trol, por ejemplo, utiliza diferentes estrategias para asegurarse que existan gran cantidad de RT, esto con el fin de atacar, crear división, o propagar información falsa. Así como yo puedo obtener información de usuarios y sus tweets, un trol hace lo mismo, y podría enfocarse en uno o varios grupos de personas, monitorear sus Tweets, y tratar de cambiar el curso de discusión, desinformar o atacar directamente a las personas.
La intención de esta columna es ejemplificar de manera sencilla qué significa hacer análisis de redes sociales, o por lo menos una parte de ella. Claramente este análisis es una simplificación de lo que involucra un análisis más robusto. No es de mi interés en esta columna, emitir juicios de valor o opiniones sobre el trol, solamente lo utilicé de ejemplo al ser un tema que llenó las redes de Tweets, con un comportamiento característico de viralidad.
P.D. Para aquellos que quieran revisar los datos que utilicé para esta columna, los pueden descargar en el siguiente enlace: Click aquí:
Tomás de Camino Beck
Director Escuela de Sistemas Inteligentes
Universidad Cenfotec