TecnoXplora » CienciaXplora » Divulgación

ADIÓS A LOS BOTS CON LAS MATEMÁTICAS

Cómo detectar el spam en Twitter usando la ley de Benford

La potencia de las redes sociales como herramienta de trasmisión de contenido no ha pasado desapercibida para comerciantes, charlatanes vendiendo pseudomedicinas e ideólogos políticos, entre otros. Un estudio reciente de la Universidad de Maryland propone el uso de la ley de Benford para detectar estas cuentas 'cojoneras'.

Detecta a los bots de Twitter

Detecta a los bots de Twitter Raquel Garcia Ulldemollins

Publicidad

Este año hiperelectoral de la muerte surgen los 'bots': cuentas de Twitter que vocean con entusiasmo consignas, emanadas de sus amos, como setas. Lo que pretenden es convertir en 'trending topic' algo que favorezca al candidato o producto en cuestión. Son, principalmente, molestos y además perturban el buen funcionamiento de la red.

Alguien puede pensar que basta con no seguirlos, pero eso no es cierto ya que si crean una cierta tendencia (de forma artificial) pueden conseguir una atención que no se merecen. Naturalmente existen diversos métodos para detectarlos, pero vamos a describir uno sumamente efectivo, simple y, ¿por qué no decirlo?, sorprendente: el uso de la ley de Benford (conocida también como 'ley del primer dígito').

Supongo que lo primero que conviene aclarar es qué es la ley de Benford y para ello tenemos que hablar de logaritmos.  No se asusten, solo es necesario saber que antes se usaban mucho y poco más. Efectivamente, los logaritmos son una herramienta mágica que transforma operaciones complicadas en otras más sencillas: las multiplicaciones se transforman en sumas, las exponenciaciones en multiplicaciones y las raíces en divisiones.  Maravilloso.

Por lo tanto, antes de la llegada de los ordenadores eran muy usados (en ellos se basan las reglas de cálculo que eran indispensables para los ingenieros de hace cincuenta años) y cualquiera que tuviera que realizar cálculos laboriosos solía pasar un buen tiempo consultando las tablas de logaritmos. Dichas tablas solían presentar la forma de un libro que estaba ordenado por el primer dígito del número del que quisiéramos saber su logaritmo. Así, si deseamos conocer el logaritmo de 145, buscaríamos en las páginas del “1”.

Pues bien, en 1881 el matemático y astrónomo Simon Newcomb observó que las primeras páginas de las tablas de logaritmos que él y sus compañeros usaban estaban mucho más usadas que las finales, lo cual era aparentemente contradictorio, porque los números consultados deberían tener una distribución más o menos uniforme y sería esperable que todas las páginas estuvieran igual de deterioradas. A partir de ello dedujo que los dígitos iniciales de los números con los que trabajaban no son equiprobables, sino que el 1 aparece como dígito inicial más frecuente, seguido del 2 y así hasta el 9.

¿Por qué ocurre esto? No vamos a entrar en la explicación más profunda, pero supongamos que escogemos unos cuantos números al azar entre dos números, por ejemplo entre 1 y 25: evidentemente cualquier número tiene la misma posibilidad de salir, pero si nos fijamos en el primer dígito, once de esos números empiezan por 1 (1, 10, 11, …), siete empiezan por 2 y uno por el resto de los dígitos. Cincuenta años más tarde que Newcomb el físico Frank Benford también se dio cuenta de dicha propiedad, pero él se ha quedado con la gloria ya que la ley adoptó su nombre.

Lo curioso es que dicha ley ha sido utilizada para probar en juicios que ciertas contabilidades son falsas, viendo que las entradas no seguían la distribución esperada.

Naturalmente, existen listas de números que no siguen la ley de Benford, pero en la mayoría de los casos se puede dar una interpretación a dichas anomalías. Por ejemplo, cuando fueron publicados los 'papeles de Bárcenas' algún matemático señalaba que los números que aparecían en dichos documentos no seguían la ley de Benford y que, por tanto, deberían ser falsos. Más concretamente, el 6 aparecía con mucha mayor frecuencia de lo que predecía la ley. De lo que no se dio cuenta dicho matemático es  de que dicho dígito aparecía con mayor frecuencia a partir del cambio de peseta a euro y que provenían de cifras que empezaban en 1: si se cambiaba todo a pesetas, se volvía a verificar la ley de Benford.

Pero volvamos a nuestro problema inicial: ¿cómo podemos usar la ley de Benford para detectar 'bots' de Twitter? El método usado por Jennifer Golbeck de la Universidad de Maryland ha sido estudiar la llamada red egocéntrica: para un vértice dado ha mirado el número de seguidores y seguidos de sus seguidores y seguidos. Con ello ha comprobado que de 21.000 casos estudiados prácticamente todas las listas de números siguen la ley de Benford, salvo las asociadas a 170 cuentas. De estas, la inmensa mayoría  son claramete 'bots' de 'spam' y un buen número de ellas son unas cuentas rusas que ponen citas de obras famosas sin saber muy bien con qué objetivo. De hecho, solo dos de esas 170 cuentas parecen de usuarios normales.

Habría que definir qué es un usuario normal en esto de Twitter pero eso da no para un artículo sino para una tesis doctoral, y eso se lo dejo a otro.

Publicidad