lunes, diciembre 04, 2006

Estudio sobre el SPAM I

Aprovechando unos scripts que desarrollé hace un tiempo para contar frecuencias de palabras en anuncios (cosas de mis jefes), he hecho lo siguiente:

1. recolectar todo el SPAM que he recibido desde Julio 2007 ( 3836 emails)
2. contar la frecuencia de cada palabra en estos emails
3. compartir con vosotros una selección de la lista:

(el número que precede a la palabra indica su frecuencia de aparición)

32331 the
4232 more
1461 product
1459 people
1428 her
1331 like
1093 weight
1043 Anatrim
1025 Hoodia
892 available
889 better
798 extra
792 food
788 fat
749 good
742 real
711 List-Unsubscribe:
694 very
690 got
687 tried
687 them
674 different
671 mood
619 life
614 appetite
600 little
555 through
553 improves
552 exciting
539 design
537 pounds
533 wife
501 special
499 happy
496 energy
478 problems
476 brain
470 think
470 natural
469 course
467 software
467 hated
465 Oprah
464 world
459 hate
454 newest
448 feel
448 company
448 body
346 Microsoft
306 huge
<........>
1 blackmail
1 blackfeet
1 blacken
1 blackbody
1 blackball

Otro día que tenga más energía (mental) pondré una lista más descriptiva y algunas de las estadísticas automáticas que me han salido, y de paso comentamos lo que este análisis indica sobre los que los SPAMERS piensan sobre nosotros... Lo que queda demostrado es que los dos temas más recurrentes son el sobrepeso y el sexo. De todas formas, me ha extrañado no encontrar "Viagra" entre las más frecuentes (frecuencia=182) y si "Anatrim" y "Hoodia" (que imagino que son para cosas similares), pero imagino que evitan escribirla tal cual para evitar los filtros de SPAM, y saldrá en posiciones más bajas como V*agra o similares.

No hay comentarios: