Etude sur la taille moyenne des mails

J’ai eu récemment à faire des recherches (dans le cadre professionnel) sur la taille moyenne des mails (sans inclure les spams), et le résultat est plutôt étonnant.

J’ai basé mon étude sur trois axes :

  • la recherche d’informations sur des études existantes,
  • une vérification sur la taille moyenne des spams,
  • un calcul à partir de nos propres serveurs de mails.

Recherche de données sur la taille moyenne des mails

Contrairement à ce que je pensais, aucune étude récente et sérieuse n’est disponible : celles-ci portent en général sur la taille d’internet, le nombre de site existants, le nombre de pages, etc., mais rien sur les mails (ou alors j’ai vraiment mal cherché)…

Les seules études que j’ai trouvé ont été faites par l’Université de Berkeley :

En extrapolant (le nombre de mails envoyés a doublé depuis 2003), et en prenant une marge de sécurité, j’estime que la taille moyenne actuelle d’un mail doit se situer entre 80 et 100 Ko (toujours en dehors des spams).

Vérification de la taille moyenne des spams

Quels organismes pourraient faire des statistiques sur la taille des spams ?

Tout simplement, les entreprises qui offrent un service de filtrage anti-spam !

Je découvre donc chez Softscan que la taille moyenne actuelle est de 11,76 Ko par spam, cette valeur ayant tendance à augmenter fortement (Source : Vnunet).

Calcul à partir de nos propres serveurs

Enfin, puisque j’en avais les moyens, j’ai utilisé les logs mails sur nos propres serveurs mails, pour une semaine de données.

Les résultats suivants sont ressortis :

  • 94 048 mails,
  • 5,51 Go de données,

Une règle de trois plus loin, la moyenne nous donne 58,6 Ko par mail.

Pourquoi diable retrouverais-je le même chiffre qu’une étude officielle en 2003 ?

Ne pas se fier aux chiffres…

…car mes 94 048 mails n’ont pas été filtré en amont, et qu’ils contiennent du spam.

Selon l’institut IDC, 41% des mails dans le monde seraient des spams (Source : Vnunet).

En reprenant mes données, et en enlevant 41% du nombre total de mails, je peux refaire un nouveau calcul : je tombe alors sur 91,1 Ko par mail.

On aurait pu croire que l’augmentation allait être linéaire, mais pas du tout : je pense que les nouveaux services du web2.0 incitent les utilisateurs à publier leurs contenus multimédias en ligne (photos, vidéos, présentations) plutôt que de les envoyer par mail.

Si quelqu’un à une remarque sur mon calcul, ou d’autres données à me soumettre, n’hésitez pas à commenter!

Note : il faut certainement prendre une marge de sécurité de 10 % à 20 % mais je pense que le chiffre obtenu (91,1 Ko par mail) est assez représentatif pour la France.

Qui parle de vous sur Internet ?

Vous lancez un produit, un service, ou vous voulez tout simplement savoir qui parle de vous sur la toile ?

Dans ce cas, il vous est possible de :

  • rechercher un terme (si vous communiquez sur un terme spécifique) : cela peut être le nom d’un blog (woueb par exemple), le nom d’un service (ziki, zlio, wikio, etc.), ou encore votre nom,
  • rechercher les liens menant à votre site/blog.

J’utilise cinq services combinés me permettant de faire cette veille :

  • Wikio : si vous suivez l’actualité sur Wikio, il vous est possible de vous abonner aux résultats d’une recherche.
  • Serph : grâce à ce métamoteur de recherche, vous pouvez suivre un buzz sur des dizaines de sources d’informations différentes; pour plus d’informations voir mon précédent article.
  • Google BlogSearch : vous pouvez également vous abonner en RSS au résultat d’une recherche sur un terme (par exemple, une recherche sur Ziki). Par ailleurs, l’autre intérêt de BlogSearch est de permettre une recherche sur tous les liens pointant vers un blog, avec la directive link. Vous pouvez ainsi savoir quels blogs ont fait des liens vers le vôtre.
  • Technorati : de même que Google Blogsearch, Technorati vous permet de suivre les liens entrants vers votre blog. Il est également possible de s’abonner en RSS à ce service.
  • Google Alerts : vous permet de vous prévenir par mail quand de nouveaux articles sur un sujet précis apparaissent dans l’index Google.

Toutes ces techniques font parties de ce qu’on appelle la « veille passive » : c’est l’information qui vient à vous, et non l’inverse.

A noter : Bloglines permet aussi de faire des recherches sur des termes/citations dans les flux enregistrés, et de s’abonner aux résultats, mais je n’utilise pas cette technique.

La taille de notre président préoccupe beaucoup les internautes

J’utilise souvent Google Suggest pour faire mes recherches : l’intérêt de cet outil est de proposer en temps réel des expressions se rapprochant de votre recherche, dont le classement est entre autres, lié à la fréquence des requêtes sur Google.

Cet après-midi, quelle ne fut pas ma surprise de voir des suggestions concernant la taille de notre président (voir image ci-dessous).

Google Suggest : les internautes sont passionnés par la taille de notre président

Allez-y, faites le test !

(pour information, je suis tombé sur ceci en cherchant des données sur la « taille d’internet »)

Babelminute0.fr : Julia Obrien, (faux) blog d’une (fausse) espionne de la CIA ?

Il y a quelques semaines, j’ai été contacté par Julia OBrien, via MyBloglog. Un « lien plus tard », je me retrouve sur son blog, qui m’a assez surpris : Julia se décrivait comme un agent sous couverture de la CIA.

Quelques articles du blog plus loin, je commence à me poser des questions :

J’étais coincée dans ma chambre d’hôtel – au douzième étage du Hilton de Tel-Aviv, en Israël pour rencontrer des collègues d’autres services. [...] Mais cette nuit, j’ai eu envie d’aller à la rencontre d’autres « cousins » – de ces inconnus du net que je n’ai pas choisi pour servir mes desseins, mais qui seraient là juste pour écouter et répondre. Et je commencerai ce blog en Français – ma manière de saluer tous ces néoconservateurs de l’ex-administration de Bush-le-jeune, dont l’incompétence crasse a bien failli faire dérailler notre Maison de Langley. [...]

Est-ce vraiment une espionne ?

Je commence à fouiner un peu (quelques recherches sur des moteurs, un whois sur le nom de domaine, etc.), et a priori quelqu’un a effectivement créé un personnage qui est présent partout sur internet (forums, digg-likes, etc.)

La vraie réponse est venue d’un commentateur du blog, Filipe (qui a d’ailleurs interviewé Julia Obrien), puis du 100ème billet qui dévoile l’identité de l’auteur ainsi que la vraie nature du blog : c’est un livre intitulé Babel Minute Zéro !

L’auteur, Guy-Philippe Goldstein est un passionné de politique vivant à New York : il a fait appel à une web agency française pour créer un buzz autour du personnage principal de son roman, Julia Obrien.

Babel Minute 0

Vous trouverez une très bonne critique du Monde sur le livre.

Comment suivre l’évolution des candidats à la présidentielle ?

Trois solutions !

  1. Le présidographe de Jean Véronis (très bon blog à lire) : c’est un bon exemple d’utilisation pour son chronologue,
  2. Google Trends : son avantage est de permettre la corrélation d’évènements directement sur le graphique. Avec la bonne recherche, la chance vous sourit !
  3. L’Observatoire présidentielle 2007 propose deux outils d’analyse qui se complètent :
    1. Le blogopole : cartographie de plus de 2000 sites et blogs politiques français permettant d’analyser le champ de bataille sur internet,
    2. Le tendançologue : permet de suivre le bruit médiatique dans les différents médias que sont les journaux, les blogs et les newsgroups.

Vous pouvez ci-dessous un exemple du tendançologue dont l’intégration dans un site est facilitée par un petit javascript : en se débrouillant bien, il est possible d’en faire un widget.

Vous pouvez cliquer dans les menus déroulants pour « confronter » deux candidats.

Edit : j’ai enlevé le widget vu qu’il demandait un mot de passe, je le ré-intégrerais au courant du week-end.
Edit 2 : re-voilà le widget !


Touchgraph : cartographier internet ?

J’utilise Touchgraph depuis plusieurs années, et j’avais abordé le sujet en détails en 2005. Cependant, le service a récemment évolué, tant au niveau du site que de l’application : nouvelle navigation, filtre de recherches, intégration des favicons, etc.

Un module supplémentaire a fait son apparition : Touchgraph Amazon Browser, qui permet de voir les interconnexions entre les livres, les films ou la musique (ci-dessous un exemple pour l’auteur Clive Cussler).

Touchgraph : relation entre livres sur Amazon


Touchgraph Google Browser
permet de visualiser sous forme de cartographie les résultats de recherches sur Internet : ci-dessous, l’exemple pour le terme « woueb« .
Ce système retranscrit graphiquement les résultats d’une commande related sur Google, l’avantage principal est de pouvoir créer des clusters et des nébuleuses de sites pour regrouper des ensembles de sites, de thématiques, et/ou de réseaux/communautés.

Touchgraph : nébuleuse de sites autour de woueb 2.0

Je trouve Touchgraph très intuitif et agréable à utiliser : il est possible d’affiner les résultats à l’aide des filtres, et la navigation à la souris permet réellement de manipuler l’information.
Mon seul reproche ira envers le côté développement : on ne sait pas grand chose des algorithmes utilisées, même si l’API est libre.