L’architecture technique de Wikipedia : quelques chiffres (1/2)
Cet article est le premier d’une nouvelle rubrique traitant des architectures complexes des sites et applications à fort trafic.
Tout le monde connaît Wikipedia, l’encyclopédie en ligne qui totalise près de 8 millions d’articles dans plus de 200 langues (15 langues ont plus de 100 000 articles). Tous les projets Wikipedia, Wiktionary, WikiBooks, WikiNews, etc., sont soutenus et hébergés par la fondation Wikimedia.
Commençons par quelques chiffres sur cette plate-forme pour situer le contexte :
- Wikipedia est le 9
ème site le plus plus consulté au monde selon Alexa, - plus de 350 serveurs répartis dans 3 datacenters différents (Floride, Amsterdam, Séoul),
- près de 50 000 requêtes HTTP/seconde en pic, pour une moyenne de 27 000 requêtes HTTP/seconde,
- 2,2 Gbits/s de bande passante moyenne pour 3,7 Gbits/s en pic,
- en moyenne, 2 000 nouveaux articles et 200 000 edits quotidiens,
- 1,3 To de stockage pour les images (plus de 4 millions de fichiers),
- 25 Go de données dans MySQL,
- un nombre de mots avoisinant les 2,5 milliards,
- une croissance exponentielle : doublant tous les six mois en terme de visiteurs/trafic/serveurs.
Dans le second article de ce dossier, je détaillerai l’architecture, la répartition de l’effort informatique, ainsi que les astuces utilisées par Wikimedia pour garantir un service de qualité avec peu de serveurs.
Sources :
- Wikimedia Grid,
- Leon’s Weber project,
- Données Alexa,
- Wikipedia : Multilingual Statistics,
- Wikipedia Statistics,
- Wikipedia Datas.
Commentaire by Plougy — 5 novembre 2007 @ 22:07
Vraiment impressionnant ! « une base de données MySQL de 25 Go », une seul ?
Commentaire by Romain — 5 novembre 2007 @ 22:12
@Plougy > je me suis mal exprimé je corrige. Il s’agit de 25 Go de données MySQL, réparties en plusieurs bases, et sur plusieurs serveurs.
Commentaire by soso — 5 novembre 2007 @ 22:26
Moi je me demande juste avec quel PDG de boite tu dois coucher pour avoir accès à ces chiffres ? ^^
Ok je sors…
Commentaire by Rémian — 5 novembre 2007 @ 22:57
C’est pas Google mais c’est impressionnant quand même. Excellent billet
Commentaire by Plougy — 5 novembre 2007 @ 22:59
Ah oui car une seul base de 25 Go m’étonnais…
Commentaire by leGizz — 6 novembre 2007 @ 9:58
« une nouvelle rubrique traitant des architectures complexes des sites et applications à fort trafic »
Il me tarde de lire les articles de cette nouvelle rubrique
Commentaire by BigVicente — 6 novembre 2007 @ 10:18
Hum je vois que je ne suis pas le seul à être fasciné par l’architecture derrière les gros sites ! Je vais lire attentivement la suite
Mon rêve est d’arriver à lancer un jour un site demandant une (petite) grappe de serveur pour le faire tourner Pour le moment je me contente de filer un coup de main dans l’hébergement de dépôts auxiliaires pour Ubuntu, ca donne un petit aperçu
Commentaire by Jacques — 6 novembre 2007 @ 11:49
C’est le genre de sujet que j’adore. Dommage que pas mal de sites connus considèrent ces données comme confidentielles.
Commentaire by Antoine — 7 novembre 2007 @ 17:09
rubrique intéressante
si on peut apprendre comment les mastodontes de l’internet gère leur truc, et bien pourquoi pas !
Commentaire by Nico — 7 novembre 2007 @ 17:25
Sujet interessant.
Ping by Wikipédia : infos et chiffres … - Walkyr — 10 juillet 2010 @ 22:47
[...] de données La base de données contiendrait 25 Go de données, plus de 2.5 milliards de mots, ainsi qu’1.3 To de stockage de [...]
Ping by Darkknow's blog » Wikipédia, infos et chiffres … — 8 janvier 2012 @ 18:04
[...] La base de données contiendrait 25 Go de données, plus de 2.5 milliards de mots, ainsi qu’1.3 To de stockage de médias (principalement images) [...]