MySQL – moteurs de stockage

Ce petit article est un mémo sur les principaux moteurs de MySQL.

Il existe de nombreux moteurs de stockage pour MySQL, ils ont leurs points forts et leurs points faibles, mais en les combinant ont devrait pouvoir obtenir quelque chose de très efficace.

Les principaux moteurs sont :

MyISAM :

C’est le moteur le plus souvent utilisé car par défaut, adapté aux sites WEB.

Avantages :

  • efficace en lecture
  • recherche en FULL-TEXT
  • les clefs sont mises en cache
  • permet de lire et d’écrire en même temps dans une table sans problématique de verrouillage
  • très simple à sauvegarder (copie de fichiers)

Inconvénients :

  • ne gère pas les clés étrangères
  • ne gère pas les transactions

InnoDB :

C’est le moteur le plus complet, adapté aux applications critiques.

Avantages :

  • il gère les transactions
  • il gère les clefs étrangères
  • très configurable
  • sauvegardes à chaud
  • gère très bien les gros volumes de donnée
  • très efficace en écriture

Inconvénients :

  • assez consommateur CPU et en mémoire

Memory :

Les données sont stockées en mémoire, adapté pour des hautes performances.

Avantages :

  • très rapide (en théorie)

Inconvénients :

  • les données sont en mémoire, donc volatiles
  • ne peut pas être transformé en un autre type (via alter)
  • nécessite beaucoup de mémoire

BlackHole :

C’est un trou noir, il ne stock rien, adapté pour de la réplication en écriture (via les logs binaires).

Avantages :

  • les mêmes que /dev/null

Inconvénients :

  • mal documenté

Archives :

Idéal pour les logs

Avantages :

  • les données sont compressées
  • très rapide en écriture

Inconvénients :

  • la suppression de données n’est pas possible directement
  • ne supporte pas les index

Voici pour les moteurs dont je vois immédiatement un intérêt pour mes usages, je laisse pour le moment le moteur NDB (moteur utilisé pour le mode cluster) de coté.

Tests

J’ai fait une petite série de tests, l’injection d’1 million de lignes sur une petite VM.

J’ai gardé la configuration par défaut de Debian, exception faite de max_heap_table_size=1677721600 (pour le moteur memory).

Le test avec BlackHole sert de référence.

Première série

Avec ID (INT)/Nom(VARCHAR)/Prenom(VARCHAR) sans index

  • BlackHole : 9.2sec/0Mo
  • MyISAM : 10.3sec/264.2Mo
  • InnoDB : 17.2sec/204Mo
  • Memory : 10.8sec/269.2Mo (en ram)
  • Archives : 11.9sec/5.4Mo

Seconde série

Avec ID (INT)/Nom(VARCHAR)/Prenom(VARCHAR) avec un index sur ID

  • BlackHole : 9.2sec/0Mo
  • MyISAM : 13.1sec/275.2Mo (dont 9.8Mo d’index)
  • InnoDB : 17.3sec/205Mo
  • Memory : 12.1sec/270Mo (en ram)
  • Archives : 11.9sec/5.4Mo (il n’y a pas de notion d’index)

Mon test présente un gros goulot d’étranglement (lié à la VM) qui limite les moteurs Memory et BlackHole, je ne les ai laissé que pour trace.

En complément et à titre de comparaison sur la volumétrie avec des données réelles, j’ai repris une table d’un peu plus de 20 millions de lignes :

  • InnoDB : 1Go
  • Archives : 80Mo
sources :

VPS – Installation de Linux-VServer

Comme je vous l’ai expliqué dans mon précédent article, je suis entrain de faire l’installation d’une petite architecture à base de Linux-VServer pour le travail, en parallèle je fais la même chose à titre perso, c’est l’objet de cet article.

En quelques mots, vserver est un système de virtualisation en espace utilisateur, c’est à dire qui fonctionne directement sur le noyau de la machine hôte, ce qui assure d’excellentes performances. En contre partie, ce type de virtualisation ne permet de faire tourner que du Linux sur du Linux. On appelle aussi cela des conteneurs.

Voici comment installer Linux-VServer sur une Debian Squeeze 64bits, ça sera très rapide car il n’y a pas grand chose à dire pour l’installation à proprement parler, pour ce qui est de l’utilisation, c’est autre chose, mais pas nécessairement compliqué, c’est surtout une histoire de bon sens.

Au travail, pour installer un serveur, j’utilise des modèles, sinon je fais toujours l’installation en mode expert avec le minimum de paquets et en UTF-8 US (clavier fr).

Pour les serveurs destinés à la production, j’utilise toujours les paquets Debian de la branche main avec aptitude. Les branches contrib et non-free sont rarement nécessaires. Pour mes tests ou mes usages perso, je suis moins strict (dotdeb, backport, …).

Pour la suite, je fais tout avec un utilisateur qui a les droits root (c’est mal).

Si vous ne l’avez pas fait pendant l’installation, il faut maintenant remplacer le noyau par sa version patchée avec vserver, on en profite pour ajouter les outils de gestion :

aptitude install linux-image-vserver-amd64 util-vserver vserver-debiantools

En ce qui me concerne, je ne souhaite pas que mes vservers soient directement accessibles depuis le réseau, je préfère utiliser une interface « dummy » et faire du routage avec la machine hôte.
Mes vservers sont totalement isolés du monde extérieur, c’est Netfilter (avec du snat et du dnat) qui va décider de qui peut communiquer avec qui.

echo 'dummy' >> /etc/modules
echo 'net.ipv4.ip_forward=1' > /etc/sysctl.d/ipv4_forward.conf
echo '#interface dummy pour les vservers' >> /etc/network/interfaces
echo 'auto dummy0' >> /etc/network/interfaces
echo 'iface dummy0 inet static' >> /etc/network/interfaces
echo 'address 10.1.1.1' >> /etc/network/interfaces
echo 'netmask 255.255.255.0' >> /etc/network/interfaces

A ceci j’ajoute une règle de SNAT dans mon fichier /etc/iptables.up.rules (table nat) :

-A POSTROUTING -s 10.1.1.0/24 ! -d 10.1.1.0/24 -j SNAT --to-source LA_VRAI_IP_DU_SERVEUR

Notez que les sockets réseau sont partagés entre l’hôte et les vservers, il faut donc veiller à bien configurer chaque programme pour qu’il écoute sur la bonne adresse, dit autrement, il faut éviter de laisser les paramètres « listen » sur any (ou équivalent) à moins de savoir ce que l’on fait.

En gros, un

netstat -luntp | awk '{print $4}' | egrep '127.0.0.1|0.0.0.0'

ne devrait rien retourner.

Par exemple si vous laisser Apache faire, il utilisera le port 80 sur toutes les interfaces (celles de l’hôte comme celles des vservers).

Attention à la sécurité tout de même, pensez à jouer un peu avec iptables pour demander à netfilter de protéger tel ou tel socket des méchants du dehors.

On redémarre sur le nouveau noyau et c’est fini.
On vérifie qu’on est bien sur le bon noyau avec

uname -r

2.6.32-5-vserver-amd64

Pour ma part je ne change rien à la configuration de vserver, je préfère faire mes propres scripts de déploiement. J’initialise simplement le numéro de contexte des vservers à 100 afin de pouvoir m’en servir dans un script d’automatisation.

echo ‘100’ > /etc/vservers/.defaults/context.next

Créer un vserver de type Debian sur une Debian est très simple, notez simplement qu’un certain nombre de paramètres sont hérités de la machine hôte, entre autre le fichier resolv.conf, donc si vous avez « nameserver 127.0.0.1 » vous allez avoir un problème.
Vous pouvez créer des vservers depuis plusieurs distributions, vous trouverez plus d’informations ici.
Les commandes sont très simple, mais pour gagner en temps et éviter les oublis, je préfère faire des scripts.
Commençons par créer un script de création de modèle, modèle qui servira de base à nos futurs vservers.

#!/bin/bash
if [[ ($1 == "") ]]
then
    echo "Syntaxe : $0 nom_du_vserver"
    echo "Exemple : $0 template-squeeze"
    exit
fi

VSERVER_ROOT='/home/vservers'
VSERVER_NET='10.1.1'
VSERVERS_IFACE='dummy0'

DEBIAN_MIRROIR='http://ftp.fr.debian.org/debian'
DEBIAN_DIST='squeeze'

CONTEXT_NEXT=`cat /etc/vservers/.defaults/context.next`
newCONTEXT_NEXT=$(($CONTEXT_NEXT+1))

VSERVER_TEMPLATE_NAME="$1-$CONTEXT_NEXT"
VSERVER_TEMPLATE_IP="$VSERVER_NET.$CONTEXT_NEXT"
VSERVER_TEMPLATE_PATH="$VSERVER_ROOT/$VSERVER_TEMPLATE_NAME"

vserver $VSERVER_TEMPLATE_NAME build --hostname $VSERVER_TEMPLATE_NAME --interface $VSERVERS_IFACE=eth0:$VSERVER_TEMPLATE_IP/24 --rootdir $VSERVER_ROOT -m debootstrap -- -d $DEBIAN_DIST -m $DEBIAN_MIRROIR

echo $CONTEXT_NEXT > /etc/vservers/$newVSERVER_NAME/context
echo $newCONTEXT_NEXT > /etc/vservers/.defaults/context.next

cat /etc/apt/apt.conf > $VSERVER_TEMPLATE_PATH/etc/apt/apt.conf
cat /etc/apt/sources.list > $VSERVER_TEMPLATE_PATH/etc/apt/sources.list

vserver $VSERVER_TEMPLATE_NAME start
vserver $VSERVER_TEMPLATE_NAME exec apt-get -y remove --purge isc-dhcp-client isc-dhcp-common
vserver $VSERVER_TEMPLATE_NAME exec apt-get update
vserver $VSERVER_TEMPLATE_NAME exec apt-get -y dist-upgrade
vserver $VSERVER_TEMPLATE_NAME exec apt-get -y install locales
echo 'en_US.UTF-8 UTF-8' >> $VSERVER_TEMPLATE_PATH/etc/locale.gen
vserver $VSERVER_TEMPLATE_NAME exec /usr/sbin/locale-gen
vserver $VSERVER_TEMPLATE_NAME exec apt-get -y autoremove
vserver $VSERVER_TEMPLATE_NAME exec apt-get -y autoclean
vserver $VSERVER_TEMPLATE_NAME exec apt-get -y clean
vserver $VSERVER_TEMPLATE_NAME stop
exit

Vous pouvez configurer votre modèle afin d’y inclure les logiciels qui vous servent systématiquement, adapter certaines configurations, … Le principe d’un modèle est que tout ce qui est fait n’est plus à refaire. Il ne faut donc pas hésiter à y passer du temps.

Maintenant qu’on a notre modèle, on va pouvoir créer des vservers bon à l’usage.
Je recommande de faire des scripts d’automatisation par type de vserver (web, mysql, xmpp, …), c’est plus facile à manipuler et ça permet de les réutiliser à la manière de classes dans un programme.

A titre d’exemple, voici la version super allégée de celui que j’utilise pour déployer un vserver avec Apache2 et PHP5 :

#!/bin/bash
if [[ $1 == "" ]]
then
    echo "Syntaxe : $0 nom_du_vserver"
    echo "nom_du_vserver doit être unique"
    echo "Exemple : $0 apache2-php5"
    exit
fi

#Pensez à adapter cette variable
VSERVER_TEMPLATE_NAME='template-squeeze'

HOST_FQDN=`hostname -f`

VSERVER_ROOT='/home/vservers'
VSERVER_NET='10.1.1'

CONTEXT_NEXT=`cat /etc/vservers/.defaults/context.next`
newCONTEXT_NEXT=$(($CONTEXT_NEXT+1))

newVSERVER_NAME="$1-$CONTEXT_NEXT"
newVSERVER_PATH="$VSERVER_ROOT/$newVSERVER_NAME"
newVSERVER_IP="$VSERVER_NET.$CONTEXT_NEXT"

PKG_DEBIAN='apache2 libapache2-mod-php5'
CMD_POST_INST='/etc/init.d/apache2 stop'
#
echo "Copie du template"
dupvserver --from $VSERVER_TEMPLATE_NAME --to $newVSERVER_NAME --ip $newVSERVER_IP --vsroot $VSERVER_ROOT
echo "Copie terminée, configuration du nouveau vserver"

#######NAME
echo "127.0.0.1 localhost" > $newVSERVER_PATH/etc/hosts
echo "$newVSERVER_IP $newVSERVER_NAME" >> $newVSERVER_PATH/etc/hosts
echo "$newVSERVER_NAME" > $newVSERVER_PATH/etc/hostname

#######AUTOSTART
echo "default" > /etc/vservers/$newVSERVER_NAME/apps/init/mark
#Mise à jour des contextes
echo $CONTEXT_NEXT > /etc/vservers/$newVSERVER_NAME/context
echo $newCONTEXT_NEXT > /etc/vservers/.defaults/context.next
#
echo "Démarrage du vserser $newVSERVER_NAME"
vserver $newVSERVER_NAME start
vserver $newVSERVER_NAME exec apt-get update
vserver $newVSERVER_NAME exec apt-get -y dist-upgrade
vserver $newVSERVER_NAME exec apt-get -y install $PKG_DEBIAN
vserver $newVSERVER_NAME exec $CMD_POST_INST

echo "!! Pensez à configurer les paramètres d'écoute d'Apache !!"
echo "Ici j'utilise toute une batterie de .patch pour modifier les fichiers de configuration d'apache et de php"

exit

Pour manipuler vos vservers, vous avez 2 méthodes.

  1. depuis l’hôte en modifiant directement les fichiers (le / des vservers se trouve dans /home/vservers/NOM/) et en lançant des commandes avec vserver NOM exec commande, c’est ce que je fais dans mon script.
  2. dans le vserver en vous y connectant en ssh (si vous l’avez installé) ou en entrant dedans avec vserver NOM enter (vous arrivez directement en root à la racine)

A vous de jouer, pour ma part je suis entrain de cloisonner tous les sites et services que j’ai sur ma Dedibox perso dans des vservers, celui qui héberge ce site est le numéro 3.

VPS – Serveur dédié virtuel

Comme je ne sais pas par où commencer dans mon rangement, je vais donc noter ici ce sur quoi je travaille en ce moment : vserver

Dans le cadre de mon travail, on m’a demandé d’étudier les différentes solutions d’hébergement « vite fait et pas cher ». L’objectif est d’offrir à certains utilisateurs la possibilité, d’avoir leur propre espace Web perso, accessible de partout et surtout sans que ça nécessite des ressources de support, en gros du clefs en main.

La suite est une petite histoire qui n’intéressera probablement que ceux qui travaillent dans un métier d’administration système ou de support IT.

Quelques points de détails font qu’on ne peut pas décemment leur dire d’aller chez le premier hébergeur venu :

  • ces sites sont à vocation professionnelle
  • ces utilisateurs sont des VIP (tout est relatif…)

Actuellement, quand l’un des ces utilisateurs veut un tel espace, il y a en gros 3 cas de figure, qui s’enchainent (de 1 vers 3 et de 3 vers 1) :

  1. il fait ça dans son coin (sur un hébergement perso la plupart du temps, parfois sur du semi pro)
  2. il demande un espace sur un coin de serveur
  3. il se plaint qu’on ne lui propose pas d’office un tel outil de travail

Dans tous les cas ça nous (service info) pose des problèmes de sécurité et/ou de ressources en support à plus ou moins court terme : l’utilisateur demande une intégration de son site aux sites internes, il souhaite avoir une URL @corp, il n’arrive pas à déménager son site chez un autre hébergeur, on ne peut pas lui laisser toute la latitude qu’il souhaite sur nos serveurs (question de sécurité), nous sommes des incompétents …

J’ai donc fait une étude rapide sur les offres d’hébergement du marché (OVH, 1&1, Online, Amen …).

Sur beaucoup de points ces offres semblaient répondre aux besoins, mais elles avaient toutes le même talon d’Achille, elles nous auraient couté très chez en temps de support (gestion des comptes, création des bases SQL, configuration DNS, sauvegardes, …). Il aurait donc fallut acheter un hébergement par utilisateur (et là c’est le cout administratif qui aurait explosé).

En gros les offres d’hébergement mutualisé c’est bien quand ce n’est pas mutualisé.

J’ai donc regardé la possibilité de le faire en interne. La problématique est la suivante :

  1. pour chaque utilisateur qui en fait la demande, on doit offrir un espace de 1Go (donc avec une gestion des quotas), une base de donnée, un serveur Web, un interpréteur PHP et un accès en FTP
  2. l’adresse doit être du type http://serveur.domaine.tld/LOGIN (domaine étant ici l’un de nos noms de domaines)
  3. le déploiement d’un espace totalement opérationnel et configuré ne doit pas prendre plus de 5min (donc ça doit être scriptable)
  4. le service doit être simple à l’usage pour les utilisateurs (le plus proche possible ce que l’on trouve chez un hébergeur grand public)
  5. l’utilisateur doit pouvoir déployer les outils classiques (wordpress, joomla, drupal, sugar, …) de manière autonome
  6. le système doit être sécurisé, un utilisateur ne doit pas pouvoir accéder aux données d’un autre (pondéré par la sécurité du mot de passe)
  7. la mise en place du système (documentations et backups compris) ne pas pas prendre plus de 2 jours d’ingénierie
  8. le tout sur un seul serveur avec une seule IP et dans une DMZ public dédiée

Indépendamment les uns des autres, ces points sont simples à respecter, mais les mettre tous ensemble relève du casse tête.

Pour le 1, pas de problèmes pour le serveur Web (il suffit de l’installer) ni pour le FTP (on peut facilement chrooter les utilisateurs), mais PHP pose un sérieux problème de sécurité en environnement mutualisé. En quelques lignes, on accède (au moins) à tout ce qui est accessible par le serveur Web, à commencer par les données des autres utilisateurs, ce qui entre en conflit avec le point 6. Si on sécurise d’avantage PHP (open_basedir, disable_functions, …), le point 5 ne peut pas être respecté.

J’ai donc cherché une autre approche, virtualiser tout ça, sur un seul serveur avec un reverse proxy et un peu de SNAT.

Il existe plusieurs types de virtualisation, on dispose d’ailleurs d’une ferme ESX, mais le point 8 en réduit l’utilité.Je suis donc partie sur une solution indépendante, autonome et bien plus efficace en terme de ressource : le VPS.

J’ai évalué 3 techno de VPS :

  • LXC : plein de promesses, mais j’ai eu un bug et mon délai de mise en place de la solution était limité
  • OpenVZ : trop long à configurer, j’aurai passé trop de temps à faire une documentation d’exploitation pour mes collègues
  • Linux-VServer : moins puissant que les deux précédent, mais très simple et très rapide à mettre en place

J’ai donc opté pour Linux-VServer dans l’architecture suivante :

  • une Debian Squeeze avec le noyau vserver
  • nginx en reverse proxy
  • un peu d’iptables pour la sécurité et le SNAT
  • un vserver dédié à MySQL
  • un modèle de vserver avec Apache2 et PHP5 configurés
  • un système de déploiement du modèle

La mise en place de l’architecture (installation, configuration, backup, logs, template, scripts de déploiement, …) peut se faire en 2 heures, plus environ autant pour la documentation d’exploitation.

Il me reste encore à peaufiner quelques points pour l’automatisation totale du déploiement, notamment mettre une interface devant mon script de déploiement et ajouter un petit module de stats propre à chaque utilisateur, mais je pense que c’est une technologie que je vais faire rentrer de plus en plus dans notre DataCenter.

Pour le détail de l’installation, c’est un autre article.