Parcourir le DOM en PHP avec Simple HTML DOM

Simple HTML DOM est un script PHP qui permet de parcourir une page web pour y rechercher n’importe quel élément, aussi simplement qu’avec jQuery. Une ligne suffit pour extraire le contenu qui vous intéresse !

Avec Simple HTML DOM, il est possible de :

  • Rechercher des éléments,
  • Modifier le contenu d’un élément,
  • D’extraire du contenu.

Ainsi, pour rechercher tous les articles présents sur une page, il suffit de quelques lignes, comme par exemple :

// Create DOM from URL
 $html = file_get_html('http://slashdot.org/');
// Find all article blocks
 foreach($html->find('div.article') as $article) {
 $item['title']     = $article->find('div.title', 0)  ->plaintext;
 $item['intro']     = $article->find('div.intro', 0)  ->plaintext;
 $item['details']   = $article->find('div.details', 0)->plaintext;
 $articles[] = $item;
 }
print_r($articles);

Le site propose de nombreux exemples d’utilisation. Toutefois, vous trouverez chez David Walsh un exemple complet pour vérifier si des pages web on été modifiées et vous envoyer un mail le cas échéant.

→ Simple HTML DOM est sur Sourgeforge.

Voir aussi phpQuery pour sélectionner les éléments du DOM côté serveur (via @c2c)