webconsul

the best webconsul(ting)

HTML-Inhalte mit PHP laden

Sie sind hier: Startseite » Archiv für dom

HTML-Inhalte kann man mit PHP ganz einfach von anderen Seiten scrapen äh laden.

Dazu installiert ihr einfach Simple HTML DOM und schon geht es los.

Entweder holt ihr die Inhalte über cURL (der Vorteil ist defintiv eine mögliche Header-Modifizierung um Referer oder Cookies zu übertragen), wie hier beschrieben oder über die eingebaute Funktion file_get_html(url), die auch Inhalte aus dem Web lädt.

Damit kann man mit:
$html = file_get_html('http://www.google.com/');

Schon Inhalte holen und durch die DOM-Struktur mit folgenden Befehlen laufen:
// Alle Bilder finden und Quellsource ausgeben
foreach($html->find('img') as $element)
echo $element->src . '
';

// Alle Links durchlaufen und Verweisziel ausgeben
foreach($html->find('a') as $element)
echo $element->href . '
';

Mit dem Code ist es ein leichtes die Google SERPs zu überwachen (sowohl für Bilder als auch die anderen organischen Suchergebnisse) und/oder RSS-Feeds abzurufen und vieles mehr.

Seid kreativ ;-)
Um zum Beispiel gut zu ranken, Seiten zu finden, bei denen man kommentieren möchte, und vieles mehr.

Designclou und SEO-Mod mittels einfachem JavaScript

Sie sind hier: Startseite » Archiv für dom

Wie heute schon berichtet arbeite ich gerade für einen Kunden an seinem Webdesign beziehungsweise programmier gerade das zugehörige Template. Das Content Management System dahinter ist einfach ein WordPress, aber das tut an dieser Stelle nichts zur Sache.

Die Aufgabenstellung war, die “gelben Boxen” beim Überfahren eines Bildes zu deaktivieren. Nachdem ich herausgefunden hatte, dass damit die title- und alt-Tags bei den Bildern gemeint waren, war die Sache einfach.

So werden aktuell aus SEO-technischer Sicht zwar die Tags geschrieben, aber mit folgendem Code beim Seitenladen mittels JavaScript entfernt:

for(var i=0; i<document.getElementsByTagName('img').length; i++){
  document.getElementsByTagName('img')[i].removeAttribute('title');
  document.getElementsByTagName('img')[i].removeAttribute('alt');
}

Das mag zwar vielleicht den Google-Richtlinien widersprechen, aber heey, das hat mehrere Vorteile. Einerseits wird das Layout dadurch freundlicher und konnte dem Kundenwunsch entsprechend angepasst werden, andererseits wird vermieden, dass die Browserplugins für den 0815 Suchmaschinenoptimierer oder der konkurrierende SEO-Agentur nützliche Informationen preisgeben und letztlich ist es Google erstmal egal, da die Tags trotzdem gewertet werden.

Somit muss kein Plugin für das WordPress Template extra gehackt werden, welches die Standardoption der Tags abändert und der dicke Bonus obendrauf ist, dass man dem barrierefreiem Web nicht im Wege steht. Denn gerade Browser die keine Bilder anzeigen können und JavaScript deaktiviert haben, ist es letztlich egal, denn hier sind alle Informationen enthalten, die gebraucht werden.
Der Beweis, dass Google dynamische Inhalte oder genauer Modifikationen am DOM des Browsers aktuell nicht interessiert, habe ich damals schon getestet. Von daher: einfach machen!

Zusätzlich habe ich für einfachen Bilderklau, über den Rechtsklick, das Kontextmenü sowie den Klick deaktiviert:
  document.getElementsByTagName('img')[i].setAttribute('onmousedown', 'return false;');
  document.getElementsByTagName('img')[i].setAttribute('oncontextmenu', 'return false;');

Das hilft zwar nicht gegen jemanden der sich auskennt, denn dagegen gibt es keine wirklich wirksame Methode, aber für den 0815-Webuser dürfte das ausreichen.