webconsul

the best webconsul(ting)

Blogspamming like a Pro

Sie sind hier: Startseite » Archiv für scrape

In den letzten zwei Posts steht, wie man Inhalte von anderen Seiten scrapet oder zur eigenen Verarbeitung lädt.

Dieser Post gehört wie manche anderen auch wieder in die Kategorie: don’t try this at home und macht es nicht, damit könntet ihr gegen irgendwelche Gesetze und/oder Richtlinien verstoßen.

ABER stellt euch folgendes Szenario/Anwendungsgebiet vor:

  1. Suche in der Google Blogsuche nach neuen Trends und Themenrelevanz
  2. Laden des jeweiligen Blogposts und
    1. Analyse des Inhalts
    2. Modifizieren des Inhalts
    3. Erstellen eines Kommentars
    4. Posten des Inhalts aus 2.2. in eigenen Blog
  3. Verschleierung der Spuren via Referer, User-Agent und Co
  4. Verwendung von registrierten (und eingerichteten Blogaccounts)

Dabei ist im Punkt 2.1. genau darauf zu achten, welche Form von Anti-Spam-Methoden benutzt werden.
Die lässt sich aber eindeutig Anhand diverser Merkmale im Quellcode identifizieren und danach suchen und entsprechend reagieren.

In 2.1. sollte man auch weiterhin auf den Autor eingehen und ihn bzw. den Nickname grüßen (evtl. auch sogar dem Link zur Autorenpage folgen und davon den (Vor-)Namen verwenden).

Das ergibt einen perfekten Kommentar in Punkt 2.3. den man einfach mit einem potentiell übermittelten Cookie und dem richtigen Referer versandt werden kann, sodass man in den meisten Fällen einfach durchkommt.

Die Methode kann man insofern verbessern, dann man sich manuell auf der jeweiligen Seite registiert und den oft benötigten ersten Post per Hand erstellt und dann die Daten in die Datenbank aufnimmt und ab da automatisch mit dem Webmaster “interagiert” ;-)

Dort könnte man zum Beispiel folgende Daten speichern:

ID BlogUrl Autor/-en Thema Username Passwort AntiSpam-Plugin Postfrequenz Feed

Auch hier ist wieder ein Schelm wer böses denkt, schließlich kann man im Internet doch nicht spammen oder seinen Unfug treiben.

An alle mit schwarzen Hüten: schämt euch und habt Spaß mit eurem Sportwagen ;-)

PS: Gut zusammengefasst auch nochmals hier: Linkbuilding Details

HTML-Inhalte mit PHP laden

Sie sind hier: Startseite » Archiv für scrape

HTML-Inhalte kann man mit PHP ganz einfach von anderen Seiten scrapen äh laden.

Dazu installiert ihr einfach Simple HTML DOM und schon geht es los.

Entweder holt ihr die Inhalte über cURL (der Vorteil ist defintiv eine mögliche Header-Modifizierung um Referer oder Cookies zu übertragen), wie hier beschrieben oder über die eingebaute Funktion file_get_html(url), die auch Inhalte aus dem Web lädt.

Damit kann man mit:
$html = file_get_html('http://www.google.com/');

Schon Inhalte holen und durch die DOM-Struktur mit folgenden Befehlen laufen:
// Alle Bilder finden und Quellsource ausgeben
foreach($html->find('img') as $element)
echo $element->src . '
';

// Alle Links durchlaufen und Verweisziel ausgeben
foreach($html->find('a') as $element)
echo $element->href . '
';

Mit dem Code ist es ein leichtes die Google SERPs zu überwachen (sowohl für Bilder als auch die anderen organischen Suchergebnisse) und/oder RSS-Feeds abzurufen und vieles mehr.

Seid kreativ ;-)
Um zum Beispiel gut zu ranken, Seiten zu finden, bei denen man kommentieren möchte, und vieles mehr.