Die neue Serie Global Innovation auf mashable.com veröffentlicht viele Blogbeiträge über die städtische Fortbewegung und ist nicht nur deswegen interessant.
In diesem SEO-fokussierten Blog berichte ich darüber, da in jeder der Serien auf mashable.com eines geduldet auffällt: gesponsorte Blogbeiträge:
Dabei wird der Linkaufbau großer Brands ganz einfach gewährleistet und stört auch den Leser nicht, da die Backlinks zum unterstützenden Unternehmen in den thematischen Kontext passend und wahrscheinlich oftmals zum Content beitragen. Die Werbeanzeige zu Beginn des Beitrags stört da weniger.
Vielmehr lässt mich wundern, dass bisher noch kein professioneller Linkveräufer auf den Trichter gekommen ist ein solches Sponsoring, wie schon hier vorgeschlagen umzusetzen und für sich, die Brands und die Blogger anzubieten.
Schließlich kann man eine Win-Win-Win-Situation für alle generieren.
Die Brands erhalten eine 1a Suchmaschinenplatzierung, die Blogger erhalten Unterstützung für guten und mehrwertschaffenden Content und die Nutzer eben selbigen.
Also hier nochmals die deutliche Empfehlung an alle die im nächsten Ranking Check ihre Offpage-SEO-Faktoren gepusht haben wollen: unterstützt Blogs.
Gerade für Brands ist es ein leichtes mit einem bekannten Nischenblog eine Kooperation zu einer Artikelserie einzugehen und selbige gemeinsam zu veröffentlichen.
Und gerade die harte Arbeit als Blogger möchte dabei auch nicht unbedingt vernachlässigt werden und kann damit gut belohnt werden.
… und natürlich kann sich jeder über meinen Ref-Link anmelden: teliad Linkbuilding
Seit einiger Zeit tummeln sich diverse Crawler auf meinem Blog, die meine Inhalte übernehmen und auf anderen Seiten veröffentlichen.
Das wäre ja kein Problem, wenn man das entsprechend mit angibt.
Daher habe ich nun folgende drei Schritte unternommen um automatisches Scrapen zu erschweren:
- RSS-Feed auf Kurzfassung umgestellt: Admin-Panel -> Einstellungen -> Lesen -> Newsfeed Kurzfassung
- Yoasts RSS Footer Plugin um einen Link und eine Ursprungsnotiz hinzuzufügen
- Die index.php von WordPress folgendermaßen modifiziert:
<?php
// Bots und Scraper ausschliessen:
function botcheck($ua) {
$matches = array("java", "libwww", "perl", "curl");
for($i=0; $i<sizeof($matches); $i++)
if(stristr($ua, $matches[$i])) {
return true;
} else {
return false;
}
}
if(botcheck($_SERVER['HTTP_USER_AGENT'])) {
echo "Böser Bot: geh weg!<br/>Falls Du doch kein Bot bist, überprüfe bitte deinen User-Agent.";
} else {
define('WP_USE_THEMES', true);
require('./wp-blog-header.php');
}
?>
Ist zwar im Sinne der Rechenleistung und Website-Geschwindigkeit nicht optimal, aber zumindest werden alle Bots die sich im User-Agent mit Java, Perl und vielem mehr ausgeben entsprechend mit einer Meldung abserviert.
Die Modifizierung muss direkt in der Index-Datei im WordPress-Root-Verzeichnis gemacht werden, da diese die restliche Auslieferung vorantreibt. Im WordPress Theme selbst funktioniert das nicht.
Klar, das löst nicht alle Probleme, aber zumindest erschwert es die Sache etwas und plumpes Content-Scraping funktioniert damit nun nicht mehr.
Schauen wir mal, welcher Bot zuerst seinen User-Agent umstellt
PS: Natürlich werden einige Bots auch über die robots.txt blockiert, aber Scraper halten sich leider nicht daran
Um Duplicate Content in einem WordPress-Blog zu vermeiden, habe ich heute (leider etwas zu spät) folgende Erweiterung in meinem webconsul WordPress-Theme in den <head>-Tag eingefügt:
<?php
if((is_home() && ($paged < 2 )) || is_single() || is_page() || is_category()){
echo '<meta name="robots" content="index,follow" />';
} else {
echo '<meta name="robots" content="noindex,follow" />';
}
?>
Damit werden alle Seiten außer der Startseite, einer Beitragsseite oder einer Kategorie mit noindex geblockt und somit auch nicht von Google als Duplicate Content zu erkennen geben.
Erläuterung: Das Problem rührt daher, dass die Archiv-Seiten der jeweiligen Monate und Co entsprechend sonst die gleichen Inhalte ausliefert.
Aber ich gehe davon aus, dass Google das selbst berücksichtigt, insofern viele Blogs selbige Technik nicht verwenden, daher lasst euch nicht beunruhigen, aber wenn ihr mal 30 Sekunden Zeit habt, dann baut das mit ein.
Vor einige Zeit hatte ich schonmal über Flattr berichtet.
Nun ist es soweit und Flattr startet in open beta sodass sich nun jeder dafür anmelden kann.
Probiert es aus!
Will man in vielen Blogs, sozialen Community und dem ganzen Rest eindeutige Profile anlegen um den jeweiligen Seitenbetreiber und/oder Spam-System nicht aufzufallen, so braucht man Input. Viel Input.
Den beschafft man sich am besten einfach über Google selbst, indem man die Google Profile dazu nutzt.
Vor einiger Zeit konnte man über die Suchanfrage inurl:http://www.gstatic.com/s2/sitemaps/sitemap entsprechend 3449 Sitemaps mit je 5000 Profilen finden.
Gut, die Nummerierung ist relativ simpel und mit einem kleinen Skript kann man alle Sitemaps runterladen:
for($i=100; $i<3450; $i++)
system("wget http://www.gstatic.com/s2/sitemaps/sitemap-".$i.".txt");
Und dann die jeweiligen Sitemaps durchlaufen und die jeweiligen Profile mit diesem Skript:
for($i=2000; $i<3000; $i++) {
$file = fopen("../sitemap-$i.txt", "r") or exit("Unable to open file!");
system("mkdir profiles-$i");
while(!feof($file)) {
$random = rand(2,10);
$id = split('/', fgets($file));
$id = $id[4];
echo "fetching $id";
system("sh ../wget.sh $i $id");
sleep($random);
}
fclose($file);
}
Und wget.sh dann mit eigenem User-Agent und Parametern konfiguriert gibt am Ende 3499*5000 = 17.245.000 Google Profile.
Damit kann man sich ein schönes User-Netzwerk aufbauen, Blogs einrichten und vieles mehr.
Aber dabei sollte natürlich nie gegen die jeweiligen Richtlinien der Betreiber verstoßen werden.
In den letzten zwei Posts steht, wie man Inhalte von anderen Seiten scrapet oder zur eigenen Verarbeitung lädt.
Dieser Post gehört wie manche anderen auch wieder in die Kategorie: don’t try this at home und macht es nicht, damit könntet ihr gegen irgendwelche Gesetze und/oder Richtlinien verstoßen.
ABER stellt euch folgendes Szenario/Anwendungsgebiet vor:
- Suche in der Google Blogsuche nach neuen Trends und Themenrelevanz
- Laden des jeweiligen Blogposts und
- Analyse des Inhalts
- Modifizieren des Inhalts
- Erstellen eines Kommentars
- Posten des Inhalts aus 2.2. in eigenen Blog
- Verschleierung der Spuren via Referer, User-Agent und Co
- Verwendung von registrierten (und eingerichteten Blogaccounts)
Dabei ist im Punkt 2.1. genau darauf zu achten, welche Form von Anti-Spam-Methoden benutzt werden.
Die lässt sich aber eindeutig Anhand diverser Merkmale im Quellcode identifizieren und danach suchen und entsprechend reagieren.
In 2.1. sollte man auch weiterhin auf den Autor eingehen und ihn bzw. den Nickname grüßen (evtl. auch sogar dem Link zur Autorenpage folgen und davon den (Vor-)Namen verwenden).
Das ergibt einen perfekten Kommentar in Punkt 2.3. den man einfach mit einem potentiell übermittelten Cookie und dem richtigen Referer versandt werden kann, sodass man in den meisten Fällen einfach durchkommt.
Die Methode kann man insofern verbessern, dann man sich manuell auf der jeweiligen Seite registiert und den oft benötigten ersten Post per Hand erstellt und dann die Daten in die Datenbank aufnimmt und ab da automatisch mit dem Webmaster “interagiert”
Dort könnte man zum Beispiel folgende Daten speichern:
| ID |
BlogUrl |
Autor/-en |
Thema |
Username |
Passwort |
AntiSpam-Plugin |
Postfrequenz |
Feed |
Auch hier ist wieder ein Schelm wer böses denkt, schließlich kann man im Internet doch nicht spammen oder seinen Unfug treiben.
An alle mit schwarzen Hüten: schämt euch und habt Spaß mit eurem Sportwagen
PS: Gut zusammengefasst auch nochmals hier: Linkbuilding Details
Im neuen Safari 5 von Apple gibt es ein besonders wichtiges Feature, den Safari Reader.
Dieser ermöglicht es auf Newsseiten oder Blogartikel nur den Inhalt anzuzeigen, die Sidebars, Header, Werbung und das andere Drumherum auszublenden.
Im Screenshot ist das beispielhaft für heise online zu sehen:
Weitere Informationen zum neuen Apple Safari 5 gibt es for news articles und im fscklog.
Wenn ihr das Feature auf eurer eigenen Seite anbieten und einbinden wollt, dann braucht ihr lediglich die HTML 5 Tags <article> sowie </article> um den anzuzeigenden Content schreiben.
Dabei scheint es so, als ob nur geschlossene Textblöcke darin zugelassen sind und nicht jeder <article> verwendet wird um das Reader Symbol in der Adresszeile anzuzeigen.
Den letzten Post über Flattr habe ich eben bei Jochen Mai in der Karrierebibel gelesen:
Flattr – Haste mal nen Euro?
Und genau deswegen habe ich mir das mal näher angeschaut.
Enno hatte auch schon darüber berichtet, genauso wie netzwertig, netzpolitik und die TAZ.
Sucht man tiefer, findet man so einiges.
Das Video zeigt das Prinzip:
Ich finde die Idee sehr gut, hab aber Bedenken, dass sich das System zu leicht aushebeln und manipulieren lässt.
Auf der anderen Seite ist es ein guter Start um eine Art Bezahlsystem für Blognachrichten einzuführen, welches schon lange hat auf sich warten lassen.
Es muss ja nicht immer alles durch Werbung finanziert werden, im Gegenteil!
Um den Blog hier wieder mit mehr Leben zu füllen, gibt es die besten SEO Artikel und Beiträge aus den letzten Tagen und Wochen, die ich mir zum intensiveren Lesen notiert hatte:
Site Review Part 3 in der BING Community
Google MayDay Update und mehr hier: Google Makes One Change Per Day To Search Algorithm
How Do Americans Access Government Data? Search Engines. Ist bei uns in .de auch nicht anders.
Etwas schwärzer: content spinning eine nicht zu empfehlende Technik, aber netter Write-Up
Another 10 Ways Search Engines May Rerank Search Results wie Suchmaschinen die Ergebnisse bewerten und bewerten könnten. Dazu aber mehr in der nächsten Zeit.
Das sind nun genug Geschichten zur Optimierung und in der nächsten Zeit gibt es noch mehr.
Update:
Ganz vergessen hatte ich diesen Post mit diesem Video:
Quintessenz draus: für wichtige Seiten Google Sites dazu nicht verwenden, scheinbar ranken die nicht (Anmerkung meinerseits: für Linkvalue und Linkbuilding schon
) und nutzt anderen Content, wie das Android App Ding, aber schreibt den so um, dass der Nutzen für den User auf jeden Fall vorhanden ist. Changelog zur Contentmaximierung nach unten und so weiter…
Stay tuned!
Meine favorisierte Twitter-Software Hootsuite hat heute eine neues Release seiner Software auf den Markt geworfen.
Es gibt unter anderem eine verbesserte Hilfe, eine Menge Lob und das Wichtigste:
verbesserte Statistiken und Social Media Daten: weiterlesen
So kann man nun die Follower und Listen besser verwalten, tracken was am besten funktioniert (über den eigenen Short-Url Service und die zugehörigen Statistiken) sowie verbesserte Kommunikation mit anderen Netzwerken wie LinkedIn neben Twitter.
Um die ganzen Änderungen nochmals erklärt zu bekommen bieten die Macher ein Webinar in ihrem Blog an. Den Artikel dazu könnt ihr hier finden.