webconsul

the best webconsul(ting)

Duplicate Content sorgt für rote Köpfe

Sie sind hier: Startseite » Archiv für content

Die Vervielfältigung von Inhalten lässt nicht nur Ihre Website schlecht aussehen, sie kann auch negative Auswirkungen auf Ihr Suchmaschinen-Ranking haben. Darum ist es fast offensichtlich, dass die meisten Website-Betreiber versuchen, solche doppelten Inhalte zu verhindern. Was ist Duplicate Content, warum ist er schlecht für Ihre Website, und wie können Sie Duplicate Content vermeiden? Hier sind die Grundlagen, die Sie wissen müssen, um diesen massiven Fauxpas zu verhindern.

Was ist Duplicate Content?

Duplicate Content ist ein Begriff, der im Bereich der Suchmaschinen-Optimierung verwendet wird, wenn gleiche Inhalte auf verschiedenen Webseiten auftauchen. Wenn mehrere Seiten innerhalb oder außerhalb einer Website im Wesentlichen den gleichen Inhalt enthalten, können Suchmaschinen wie Google diese Seite bei den Suchergebnissen abstrafen und nach hinten rücken lassen oder überhaupt nicht anzeigen.

“Gutartiger” Duplicate Content kann entstehen, wenn es mehrere Versionen einer Seite gibt, beispielsweise eine normale HTML-Seite, eine Version für mobile Geräte und eine druckerfreundliche Version einer Seite. Aus SEO-Sicht ist diese Art von Duplicate Content aber genauso schädlich und die Behebung führt auch bei versierten Webmastern oft zu Gesichtsfalten durch Stirnrunzeln. Es gibt einige technische Tricks, die hier nur kurz erwähnt werden sollen: Sperrung von Seiten für Google durch die robots.txt oder durch den meta “noindex” und natürlich als relativ neue Waffe gegen die fiesen hauseigenen Klone die canonical tags (sowie die gute alte 301).

“Bösartiger” Duplicate Content bezieht sich auf absichtlich erzeugtes Suchmaschinen-Spamming, mit dem Suchergebnisse manipuliert und dadurch mehr Traffic erzeugt werden soll. Benutzer mögen es für gewöhnlich nicht, den gleichen Inhalt mehrfach aufgelistet zu sehen, darum landen Websites mit bösartigem Duplicate Content oftmals weit hinten bei den Suchergebnissen von Suchmaschinen.

Das Schreiben von Online-Inhalten hat in den letzten Jahren immer mehr an Bedeutung gewonnen. Da das Internet zur wichtigsten Informationsquelle geworden ist, veröffentlichen die meisten Medien ihre Artikel im Internet. Wie auch schon bei den klassischen Printmedien wird einiges an Arbeit und Inhalten kopiert oder geklont. Dies ist weithin als Plagiatserstellung bekannt. Die Anwesenheit von Plagiaten ist ziemlich verbreitet und kann auch Probleme verursachen. Duplicate Content ist der Prozess des Kopierens von Inhalten Wort für Wort und der Veröffentlichung des kopierten Inhalts unter dem eigenen Namen. Damit wird die Arbeit eines anderen geklaut, an verschiedene Publikationen übermittelt und behauptet, dass alles vom Plagiator stammt. Dieser Prozess trifft auch zu, wenn Sie Ihren selber erstellten Inhalt öfters als einmal verwenden.

Wie können Sie Duplicate Content vermeiden?

Wie bei vielen anderen Problemen gibt es Möglichkeiten der Prävention von Duplicate Content. Die beste Möglichkeit zur Vermeidung von Duplicate Content ist, kreativ zu sein mit Ihren schriftlichen Arbeiten. Sie sollten stets mit mehreren Denkansätzen arbeiten, so dass Sie nicht dieselben Dinge immer wieder erneut vorbringen. Durch den Einsatz von mehreren Konzepten und mehr Kreativität werden Sie in der Lage sein, Nicht-Original-Content in Ihren Artikeln zu verhindern und immer frischen Unique Content zu publizieren.

Es gibt außerdem Möglichkeiten, Inhalte zu duplizieren, wobei der Content als Spam gekennzeichnet wird; und es gibt Möglichkeiten zur Vermeidung einer Bestrafung durch Google. Es existieren viele Programme, die einen Artikel markieren, wenn es sich um Duplicate Content handelt. Ein Beispiel für ein solches Programm ist Copyscape, und es gibt noch etliche andere. Autoren und Blogger können diese Programme nutzen, um zu sehen, ob andere Menschen ihre Inhalte ohne Erlaubnis verwendet haben. Prüfen Sie daher immer die Artikel mit Copyscape, bevor Sie sie auf Ihrer Website posten. Machen Sie sich die Mühe und schreiben Sie den Artikel um, so dass er sich deutlich vom Original unterscheidet.

Mit den Keywords nicht übertreiben

Eine andere Möglichkeit ist der sorgfältige Gebrauch von Keywords. Wenn Sie Keywords zu oft in einem Artikel benutzen, kann Ihre Website auf die Spamliste kommen, aber wenn Sie sie nicht genügend oft benutzen, erzielen Sie mit Ihrer Website keinerlei Wirkung. Es gibt viele verschiedene Programme, mit denen Sie die Anzahl der Keywords überprüfen können, bevor Sie den Artikel online stellen. Meistens genügt es vollkommen, ein Keyword nicht mehr als ein bis drei Mal in einem 500-Wörter-Artikel zu verwenden. Achten Sie immer darauf, dass der Inhalt für Menschen geschrieben wurde und nicht für Suchmaschinen. Sie erzielen keinerlei Nutzen von hochtrabenden Keywords, wenn echte Menschen den Inhalt Ihrer Seite nicht verstehen.

Enterprise Content Management Software

Sie sind hier: Startseite » Archiv für content

Definition von Enterprise Content Management
Enterprise Content Management, kurz ECM, dient zur Optimierung organisatorischer Prozesse in Unternehmen. ECM bedient sich dabei einer Vielzahl an unterschiedlichen Komponenten. Enterprise Content Management, kurz ECM, dient zur Optimierung organisatorischer Prozesse in Unternehmen. ECM bedient sich dabei einer Vielzahl an unterschiedlichen Komponenten. Im Zentrum steht jedoch immer der Umgang mit Content und Dokumentenmanagement, welche in organisatorische Prozesse eines Unternehmens eingebunden sind. Eine etwas abstrakte Definition wäre daher die Zusammenführung bzw. Bereitstellung von unternehmenseigenen Informationen, die an verschiedenen Orten abgelegt sind.

Aufgrund dieser Definition lässt sich bereits erahnen, dass es sich bei Enterprise Content Management nicht um ein einziges, einheitliches Werkzeug handelt sondern um das Zusammenspiel unterschiedlicher Komponenten und Systeme. Immer mit dem Ziel, Unternehmensinformationen, die sich an unterschiedlichen Orten und in unterschiedlichen Formaten befinden, bestmöglich miteinander zu verknüpfen. Es geht also kurz gesagt um das Management von Inhalten (Content) in einem Unternehmen.

Merkmale und Funktionen
So vielschichtig wie der Begriff, so vielschichtig sind auch die damit verbundenen Software Anwendungen. Von der Betreuung der Firmenwebsite bis zum Intranet, von der Dokumentenverwaltung bis zur Automatisierung des Workflows und der elektronischen Archivierung von Daten – Enterprise Content Management umfasst all diese Prozesse und versucht, sie unter eine kompatible Oberfläche zu bringen. Am einfachsten lässt sich dies am Beispiel eines ECM-Portals veranschaulichen. Die Mitarbeiter können dieses zum Beispiel über den Browser aufrufen, und haben je nach ihren Aufgaben und ihrer Position unterschiedliche Rechte. Dazu gehört die Bearbeitung von Dokumenten, der Zugriff auf Archivdateien, oder die Erstellung von Web- und Intranet Updates.

Hinter dem ECM stehen immer Prozesse. Der Prozess, die Website upzudaten. Der Prozess, ein Angebot zu erstellen, welches die Mitarbeit unterschiedlicher Abteilungen einschließt. Der Prozess, auf eine Vielzahl von Dokumenten zugreifen zu können, um zum Beispiel im Kunden Support eine vollständige Auskunft zu geben.

Der erste Schritt bei der Einführung von ECM ist es, sich eine klare Übersicht über alle im Unternehmen befindlichen Prozesse zu verschaffen. Danach wendet man sich Prozess für Prozess den Beteiligten zu. Dabei entsteht eine klare Analyse, die für die Auswahl der Software entscheidend ist. Zu den Bereichen die eine ECM-Software umfasst gehören Dokumentenmanagement, Groupware, Web Content Management, Workflow Management oder auch Records Management. Anstatt für all diese Vorgänge Einzellösungen zu konzipieren, versucht man ein System zu finden, dass möglichst viel Kooperation und Flexibilität bei möglichen zukünftigen Erweiterungen erlaubt. Erfassen, Verwalten, Ausgeben, Speichern und Bewahren sind die zentralen Merkmale des Enterprise Content Management.

Kosten
So unterschiedlich wie die Definition von Enterprise Content Management ist auch das Angebot. Da gibt es kleine kommerzielle Anbieter mit lokalen Lösungen, die weniger umfangreich sind, aber auch weniger Ballast mit sich bringen. Im Gegensatz dazu gibt es einige große globale Anbieter mit komplexen und mächtigen Suite Lösungen. Insofern ist Enterprise Content Management auf keine Unternehmensgröße fixiert, auch für mittlere Unternehmen gibt es zufriedenstellende Angebote zu einem guten Preis. Die Preise richten sich nach der Anwendung – es gibt sowohl kostenlose Open Source Initiativen als auch kommerzielle Komplettlösung mit Lizenzkosten im fünfstelligen Bereich. Der Preis ist von der Anzahl der Lizenzen, der Anzahl der eingesetzten Server und sonstigen Variablen abhängig.

Böser Bot! Scraper aus Deinem Blog ausschließen

Sie sind hier: Startseite » Archiv für content

Seit einiger Zeit tummeln sich diverse Crawler auf meinem Blog, die meine Inhalte übernehmen und auf anderen Seiten veröffentlichen.
Das wäre ja kein Problem, wenn man das entsprechend mit angibt.

Daher habe ich nun folgende drei Schritte unternommen um automatisches Scrapen zu erschweren:

  1. RSS-Feed auf Kurzfassung umgestellt: Admin-Panel -> Einstellungen -> Lesen -> Newsfeed Kurzfassung
  2. Yoasts RSS Footer Plugin um einen Link und eine Ursprungsnotiz hinzuzufügen
  3. Die index.php von WordPress folgendermaßen modifiziert:


<?php
// Bots und Scraper ausschliessen:
function botcheck($ua) {
  $matches = array("java", "libwww", "perl", "curl");
  for($i=0; $i<sizeof($matches); $i++)
    if(stristr($ua, $matches[$i])) {
      return true;
    } else {
      return false;
    }
}

if(botcheck($_SERVER['HTTP_USER_AGENT'])) {
  echo "Böser Bot: geh weg!<br/>Falls Du doch kein Bot bist, überprüfe bitte deinen User-Agent.";
} else {
  define('WP_USE_THEMES', true);
  require('./wp-blog-header.php');
}
?>

Ist zwar im Sinne der Rechenleistung und Website-Geschwindigkeit nicht optimal, aber zumindest werden alle Bots die sich im User-Agent mit Java, Perl und vielem mehr ausgeben entsprechend mit einer Meldung abserviert.
Die Modifizierung muss direkt in der Index-Datei im WordPress-Root-Verzeichnis gemacht werden, da diese die restliche Auslieferung vorantreibt. Im WordPress Theme selbst funktioniert das nicht.

Klar, das löst nicht alle Probleme, aber zumindest erschwert es die Sache etwas und plumpes Content-Scraping funktioniert damit nun nicht mehr.

Schauen wir mal, welcher Bot zuerst seinen User-Agent umstellt ;-)

PS: Natürlich werden einige Bots auch über die robots.txt blockiert, aber Scraper halten sich leider nicht daran ;-)

Update auf WordPress 3.0

Sie sind hier: Startseite » Archiv für content

Soeben habe ich eine menge Blogs auf das neue WordPress 3.0 mit dem Releasenamen “Thelonious” in der de_DE-Version portiert.

Bei den meisten Blogs hat das Upgrade problemlos funktioniert, nur bei einem leider nicht.
Der Blog zeigt an sich nur statische Seiten an, weswegen ich mein Template so umgebogen habe, dass es keine weiteren Funktionen gibt und lediglich eine Theme-Datei geladen werden muss.

Um möglichst viele Rechenoperationen zu sparen hatte ich im Design für die Anzeige des Contents lediglich geschrieben:

Das führte dazu, dass nach dem Update der gesamte Content nicht angezeigt wurde.

Das Problem lässt sich einfach lösen, wenn man den Inhalt mit folgendem Code anzeigt:

Rechnet zwar ein paar Millisekunden länger aber das sollte keine Probleme machen.

Daher noch ein paar Empfehlungen für eine schnelle Auslieferung:

  • Fasst so viele Dateien zusammen, wie möglich. Dies sowohl bei den CSS- als auch JS-Files aber auch unbedingt die internen PHP-Aufrufe minimieren.
  • Installiert das WP-Cache-Plugin um möglichst viele Seiten statisch auszuliefern
  • Komprimiert euren Code
  • Optimiert eure Datenbank und euren Webserver auf minimale Timeouts, sodass diese lediglich so lange laufen wie nötig, aber so kurz wie möglicht.

    Hat jemand noch mehr Tips dazu?

    Beste Grüße!
    Peter