webconsul

the best webconsul(ting)

howto: Indizierung und Status der eigenen Seiten überwachen

Sie sind hier: Startseite » Archiv für Mai 2012

Heute gab es in der Facebook-Gruppe SEO Tools die Frage wie man einfach prüfen kann, ob die Google Crawler eine Seite erreichen und indizieren können.

Dazu gibt es viele kommerzielle Lösungen, aber als Techniker gibt es eine einfache dazu.

Mit der PHP-Implementierung von cURL kann man einige gute Sachen machen, nützlicherweise auch genau dies. Man fordert eine entfernte Webseite an und lässt sich die Reponsezeiten, den Status und mehr Daten ausgeben. Als Skript sieht das ganze so aus:


<style>
*{font:15px/18px "Lucida Grande","Lucida Sans Unicode",Arial,Verdana,sans-serif;}
th,td{padding:2px}
</style>
<table cellpadding="0" cellspacing="1" class="weiss abst">
<tr valign="top" class="hgrau1">
<th>URL</th>
<th>Status</th>
<th>Transaktionszeit</th>
<th>Verbindungszeit</th>
<th>Größe</th>
</tr>
<?php

function curlfetch($url) {
$c = curl_init($url);
curl_setopt($c, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.1) Gecko/20061204 Firefox/2.0.0.1");
curl_setopt($c, CURLOPT_REFERER, 'http://www.onvista.de/');
curl_setopt($c, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($c, CURLOPT_HEADER, 0);
curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);
$r = curl_exec($c);

echo "<tr>
<td>". curl_getinfo($c, CURLINFO_EFFECTIVE_URL) ."</td>
<td>". curl_getinfo($c, CURLINFO_HTTP_CODE) ."</td>
<td>". curl_getinfo($c, CURLINFO_TOTAL_TIME) ."</td>
<td>". curl_getinfo($c, CURLINFO_CONNECT_TIME) ."</td>
<td>". curl_getinfo($c, CURLINFO_SIZE_DOWNLOAD) ."</td>
</tr>";
}

$urls = array(
'http://www.webconsul.de/',
'http://www.google.de/',
'http://www.heise.de/',
''
);

for($i=0; $i < sizeof($urls); $i++) {
curlfetch($urls[$i]);
}
?>
</table>

Das Skript gibt es zum Kopieren hier: www.webconsul.de/status.txt

Alle weiteren Daten die cURLs curl_getinfo() hergibt können verwendet werden, die ganze Liste gibt es hier: php.net curl_getinfo().

Bei Fragen einfach in die Kommentare und SEOs die gutes Tun können hier klicken.