Optimaliseer .PDF en .DOC bestanden voor zoekmachines

blog

Het komt regelmatig voor dat tekstpagina’s in de vorm van een .PDF of .DOC worden aangemaakt. Voorbeelden van dit soort pagina’s: Handleidingen Scripties White papers Onderzoeken Over het algemeen zijn dit documenten met veel content. Interessant voor SEO?

PDF’s en DOC’s indexeerbaar

Zoekmachine spiders kunnen .PDF en .DOC bestanden prima lezen en indexeren. Ze hebben zelfs de neiging goed te scoren in de zoekresultaten vanwege de hoeveelheid content die op de pagina’s staat.

Om nog even door te gaan op de spreekbeurt over Dolfijnen waarover ik in mijn artikel optimalisatie van afbeeldingen sprak, voor inspiratie zocht ik in Google op ‘spreekbeurt dolfijnen’.

De volgende resultaten werden getoond op de eerste pagina in Google:

Artikel over Google en PDF (Google Webmaster Central Blog)

De reden waarom ik dit artikel schrijf is vanwege een blog op Google Webmaster Central Blog dat ik deze week tegenkwam over hoe Google omgaat met PDF en DOC webpagina’s. Via een Q&A wordt er in het artikel uitgelegd hoe Google de bestanden ziet en behandeld.

Q: Kan Google elk type PDF indexeren?

A: Ja, over het algemeen is dat mogelijk. Google indexeert tekstuele content vanuit een PDF bestand (in elke taal) wanneer er bepaade karakter codering wordt gebruikt, geen password nodig is of de tekst niet versleuteld is. Kort gezegd, als je de tekst vanuit het PDF bestand kunt copy/pasten, is het leesbaar.

Bij het tonen van de tekst als een afbeelding/image in de PDF, worden de OCR algoritmes losgelaten om de tekst zo goed mogelijk uit te lezen.

Q: Wat gebeurt er met foto’s die aan het PDF bestand zijn toegevoegd?

A: Op dit moment worden foto’s/afbeeldingen in een PDF bestand niet uitgelezen. Als je wilt dat je afbeeldingen ook als resultaten worden getoond in Google, is het belangrijk deze aan een html pagina toe te voegen en te optimaliseren volgens de hedendaagse afbeelding optimalisatie technieken.

Q: Tellen links in een PDF bestand mee voor je SEO rankings?

A: Links in een PDF bestand worden gelijk behandeld als die in een html bestand; ze geven autoriteit (PageRank) door, en kunnen worden gevolgd nadat het PDF bestand is uitgelezen. Het is tot nu toe niet mogelijk een tag rel=”nofollow” mee te geven aan een link in een PDF bestand.

Q: Hoe kan ik er voor zorgen dat mijn PDF bestand niet wordt opgenomen in de zoekmachine index. En als ze al geindexeerd zijn, hoe kan ik ze eruit halen?

A: Als je niet wilt dat het PDF bestand wordt geindexeerd, bijvoorbeeld omdat de tekst ook in een html bestand staat, is de beste oplossing een X-Robots-Tag te gebruiken: noindex in de HTTP header van de PDF file. Als de PDF al geindexeerd is, is het nog steeds mogelijk de X-Robots-Tag toe te voegen. Op den duur zal het bestand verdwijnen uit de index. Of gebruik in Google Webmaster tools de ‘URL Removal tool’ (Maxlead opmerking: Nadeel is dat dit laatste alleen voor Google geldt en niet voor de andere zoekmachines).

Q: Kunnen PDF bestanden hoog ranken in de zoekmachine resultaten?

A: PDF bestanden hebben zeker de neiging goed te scoren in de zoekresultaten. Zie de voorbeelden hierboven voor de zoekterm ‘spreekbeurt dolfijnen’.

Q: Worden PDF en HTML bestanden beschouwd als duplicate content bij het tonen van dezelfde tekst?

A: Zoals altijd wordt er aangeraden slechts 1 bestand per tekstpagina te tonen om duplicate content te vermijden. Als dat niet mogelijk is zijn er een aantal opties om dit op te lossen:

  1. Plaats alleen de ‘hoofd’-URL in de xml sitemap
  2. Voeg een canonical tag toe als metatag aan het HTML bestand of in de HTTP header van de PDF file

Q: Hoe kan ik de titel in de zoekresultaten beinvloeden van mijn PDF bestand?

A: Google bepaald de titel op basis van de metadata van het bestand, en tevens de anchortekst die in de link wordt gebruikt naar het PDF bestand toe. Wil je zeker weten dat een bepaalde titel wordt getoond in de resultaten, optimaliseer dan beide hierbovengenoemde elementen.

Voor het volledige artikel van Google Webmaster Central Blog, klik hier.

Olinda Luksen

Head of SEO

We helpen je graag!

HEB JE VRAGEN

over ?

MEER UPDATES