Hoe breidt je de zoekfunctie van WordPress uit?

De zoekfunctie van WordPress beperkt zich tot de inhoud van de database. De plugin WP Full Text Search bredit dat uit.

Iedereen weet dat de zoek functie van WordPress te wensen over laat. Deze kijkt niet verder dan de inhoud van de database achter WordPress. Tot nu toe !! Want met de plugin WP Full Text Search sterk verbeterd worden.

Een klant wilde dat via de zoekfunctie van WordPress OOK de de inhoud van PDF’s (met historische informatie) doorzocht moet kunnen worden.

Dan heb je 3 mogelijkheden:
1. Alle PDF’s in de WordPress mediabibliotheek zetten. Dan is het met WP Full Text Search mogelijk om de inhoud van de PDF’s in de mediabibliotheek te doorzoeken. (zie opmerking 1 onder aan dit artikel)

2. Alle PDF’s in een folder op de server waar ook de WordPress website staat. Bijvoorbeeld xxxx.nl.uploads/archief. Ten tijde van dit schrijven zegt de maker van WP Full Text Search nog 2 weken nodig te hebben om ook folders op de server (waar de WordPress website is opgebouwd) te kunnen doorzoeken. Gewoon aangeven welke folders en WP Full Text Search indexeert ook de inhoud van die folder(s). Dit wordt een extensie.

Maar wij wilden mogelijkheid 3: Alle PDF’s in een cloudopslag. Google Drive, Dropbox, Mega, OneDrive wat dan ook. Ook dat wordt mogelijk. Ook in de maak, maar nog geen datum voor, een extensie die ook de inhoud van cloudopslag kan indexeren. Dan wordt het echt interessant. Dan is het echt mogelijk om vanuit WordPress een doorzoekbaar archief van bijvoorbeeld PDF bestanden te maken.

Zodra deze extensie beschikbaar is ga ik zeker een test site hier voor inrichten. WordPress, WP-Full-Text-Search en de plugin simplefilelist

De gratis versie van WP Full Text Search staat in de WordPress repository. De veel uitgebreidere PRO versie vindt je hier. Voor 39 dollar.

hoofdscherm index zoek plugin wp full text search

Het hoofdscherm van WP Full Text Search plugin. Hier kun je de plugin opdracht geven alles te her-indexeren en zien wat er al geindexeerd is.

Opmerking 1
PDF die niet tekst gebaseerd zijn kunnen niet ge-OCR’ed worden en zijn niet te indexeren. Dit komt eenvoudig weg omdat de PDF een afbeelding is. Voor een indexeer machine zitten er gewoon geen tekens in. Alleen een verzameling pixels.

Ruwweg kun je zeggen dat als de PDF gecreëerd is door een tekst gebaseerd programma (in Word, Wordpad, OpenOffice Writer of zelfs boekhoud programma’s) dan is staan daar letters in. Het kan geïndexeerd worden.

PDF’s gemaakt vanuit een grafisch programma zoals Photoshop, (JPG , PNG, GIF bijvoorbeeld) kan niet geïndexeerd worden. Er zitten gewoonweg geen letters in.

Hoe kun je dat dan wel “tekst gebaseerd” krijgen ? Door de PDF te bewerken met een OCR programma.
Hoe kun je dat testen? Door te proberen met de muis een stuk tekst in een PDF te selecteren en kopieren. Lukt dit niet ? Dan is de PDF grafisch en moet je OCR toepassen.