ThWboard Support-Forum (Archiv)

Ort: / Boardübersicht / PHP / MySQL Probleme / Attachments auf Webserver indexieren und Suchabfrage erstellen?


Seite 1 von 1

hevtig schrieb am 22.03.2005 um 15:14 Uhr

Hallo,

ich weiß, Hacks werden hier nicht supportet, es geht auch eher ums prinzipielle, wie sowas gehen könnte.

Also, ich habe ja den Attachmenthack. Dort werden nun fleißig Dateien (doc,xls,pdf) hochgeschoben.
Jetzt ist einem User doch eingefallen, daß er gerne eine Suche nicht nur über die threads, sondern auch über die darin verlinkten Dokumente machen würde.

Leider schieben die auch eher ein Dok hoch, als vernünftig im Forum zu posten.
Ist halt einfacher.

Ok, jetzt zu meiner Frage, wie würe man da vorgehen.

Ich muß ja irgendwie die Doks indexieren, evtl in die SQL DB schreiben und dann die Suchabfrage abändern. Das Ganze muß ja irgendwie strukturiert werden.

Da das ja bestimmt ne Menge Last verursacht hab ich mir zumindest schonmal gedacht, daß das ganze als geplanter Task bzw als Cronjob eingerichtet werden muß. Jede nach inkrementell wenn möglich.

Die Dokumente liegen laut letztem Attachment hack mod in Folgender Form vor:
[Forum]/attachments/[threadid]/Dokument.doc

Das ganze wird wohl kaum über php sondern eher über perl zu realisieren sein.

Habt ihr da Ideen, wie man das Ganze am besten anpacken könnte?

Das ganze sollte zumindest fuktionieren, der Sharepoint Portal Server vin MS macht es ja auch irgendwie... ein langer Weg *lol

bdominik schrieb am 22.03.2005 um 20:04 Uhr

hm, mit java könnte man mit lucene und einem haufen code sich sowas zusammenstricken, setzt nur voraus, das du wirklich gut java kannst und einige ahnung von servlets hast, da du nacher ja ein webinterface brauchst.

theDon schrieb am 22.03.2005 um 20:40 Uhr

Vergiss es.
Alles, was nicht plain-text oder xml ist, kannst du wohl kaum selbst indizieren.
Darunter fallen auch DOC, PDF und XLS.

Mal davon abgesehen ist natuerlich ein Cronjob da angebracht.

bdominik schrieb am 22.03.2005 um 20:52 Uhr

Naja, ein pauschales "Vergiss es" ist wohl zu stark, DOC,PDF und XLS bekommste alles mit java indizieert:
http://jakarta.apache.org/poi/
http://pdfbox.org/

allerdings hast du in sofern recht, alsdas der aufwand sehr groß ist.

theDon schrieb am 22.03.2005 um 21:38 Uhr

``Lieber gar nicht als mit Java.''

;)

bdominik schrieb am 22.03.2005 um 22:13 Uhr

naja, mal wieder die übliche Grundsatzdebatte, ich erwähne das hier nur sowiso, weil es in der neuen CT beschrieben war, mit genau den scripten.

theDon schrieb am 22.03.2005 um 22:17 Uhr

Man beachte den Smiley.

Auf jeden Fall ist das vermutlich etwas, dass man ohne fundierte Kenntnisse kaum schaffen kann.

bdominik schrieb am 22.03.2005 um 22:19 Uhr

*zustimmung* aber ob jetzt php java oder sonstwas, ist eigentlich schnuppe, der aufwand ist immer recht groß, sobald es um Datenformate geht, die ungleich html,txt und xml sind.

hevtig schrieb am 23.03.2005 um 08:00 Uhr

Mal sehen, ob ich mir den Aufwand mache :!
Java kommt eigentlich eher nicht in Frage, zumindest nicht für die Clients...
Wenn ich das am Webserver einmal indexieren würde, bzw. per Cronjob, dann wäre es egal... ;)

Mal schauen.

bdominik schrieb am 23.03.2005 um 13:04 Uhr

nein, du bräuchtest kein java auf den clients sondern auf den servern, aber ich denke, dass das ein bischen zu komplex für deine Aufgabe ist und vermutlich auch für dein wissen

Seite 1 von 1