home
projects
    http://rubinghsoftware.de/projects/imbrain_asso/
 


Projekt
Entwurf und Entwicklung Text-Assozations-Modul, eingesetzt für u.A. Spamfilterung
Für
im-brain GmbH, Dortmund  (als Angestellter)
Datum
2002 - 2004
Platforms
C++, Linux


Page contents
Assoziationsmodul
Weitere Aufgaben
Acknowledgements
Zeugnis

Assoziationsmodul

Für diesen Auftrag habe ich das Assoziations-Modul entwickelt das benutzt wird von allen Anwendungs-Programmen die von der Firma verkauft werden.  Die Entwicklung hat beinhaltet Entwurf der Algorithmik und der Datenstrukturen, und dann Implementierung und Testen. 

Das Assoziationsmodul wurde konzipiert für Text-Assoziation, und würde eingesetzt u.A. für Spamfilterung, aber auch für generelle assoziative Textsuche. 

Das Assoziationsmodul wirkt als ein Gehirn das Texte auf "mensch-ähnliche" Weise mit einander vergleichen kann, dadurch dass es "Wolken" von Assoziationen rund jedes Wort berücksichtigt. 
    Die Assoziationswolken wurden automatisch — d.h. unüberwacht — erlernt aus einem großen Korpus von für das Einsatzgebiet beispielhaften Texten, dadurch dass die Wörter detektiert werden die oft verwendet werden in den gleichen Texten. 
    Über diese Assoziationswolken ist die Software imstande, auch indirekte Verbindungen zwischen Dokumenten wahrzunehmen, genauer gesagt: die Software kann detektieren dass zwei Dokumente inhaltlich miteinander zu tun haben selbst auch in dem Fall dass die zwei Dokumente nicht exakt die gleichen Wörter verwenden.  Die Assoziationswolken wirken für die Software in Effekt als eine Definition der semantische Bedeutung eines Wortes, wodurch die Software in gewissem Maße ein Verständnis hat über die semantische Bedeutung jedes Wortes. 

Startpunkt der Entwicklung des Assoziationsmoduls ist gewesen eine grobe Idee der Firmengründer.  Diese Idee habe ich zunächst mathematisch präzisiert in was die exacten Implikationen sind für die benötigten Datenstrukturen, und dann ausentwickelt zu der implementierung der konkreten Algorithmen und Datenstrukturen in C++.


Weitere Aufgaben

Weitere Aufgaben sind gewesen:


Acknowledgements

Dank gebührt den Firmengründern und -geschäftsführern Thomas Gravel und Manuela Damm für die gute und motivierende Zusammenarbeit, und dem damaligen Mitarbeiter Ulrich Enste für den nützlichen und stimulierenden fachlichen Gedankenaustausch. 


Zeugnis

Arbeitszeugnis des Auftraggebers


As soon as time allows, this project description will be extended by the following:
  • Images illustrating the operation of, and datastructures used inside, the text association module