Informationsextraktion aus Websites (Fokus auf Produkt-Details)

folder_openWorkshop
commentKeine Kommentare
Workshop: Informationsextraktion aus Websites mit Timo Schulz

Am vergangenen Dienstag versammelte sich in unserem Hause eine Schar von Software-Entwicklern und Daten-Spezialisten, um gebannt den Worten und Tipps von Timo Schulz zu lauschen. Timo ist ehemaliger Mitarbeiter von Picalike und nun Berater bei ITGAIN Consulting. Als Spezialist für Künstliche Intelligenz und im speziellen Machine Learning, Deep Learning und Datenverarbeitung, berät Timo Unternehmen rund um die Themen Advanced Analytics und KI. 

Thema des Workshops, zu dem 20 Teilnehmer aus unterschiedlichen Branchenbereichen kamen, war “Informationsextraktion aus Websites mit Fokus auf Produkt-Details”. Oder anders gesagt: Wie bekommt man strukturierte Daten aus unstrukturierten Texten?

Workshop: Informationsextraktion aus Websites

Wo sind welche Produktdaten zu finden und wie kann man diese strukturiert verarbeiten

Der 1.Teil des Workshops befasste sich mit der Theorie: Von RegEx bis zu Neuronalen Netzen versuchte Timo den interessierten Tech-Profis das Thema Text-Analyse und Text-Mining näher zu bringen und zu verdeutlichen, auf welche Probleme man bei Produkttexten im E-Commerce stoßen kann. Nach einer kurzen Pause ging es dann ins Eingemachte: Es wurde aktiv und mit vielen “Hands-on”-Beispielen in die Laptoptasten getippt und ein reger Austausch zu gelernten Techniken und neuen Anwendungsbeispielen mit vielen Tipps und Tricks fand statt. 

Im Anschluss daran wurde sich noch bei einem kühlen Bier und leckerer Pizza ausgetauscht und ich hatte die Chance den Workshop-Teilnehmern und auch Timo ein paar Fragen zu stellen.

Interview mit Timo Schulz

Ich wollte schon immer mehr aus Daten rausholen.

Warum hast du dich dazu entschieden im Bereich der Künstlichen Intelligenz zu arbeiten?
Schon 2005, während meines Informatikstudiums, habe ich angefangen, mich mit Daten zu beschäftigen. Ich wollte schon immer mehr aus Daten rausholen und habe viel in diesem Bereich geforscht. Dann wollte ich aber gerne raus aus der Forschung und mein Wissen und die Technologie praktisch anwenden. So bin ich damals zu Picalike gekommen.

Warum bist du dann später in die Beratung gegangen?
Ich wollte irgendwann raus aus dem E-Commerce-Geschäft. Es war sehr mühselig und nervenaufreibend, die Technologie den Unternehmen nahe zu bringen. Oft waren die Unternehmen vom Produkt, der Technologie, überzeugt, dass es funktioniert, aber es scheiterte dann teilweise an politischen Entscheidungen innerhalb der Firma oder es gab doch kein weitreichendes Verständnis dafür. Da ist es natürlich schwierig hochmotiviert zu bleiben. In der Beratung kann ich nun KI in allen Bereichen weiterbringen und ganz ohne Druck den Unternehmen aufzeigen, was alles möglich ist und wie auch sie KI in ihren Unternehmen implementieren können.

Da muss man oftmals noch viel Überzeugungsarbeit leisten.

Welche Herausforderungen siehst du für den E-Commerce in Bezug auf KI?
Die größte Herausforderung besteht eigentlich darin, das Potenzial von KI richtig zu erkennen und einzuschätzen. Und die Akzeptanz: Das Unternehmen muss für sich erkennen, was KI für einen selbst, also für das Unternehmen, machen kann. Da muss man oftmals noch viel Überzeugungsarbeit leisten.

Gab es schon mal einen Fall, bei dem du einem Unternehmen von KI abgeraten hast?
Nein, eigentlich nicht, weil KI so vielseitig einsetzbar ist. Manchmal muss man allerdings aufpassen, dass KI nicht einfach nur als Trenderscheinung verstanden wird. Ganz nach dem Motto: “Wir müssen jetzt unbedingt etwas mit KI machen.” Hier reicht es auch oftmals aus, die vorhandenen Daten im Unternehmen einfach besser zu strukturieren und zu schauen, was können wir aus diesen Daten bereits alles herausholen.

Als Berater sollte man ja immer Up-to-Date bleiben. Wie und wo informierst du dich über die Branche, über neue Entwicklungen in dem Bereich?
Ich widme mich, soweit möglich, einen ganzen Tag intensiv dem Research. Dabei lese ich sehr viel zu dem Thema, verfolge Blogs, höre mir Vorträge von Leuten an, denen ich folge und versuche mir dann im Anschluss daraus einen eigenen Use Case prototypisch zu implementieren. So kann ich dann entscheiden, ob dieser Ansatz in meinen Augen sinnvoll ist, ob man das Thema weiterverfolgen sollte oder eben nicht.

Workshop: Informationsextraktion aus Websites

Gespannt lauschen die Tech-Profis dem KI-Guru Timo Schulz

Und welche Trends sind gerade spannend? Wo geht die Reise hin?
Ich denke alles um das Thema NLU bzw. NLP (Natural Language Understanding bzw. Natural Language Processing, Anm.d.R.) ist sehr interessant und hier wird noch viel passieren.

Apropos Sprachverständnis: Ich habe neulich gelesen, dass man es noch nicht geschafft hat, Künstlicher Intelligenz Humor beizubringen. Ist das richtig?
Ja, das ist in der Tat nicht so einfach. Wenn beispielsweise bei einem Onlineshop die Kundenbewertung steht: “Der Schuh ist riesig, wie ein VW-Bulli.” Dann verstehen wir: “Okay, der Schuh fällt höchstwahrscheinlich ziemlich groß aus. Und es wurde nur einfach etwas lustiger umschrieben.” Die KI würde aber tatsächlich den Schuh mit der Größe eines VW-Bullis vergleichen. Sie denkt halt nicht weiter. Ein weiteres Beispiel: Jan geht ins Kinderzimmer und holt seinen Ball. Dann geht er in den Garten und legt den Ball dort auf den Boden. Wo ist der Ball? Für die KI ist es nicht klar, dass der Ball nun im Garten liegt.

Aus einer verlässlichen Quelle habe ich erfahren, dass du früher bei Picalike Bier-Botschafter warst. Welches ist denn dein Lieblingsbier und warum?
Ganz klar Sierra Nevada Torpedo. Ken Grossman ist ein Held! Er hat die Bierbraukunst revolutioniert. In den 80ern ging er nach Deutschland und kaufte dort ein Kupferbrauhaus, das er dann mit zurück nach Kalifornien nahm. Und ab diesem Zeitpunkt wurde das Bier einfach unschlagbar. Sie verwenden für das Bier ganze Hopfendolden, nicht nur Hopfenextrakt, wie es andere machen, und produzieren einen Teil ihrer Energie über Solar selbst. Als die großen Waldbrände in Kalifornien waren, braute Sierra Nevada ein spezielles Bier und spendeten den gesamten Erlös den Opfern des Feuers.

Interviews mit den Workshop-Teilnehmern

Interview mit Lennart von Shopping24.com
Interview mit den Workshop-Teilnehmern

Lennart von Shopping24 im Interview

Welche Position hast du bei Shopping24?
Ich bin Search Engine Linguistic Manager.

Und was genau machst du in deinem Job?
Ich helfe bei der Verarbeitung von Suchanfragen. Was geben User als Suchbegriffe ein und ich schaue mir an, was z.B. sprachlich alles drum herum erfasst werden muss, um bestmögliche Suchergebnisse auszugeben.

Warum bist du in diesem Workshop?
Da ich mich in meinem Job auch mit Produkttexten beschäftige, finde ich es interessant zu sehen, wie man dort Informationen extrahieren kann.

Hat dir der Workshop gefallen und wenn ja, was genau?
Ja, ich fand es gut, dass es viele Beispiele gab und wir die Dateien auch zur Verfügung gestellt bekommen haben, so dass man selbst auch noch einmal rumexperimentieren kann. Und die Atmosphäre war sehr entspannt und war nicht ein typisches “Vortragen-und-Zuhören”, sondern eher ein Austausch unter den Leuten. Das fand ich sehr angenehm.

Welche Themen für weitere Workshops wären für dich interessant?
Allgemein interessiere ich mich für Herausforderungen bei Produktsuchen. Z.B. Insights von anderen Website-Betreibern, die auch mit Produktsuche zu tun haben wären interessant. Welche Herausforderungen haben sie und wie lösen sie bestimmte Problemstellungen.

Interview mit Sarah von AdSoul

Welche Position hast du bei AdSoul?
Ich bin Linguistikerin.

Und was genau machst du in deinem Job?
Ich glieder sozusagen Keywords auf und versuche sie inhaltlich zu clustern. Eine grammatikalische Verarbeitung von Keywords sozusagen.

Warum bist du hier? Was interessiert dich an dem Workshop?
Dafür muss man erstmal erklären, was AdSoul macht. AdSoul ist im Bereich SEM tätig und kümmert sich um automatisiertes Suchmaschinenmarketing. Schon in der Uni habe ich mich mit den Themen Textmining und Aufbereitung von Daten und Texten beschäftigt. Das Ziel von AdSoul ist es im Grunde genommen irgendwann automatisierte Textanzeigen zu erstellen. Deshalb ist das Thema Datenextraktion so interessant für mich.

Interview mit Lena von Shopping24.com

Welche Position hast du bei Shopping24?
Ich bin Data-Engineer.

Und was genau machst du in deinem Job?
Ich bin Teil des BI-Teams bei Shopping24. Wir stellen sozusagen die Infrastruktur für Big Data. Wir vereinen Daten aus unterschiedlichen Quellen und monitoren diese Daten. Also man könnte sagen, wir bereiten Daten mit Hilfe von Data Science auf. Immer mit dem Blick auf die Fragestellung: Wieviel ist ein Nutzer wert und wieviel ist man maximal bereit für ihn zu zahlen.

Warum bist du hier? Was interessiert dich an dem Workshop?
Business Intelligence ist ein sehr breites Feld. Da es sich bei Shopping24 ja auch um Produkte dreht, finde ich das Thema Textmining und Textverarbeitung sehr interessant.

Hat dir der Workshop gefallen und wenn ja, was genau?
Ja, ich bin ein großer Fan von “Material zum Mitnehmen” und “lessons learned”. Man hat neue und andere Perspektiven auf das Thema aufgezeigt bekommen und das fand ich sehr interessant.

Welche Themen für weitere Workshops wären für dich interessant?
Statistische Themen und Data Science im Allgemeinen würden mich auch interessieren.

Workshop: Informationsextraktion aus Websites

Timo Schulz spricht über die Herausforderungen im Textmining

Interview mit Sven von Shopping24.com

Welche Position hast du bei Shopping24?
Ich bin Software-Entwickler.

Und was genau machst du in deinem Job?
Ich kümmere mich um die Back-End-Entwicklung, z.B. Tools für unsere Mitarbeiter.

Warum bist du hier? Was interessiert dich an dem Workshop?
Ich interessiere mich für Data Science und hoffe, dass ich meine eigenen Skills hier erweitern kann. Es ist nie schlecht einen Rundumblick zu erhalten und mal über den Tellerrand hinauszuschauen.

Hat dir der Workshop gefallen und wenn ja, was genau?
Ja, ich fand es gut, dass sich für ein spezielles Thema so viel Zeit genommen wurde und dass es zu einem freien Austausch untereinander kam. Man hat Erfahrungswerte von anderen erzählt bekommen und das Thema wurde gut verständlich dargestellt und erklärt.

Welche Themen für weitere Workshops wären für dich interessant?
Mich würden die Themen Neuronale Netzwerke, Big Data Plattformen, Computer Vision, NLP und Back-End-Programme interessieren.

Interview mit Marc-Olaf von OGDS

Welche Position hast du bei der OGDS?
Ich bin Software-Entwickler.

Und was genau machst du in deinem Job?
Die OGDS ist ein Company Builder. Wir identifizieren neue und attraktive Geschäftsideen und bauen Prototypen dafür. Wir stellen den Betrieb, die Infrastruktur und die Architektur für diese Prototypen bereit und ich entwickle die Software dazu. Also im Grunde genommen stellen wir eine technische Lösung im Bereich E-Commerce bereit.

Warum bist du hier? Was interessiert dich an dem Workshop?
Ich interessiere mich für die Extraktion aus Texten und interessiere mich dafür, was andere Leute in diesem Bereich machen, welche neuen Ideen es in diesem Bereich gibt. 

Hat dir der Workshop gefallen und wenn ja, was genau?
Ich war primär hier für den Austausch, gar nicht so sehr um mich fachlich weiterzubilden, da ich mich in diesem Bereich bereits sehr gut auskenne. Ich finde aber, dass Timo das Thema sehr gut erklärt und die Breite des Themas gut erfasst hat. Dadurch konnte ich interessante Gedankenansätze und z.T. neue Sichtweisen herausziehen.

Welche Themen für weitere Workshops wären für dich interessant?
Ich bin da immer sehr projektgetrieben. Momentan interessiere ich mich sehr für das Thema Extraktion von Daten aus Bildern. Daher freue ich mich auch, wenn ich mich gerade mit Picalike zu dem Thema noch weiter austauschen kann.

Workshop: Informationsextraktion aus Websites

Erwin von Shopping24 im Interview

Interview mit Erwin von Shopping24.com

Welche Position hast du bei Shopping24?
Ich bin Java-Entwickler.

Und was genau machst du in deinem Job?
Ich bereite Produktdaten im E-Commerce auf. Ich kümmere mich um die Produktsuche bei Shopping24 und die Betreuung der Back-End-Systeme.

Warum bist du hier? Was interessiert dich an dem Workshop?
Zum einen bin ich hier für die eigene Erweiterung meines Wissens. Zum anderen benutzen wir bei Shopping24 Produktfeeds. Ziel könnte es hier sein, Text-Extraktion von externen Websites ohne Feeds zu realisieren.

Anm. d. R.: Die Interviews wurden protokollarisch festgehalten.

Tags: , , , , , , , , , ,

Related Posts

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Bitte füllen Sie dieses Feld aus
Bitte füllen Sie dieses Feld aus
Bitte gib eine gültige E-Mail-Adresse ein.

Menü