Noisy labels: the hidden challenge in ITSM

Noisy labels: the hidden challenge in ITSM

written by: Nikola Greb.

Understanding ITSM and Its Role in Organizations

As Wikipedia says, Information Technology Service Management (ITSM) encompasses the activities performed by an organization to design, build, deliver, operate, and control Information Technology (IT) services offered to customers. The idea of automation with the application of AI is simple:

1. Apply machine learning algorithms to predict the type of the problem.
2. Automatically send the right solution to the user so he can solve the problem by himself or, solve it with Robot Process Automation (RPA).

Step 1: Predicting the Problem with Machine Learning

So how do you solve Step 1? How does machine learning work? Put simply, you need X as a predictor and Y as a target. X would be the customer reporting the problem in voice or text format, and Y would be the problem label. For example:

X: I have a problem with adding the Outlook signature
Y: Outlook signature.

Then you input thousands of examples into a machine learning algorithm, train it, and the problem is solved. Well, not exactly. Usually, companies have wrongly labeled data. We call it noisy labels.

Human Factors Leading to Noisy Labels

As a psychologist, I would say it happens because customer support, in general, is quite a stressful job. When customers face problems, they often need immediate solutions. Therefore, most human agents focus on solving the problem rather than choosing the right label or documenting the process accurately. Also, we humans aren’t perfect, and everyone makes small mistakes from time to time. It’s natural. When these mistakes accumulate, it creates a mess in the data. Other causes can include a lack of company policy on data labeling, unclear guidelines for agents, and errors in data storage and handling procedures.

Real-World Example of Noisy Labels in ITSM

Here is an easy-to-fix example:

Ticket 1
X: I have a problem with adding the Outlook signature
Y: Outlook general.

Ticket 2
X: I have a problem with adding the Outlook signature
Y: Outlook signature.

I love to look at noisy labels as they are the disease in data – it is good to know the cause, but sometimes we just can’t know why it happens. What we can do is to fix it!

The Complexity of Multiple Categories and Labels

Now imagine you have multiple categories related to various Microsoft products, SAP products, security issues, hardware issues, general inquiries, etc., each with multiple labels. It’s common to have 20+ labels just for Outlook issues in a single company. What seems like an easy problem suddenly becomes difficult to resolve and categorize.

For readers familiar with AI, a question naturally arises:

„Well, can’t you just input all the tickets into ChatGPT and have it classify them?“

Unfortunately, at present, for a larger number of categories and tickets, this isn’t feasible. Generative AI still lags behind classical AI text classifications for several reasons, particularly as the number of categories and tickets increases. By the way, both are built on a very similar core software architecture, specialized for different tasks (classification vs. text generation). Some of the key obstacles with generative AI include hallucinations, costs associated with fine-tuning and training the model, production speed, overall reliability, legal considerations, and company policies, among others. Personally, I hope that one day in the future, it will be possible to input millions of ITSM tickets into an LLM and prompt it:

„Make sense of this mess, provide the best possible categorization, and generate code that can be quickly deployed into production.“

Conclusion: Navigating the Universe of ITSM Challenges

I could write a separate blog on this topic, as well as on solutions for ITSM problems that are generally similar but differ for each company. I hope I’ve conveyed the complexity and current challenges of ITSM automation, sparking new questions in your mind.

Who would have thought that something as seemingly mundane as customer support could be so intriguing when delving deeper into the industry?

In conclusion, when faced with a vast universe of potential problems and a multitude of categories, as is often the case in ITSM, identifying the problem isn’t straightforward. Often, it’s impossible to discern them solely by eye among thousands, sometimes millions, of accumulated tickets. This is where we apply Emma®AI analytics.

We combine classical statistics with advanced machine learning, manual examination of tickets, an agile project approach, and bi-directional communication with our clients to enhance data quality and subsequently automate business processes using AI.


Noisy Labels: die verborgene Herausforderung im ITSM

Verfasst von: Nikola Greb

Verständnis von IT Service Management und seine Rolle in Organisationen

Wie Wikipedia sagt, umfassen Information Technology Service Management (ITSM) die Aktivitäten, die von einer Organisation durchgeführt werden, um Informationstechnologie (IT)-Dienste zu entwerfen, zu erstellen, zu liefern, zu betreiben und zu kontrollieren, die Kunden angeboten werden. Die Idee der Automatisierung mit der Anwendung von Künstlicher Intelligenz (KI) ist einfach:

  1. Anwendung von maschinellen Lernalgorithmen zur Vorhersage des Typs des Problems
  2. Automatisches Senden der richtigen Lösung an den Benutzer, damit er das Problem selbst lösen oder es mit Hilfe der Robotic Process Automation (RPA) lösen kann.

Schritt 1: Vorhersage des Problems mit Maschinellem Lernen

Wie löst man also Schritt 1? Wie funktioniert maschinelles Lernen? Einfach ausgedrückt benötigen Sie X als Vorhersagevariable und Y als Zielvariable. X wäre der Kunde, der das Problem meldet, in sprachlicher oder textlicher Form, und Y wäre das Label des Problems. Zum Beispiel:

X: Ich habe ein Problem beim Hinzufügen der Outlook-Signatur

Y: Outlook-Signatur.

Dann legen Sie Tausende von Beispielen in einen maschinellen Lernalgorithmus, trainieren ihn und das Problem ist gelöst. Nun, nicht ganz. Normalerweise haben Unternehmen falsch gelabelte Daten. Wir nennen sie „noisy labels“.

Menschliche Faktoren, die zu „noisy labels“ führen

Als Psychologe würde ich sagen, dass dies daran liegt, dass der Kundensupport im Allgemeinen eine ziemlich stressige Arbeit ist. Wenn Kunden Probleme haben, benötigen sie oft sofort eine Lösung. Daher konzentrieren sich die meisten menschlichen Agenten darauf, das Problem zu lösen, und legen nicht allzu viel Wert darauf, das richtige Labels für das Problem zu wählen, wenn es gelöst ist, oder die Dokumentation während des Prozesses. Außerdem sind wir Menschen nicht perfekt, und jeder macht von Zeit zu Zeit kleine Fehler. Das ist natürlich. Lassen Sie diese Fehler anhäufen, und am Ende haben Sie ein Durcheinander in den Daten. Weitere Ursachen können das Fehlen einer Unternehmensrichtlinie zur Labelung der Daten, das Fehlen klarer Richtlinien mit Beispielen für Agenten, Fehler in den Daten-speicherungs- und Daten-handlungsverfahren usw. sein.

Ein Beispiel aus der Praxis für laute „noisy labels“ in ITSM

Hier ist ein leicht zu behebendes Beispiel:

Ticket 1

X: Ich habe ein Problem beim Hinzufügen der Outlook-Signatur

Y: Allgemeine Outlook-Probleme.

Ticket 2

X: Ich habe ein Problem beim Hinzufügen der Outlook-Signatur

Y: Outlook-Signatur.

Ich schaue gerne auf „noisy labels“, da sie die Krankheit in den Daten sind – es ist gut zu wissen, warum es passiert, aber manchmal können wir einfach nicht wissen, warum.

Die Komplexität mehrerer Kategorien und Labels

Stellen Sie sich nun vor, Sie haben mehrere Kategorien, die sich auf mehrere Microsoft-Produkte, SAP-Produkte, Sicherheitsprobleme, Hardwareprobleme, allgemeine Anfragen usw. beziehen, die in mehreren Kategorien mit mehreren Labels verteilt sind. Es ist üblich, dass allein für die zuvor genannten Outlook-Probleme in einem einzigen Unternehmen über 20 Labels vorhanden sind. Ein leicht zu behebendes Problem wird plötzlich schwer zu lösen und zu entscheiden.

Die Frage, die sich für den Leser stellt, der etwas über KI weiß, lautet sicherlich:

Nun gut, aber können Sie nicht einfach alle Tickets in ChatGPT stecken und ihn bitten, sie zu klassifizieren?!

Derzeit ist das leider für eine größere Anzahl von Kategorien und Tickets nicht möglich. Generative KI hinkt aus zahlreichen Gründen immer noch hinter der klassischen KI-Textklassifizierung hinterher, wenn die Anzahl der Kategorien und Tickets wächst. Übrigens basieren beide auf einer sehr ähnlichen Kernsoftwarearchitektur, die jedoch auf unterschiedliche Aufgaben spezialisiert ist (Klassifizierung vs. Textgenerierung). Einige der wichtigen Hindernisse bei generativer KI sind Halluzinationen, die Kosten für das Feintuning und das Training des Modells, die Geschwindigkeit in der Produktion, die Gesamtzuverlässigkeit, rechtliche Fragen, Unternehmensrichtlinien usw. Persönlich hoffe ich, dass es eines Tages in der Zukunft möglich sein wird, alle ITSM-Tickets (Millionen von ihnen) in ein Sprachmodell zu geben und eine Aufforderung zu stellen:

Machen Sie aus diesem Durcheinander Sinn. Geben Sie die bestmögliche Anzahl von Kategorien an und schreiben Sie mir Code, der schnell in die Produktion überführt werden kann.

Fazit: Navigation durch das Universum der ITSM-Herausforderungen

Ich könnte einen separaten Blog zu diesem Thema schreiben, sowie zu Lösungen für ITSM-Probleme, die im Allgemeinen ähnlich sind, aber für jedes spezifische Unternehmen unterschiedlich. Ich hoffe, ich habe Ihnen das Gefühl für die Komplexität und die aktuellen Herausforderungen der ITSM-Automatisierung vermittelt und neue Fragen in Ihrem Geist aufgeworfen, die Ihre Neugierde wecken werden.

Wer hätte gedacht, dass etwas so Langweiliges wie der Kundensupport auf den ersten Blick so interessant sein kann, wenn man etwas mehr über die Branche erfährt?

Zusammenfassend lässt sich sagen, dass es in einem riesigen Universum möglicher Probleme und einer großen Anzahl von Kategorien, wie es bei ITSM häufig der Fall ist, nicht so einfach ist, das Problem auf den ersten Blick zu erkennen. Normalerweise ist es unmöglich, sie nur mit bloßem Auge in Tausenden, manchmal Millionen von Tickets, die sich im Laufe der Zeit angesammelt haben, zu finden. Dafür wenden wir Emma®AI Analytics an.

Wir kombinieren klassische Statistiken mit fortschrittlichem maschinellem Lernen und visueller Ticketprüfung. Unser agiler Ansatz und die Kommunikation mit Kunden steigern die Datenqualität für automatisierte Geschäftsprozesse.

Weitere Beiträge

Haben wir Ihr Interesse geweckt?

JETZT KONTAKT AUFNEHMEN

Footer Hintergrundkacheln