Arbeiten mit Tabellen und CSV

INNOCHAT ermoeglicht Ihnen das Hochladen von Trainingsdaten in Form einfacher CSV- oder Excel-Tabellen.
„Einfache Tabellen“ beziehen sich auf tabellarische Daten ohne zusammengefasste Zellen, mit einer einzigen Primaerschluessel-Spalte mit eindeutigen Elementen, eindeutigen und aussagekraeftigen Spalten- oder Zeilentiteln und einer klaren Spalten- oder Zeilen-Spalten-Struktur. Beispiel für eine reine Spaltentabelle:

Alle Daten pro Zeile beziehen sich auf den Produktschluessel in der ersten Spalte. Beispiel für eine Zeilen/Spalten-Tabelle:

Jede Kombination aus Zeile und Spalte verweist auf einen spezifischen Zellwert. Es gibt keine maximale Anzahl an Spalten, jedoch gibt es ein Limit für die Gesamtanzahl der Tokens pro Zeile.
Wenn diese überschritten wird, laeuft das Training in einen Fehler. Stand Maerz 2024 betraegt das Maximum ca. 8000 Tokens pro Zeile (inklusive des JSON-Codes, der zum Darstellen der Tabellenstruktur erforderlich ist).
Das bedeutet, dass der tatsaechliche Anteil für Werte geringer ausfaellt und von der Laenge von Spalten- und Zeilennamen abhaengt. Wenn Ihre Daten dem oben beschriebenen Format entsprechen, koennen Sie Ihre Tabelle als Trainingsquelle hochladen.
Dazu gehen Sie zu: Sources → Add Sources → Tables

Bei Zeilen/Spalten-Tabellen muessen Sie nach dem Hochladen Folgendes tun:

Waehlen Sie die Tabelle aus
Oeffnen Sie das Drei-Punkte-Menue rechts
Klicken Sie auf Edit Table Data

Im Tabellen-Editor waehlen Sie nun Row-Column Header und klicken auf Save Changes.
Dies stellt sicher, dass die Daten korrekt für LLM-Verarbeitung vorverarbeitet werden.

Danach koennen Sie die Tabellen als Referenzdaten beim Zuweisen der Wissensbasis für Ihre Agenten verwenden. Bitte beachten:
GPT-4-Modelle übertreffen GPT-3.5-Modelle deutlich hinsichtlich Praezision und Konsistenz beim Arbeiten mit Tabellen.

Beispiel für LLM-Retrieval basierend auf den oben gezeigten Beispieltabellen.

Mein Agent oder Chatbot versteht meine Tabelle nicht korrekt!

LLMs wie GPT-4 sind hervorragend im Umgang mit unstrukturiertem Text.
Mit multimodaler Faehigkeit (z. B. GPT-Vision) koennen sie sogar Bilder interpretieren.
Tabellen sind jedoch etwas voellig anderes. Es gibt keine universelle Syntax zur Darstellung strukturierter Informationen.
Da LLMs probabilistisch arbeiten, sind sie nicht natürlich gut darin, tabellarische Daten direkt zu interpretieren. Ein Artikel der Microsoft Research analysiert die Leistungsfaehigkeit von GPT-4 bei strukturierten Daten: https://www.microsoft.com/en-us/research/blog/improving-llm-understanding-of-structured-data-and-exploring-advanced-prompting-methods/

Vergleich der Leistung zwischen GPT-3.5 und GPT-4 bei Tabellenoperationen und strukturierten Daten.
Quelle: Microsoft Research INNOCHAT verwendet derzeit eine JSON-basierte Struktur, um Tabellen abzubilden.
Das ist nicht perfekt, unterstuetzt aber eine begrenzte Anzahl von Anwendungsfaellen, in denen Tabellen als Trainingsquelle verwendet werden. Wir wissen, dass viele Anwendungsfaelle groessere, komplexere und dynamische Datensaetze beinhalten.
Die statische Tabellenfunktion ist dafuer nicht optimal geeignet. Dafür empfehlen wir statt dessen Function Calling. Der robusteste und professionellste Ansatz für Retrieval-Augmented Generation (RAG) mit strukturierten Daten ist:

→ Function Calling mit SQL-basierten Custom Functions

Das heisst:

Sie entwerfen eigene Funktionen
Die Funktionen beinhalten template-basierte SQL-Abfragen
Daten werden dynamisch abgerufen
Der Chatbot erhaelt die Ergebnisse als RAG-Kontext in Echtzeit

Dies erfordert jedoch:

etwas Programmiererfahrung
Hosting Ihrer eigenen Serverfunktionen

Wir arbeiten derzeit an detaillierten Beispielen für dieses Setup, und wir danken Ihnen für Ihre Geduld, waehrend wir die Dokumentation erweitern.

Erste Schritte

Anleitungen

Funktionsaufrufe

Authentifizierungs-Webhook

Arbeiten mit Tabellen und CSV

Mein Agent oder Chatbot versteht meine Tabelle nicht korrekt!

→ Function Calling mit SQL-basierten Custom Functions

Erste Schritte

Anleitungen

Funktionsaufrufe

Authentifizierungs-Webhook

​Mein Agent oder Chatbot versteht meine Tabelle nicht korrekt!

​→ Function Calling mit SQL-basierten Custom Functions

Mein Agent oder Chatbot versteht meine Tabelle nicht korrekt!

→ Function Calling mit SQL-basierten Custom Functions