Methodik8 Min Lesezeit

Woher Vnutris Nährwertdaten kommen: 8 Datenbanken, ein Katalog

Acht offen lizenzierte Lebensmittelzusammensetzungs-Datenbanken, wie wir sie zu einem Katalog mit 845+ Lebensmitteln und je 38 Nährstoffen zusammenführen — und die methodischen Kompromisse dahinter.

Karte der 8 Lebensmittelzusammensetzungs-Quellen — USDA, Ciqual, CoFID, AFCD, Frida, Matvaretabellen, CNF

„Wie viele Kalorien hat ein Apfel?" — eine einfache Frage mit einer weniger einfachen Antwort. Sie hängt von Sorte, Reife, Herkunft und davon ab, wer gemessen hat. Die Zahlen auf Etiketten, in Lehrbüchern und in Apps können um den Faktor 1,5 bis 2 auseinanderliegen. Dieser Artikel erklärt, wie Vnutri versucht, diese Lücke zu schließen.

Der Vnutri-Katalog umfasst 845+ alltägliche Lebensmittel und 340 Gerichte mit je 38 Nährstoffen. Darunter: 8 kuratierte, offen lizenzierte Lebensmittelzusammensetzungs-Datenbanken, die wir zu einem einzigen Datensatz fusionieren. Hier stehen sie, der Grund für die Auswahl und das Vorgehen.

Was ist eine Lebensmittelzusammensetzungs-Datenbank?

Eine Lebensmittelzusammensetzungs-Datenbank enthält im Labor gemessene Nährstoffdaten zu Lebensmitteln. Jeder Eintrag ist ein konkretes Produkt (z. B. „Apple, raw, with skin, including foods for USDA's Food Distribution Program") mit Dutzenden bis Hunderten Nährstoffspalten pro 100 g.

Erstellt werden sie von nationalen Institutionen: USDA in den USA, ANSES in Frankreich, FSANZ in Australien usw. Die Daten stammen aus instrumenteller Analyse (HPLC für Vitamine, ICP-MS für Mineralstoffe, Gaschromatographie für Fettsäuren) bei regelmäßigen Stichproben. Das ist teuer: Ein typischer Eintrag kostet die Labore mehrere Tausend Dollar.

Deshalb sind die meisten dieser Datenbanken öffentlich — sie wurden aus Steuergeldern gebaut, und die Regierungen verpflichten sie zur Offenheit.

Vnutris acht Quellen

Quelle Einträge Lizenz Region
USDA FoodData Central (Foundation + SR Legacy) 7 928 Public Domain USA
USDA FNDDS 2021–2023 (Mischgerichte) 5 431 Public Domain USA
Canadian Nutrient File 5 690 OGL Canada Kanada
UK CoFID (McCance & Widdowson 2021) 2 636 OGL v3.0 Großbritannien
ANSES Ciqual 2020 2 298 Etalab Frankreich
Matvaretabellen 2 118 NLOD Norwegen
AFCD (FSANZ Release 3) 1 588 CC BY 3.0 AU Australien
Frida (DTU) 1 381 Open Dänemark
USDA Choline DB ~25 Public Domain USA

Etwa 29 000 Quell-Einträge vor der Filterung.

Warum genau diese

Drei Kriterien.

  1. Offene Lizenz. Public Domain, CC, OGL, NLOD. Kein „nur für privaten Gebrauch" — wir bauen ein kommerzielles Produkt. Das schließt geschlossene Datenbanken wie NEVO (Niederlande) und manche Universitäts-Datenbanken aus.
  2. Regelmäßige Aktualisierungen. Datenbanken mit „Release 18"-Stand und Updates alle 3–5 Jahre. Das schließt archivierte oder einmalige Projekte aus.
  3. Labor-Messung, keine Rezept-Berechnung. Wir haben Quellen gewählt, bei denen die meisten Einträge aus tatsächlicher Instrumentalanalyse stammen. USDA FNDDS wird nur für Gerichte verwendet (seine Werte sind rezept-berechnet, was auch ausdrücklich angegeben ist).

Was nicht enthalten ist und warum:

  • Open Food Facts (OFF) — Nutzer-Datenbank, ODbL. Zu rauschig: Markenprodukte, verstümmelte Namen, keine Validierung. Wir nutzen OFF nur für Lokalisierung (mehrsprachiges Lebensmittel-Wörterbuch), nicht für Nährwerte.
  • Fineli (Finnland) — gute Datenbank, CC BY 4.0, aber CLI-Zugriff blockiert, manueller Export steht aus.
  • Livsmedelsverket (Schweden) — CC0, manueller Drop, verschoben.
  • NEVO (Niederlande) — geschlossene Lizenz.

Welche Nährstoffe

38 Nährstoffe pro Lebensmittel:

Energie und Makros (10): Kalorien, Eiweiß, Fett, Kohlenhydrate, Ballaststoffe, Zucker, Stärke, gesättigte/einfach/mehrfach/Trans-Fettsäuren, Cholesterin.

Mineralstoffe (10): Calcium, Eisen, Magnesium, Phosphor, Kalium, Natrium, Zink, Kupfer, Selen, Mangan, Jod.

Vitamine (13): A, Retinol, D, E, K, C, B1 (Thiamin), B2 (Riboflavin), B3 (Niacin), B5 (Pantothensäure), B6, B9 (Folat), B12.

Fettsäuren (3): Omega-3, Omega-6, plus Fett-Unteraufschlüsselung.

Sonstiges (3): Cholin, Lactose, glykämischer Index (wo bekannt).

Das ist mehr, als irgendeine einzelne Quelle veröffentlicht: USDA SR Legacy listet kein Jod, USDA FDC kein Cholin, Ciqual kein Selen usw. Jeder Nährstoff stammt aus den Datenbanken, die ihn tatsächlich publizieren.

Wie wir Quellen zusammenführen

Einfaches Mitteln funktioniert nicht. Verschiedene Datenbanken nehmen verschiedene Sorten, Methoden und Regionen. Derselbe „Apfel" in USDA und in Ciqual ist physisch ein anderes Produkt.

Daher clustert Vnutri Einträge aus allen Quellen in Gruppen (Lebensmittel × Sorte × Zustand) und berechnet dann einen gewichteten Median pro Nährstoff innerhalb jedes Clusters.

Konkret:

  1. Namensnormalisierung. Kategorie-Suffixe streichen („raw, with skin, includes…"), Synonyme anwenden (yoghurt → yogurt, aubergine → eggplant), Formatierung vereinheitlichen.
  2. Clustering. Sortierte Tokens + Zustand (raw/cooked/dried) → Cluster-Schlüssel. „Black beans, cooked" aus USDA und „Beans, black, cooked" aus CoFID landen im selben Cluster.
  3. Plausibilitätsprüfung. Atwater-Test: vorhergesagte Kalorien (Eiweiß × 4 + Fett × 9 + Kohlenhydrate × 4) müssen mit dem deklarierten Wert auf ±25 % übereinstimmen. Außerhalb dieser Spanne wird verworfen — meist Dateneingabefehler.
  4. Gewichteter Median. USDA Foundation, Ciqual, CoFID, CNF, Frida, AFCD — Gewicht 3. USDA SR Legacy, Matvaretabellen — Gewicht 2. Median statt Mittelwert, damit ein einzelner Ausreißer das Ergebnis nicht verzieht.
  5. Mindestquellen. Ein Cluster braucht Daten aus mindestens 2 Quellen. Einzelquellen-Anomalien werden verworfen.

Ergebnis: ein Eintrag pro Lebensmittel mit den besten verfügbaren Werten je Nährstoff. Die Quellen werden auf der Detailseite des Produkts angegeben.

Nährstoff-Abdeckung

Nicht jeder Nährstoff wird mit gleicher Sorgfalt gemessen. Abdeckung über 845 Lebensmittel:

Abdeckung Nährstoffe
100 % Kalorien, Eiweiß, Fett, Kohlenhydrate
90–95 % Ballaststoffe, Calcium, Eisen, Natrium, Kalium, Magnesium, Phosphor, Niacin, A, C, B1, B2, B6, Zink, Kupfer, Folat, B12
85–90 % Zucker, Cholesterin, gesättigte/einfach/mehrfach Fettsäuren, Mangan, Selen, D
75–85 % Pantothensäure, E, Omega-3
60–75 % Omega-6, Stärke, Trans-Fettsäuren, K
50–60 % Cholin, Jod

Jod und Cholin bleiben bei 50–60 % wegen Quell-Limits: USDA SR Legacy meldet kein Jod (Spalte existiert, ist aber leer), und Cholin gibt es nur in USDA und CNF.

Was ist mit den Gerichten

Von ~340 Gerichten im Katalog stammen rund 150 aus USDA FNDDS 2021–2023 — einem staatlichen Gericht-Datensatz mit rezept-berechneten Werten. Die übrigen (~190) sind regionale Gerichte ohne FNDDS-Pendant: Borschtsch, Pelmeni, Bibimbap, Dal, Pho, Jollof Rice usw. Ihre Nährwerte sind LLM-Schätzungen von Claude Opus auf Basis eines typischen Rezepts und der labormessen Hauptzutaten aus dem Hauptkatalog.

Diese Gerichte tragen ein „approximate"-Banner auf der Detailseite — ihr Nährwertprofil ist eine LLM-Schätzung, keine Labordaten. Die Genauigkeit ist hier deutlich geringer als bei einzelnen Lebensmitteln.

Namens-Lokalisierung

Die Lebensmittelnamen im Katalog sind in 6 Sprachen übersetzt (en, es, ca, fr, de, ru). Die Übersetzungs-Pipeline hat drei Schichten, von der günstigsten zur teuersten.

  1. OFF-Taxonomie — ein kuratierter mehrsprachiger Lebensmittel-Wortschatz, 4 212 Einträge in 100+ Sprachen. Aus der Open-Food-Facts-Ingredients-Taxonomie auf GitHub. Trefferquote ~70 %.
  2. Wikidatawbsearchentities-API für seltene oder regionale Lebensmittel. Gestaffelter Picker mit P31-Filtern (instance of food).
  3. Google Cloud Translation v3 (Translation LLM) — finaler Durchlauf. Übersetzt alles erneut, um wissenschaftliche Namen herauszufiltern und Genus/Numerus zu korrigieren.

Mehr — wie wir Lebensmittel in 6 Sprachen benennen.

Was ist mit Zuständen (roh vs gekocht)

Dasselbe Lebensmittel roh und gekocht sind ernährungsphysiologisch zwei verschiedene Produkte. Gekochter Reis hat mehr Wasser und weniger Eiweiß und Kalorien pro 100 g als roher. Gekochter Spinat hat eine höhere Dichte vieler Mineralstoffe als roher, weil das Wasser entwichen ist.

Vnutri löst das mit einem State-Variant-Modell: Jedes Lebensmittel hat einen state (raw, cooked, dried, baked usw.) und eine groupId, die für alle Zustände desselben Lebensmittels gleich ist. Die Liste zeigt einen Primär-Eintrag (meist roh); die Detailansicht hat einen Zustands-Umschalter.

Mehr — warum „gekochtes Huhn" und „rohes Huhn" verschiedene Lebensmittel sind.

Glykämischer Index

Der GI ist der einzige Nährwert in Vnutri, der nicht aus den 8 Lebensmittel-Datenbanken stammt. Quelle: die Atkinson-2021-Meta-Analyse (Am J Clin Nutr), International Tables of Glycemic Index and Glycemic Load Values 2021. Die bislang vollständigste systematische GI-Sammlung.

Nicht jedes Lebensmittel hat einen gemessenen GI — nur kohlenhydrathaltige, und nur wenn mindestens eine Laborsitzung in der Literatur dokumentiert ist. Etwa 30 % des Katalogs tragen einen GI. Siehe glykämischer Index.

Was wir NICHT tun

  • Keine bezahlten geschlossenen Datenbanken. Nur offene Lizenzen.
  • Keine Nutzer-Daten für Nährwerte. OFF nur für Namen.
  • Kein Vertrauen in Produktions-Etikettdaten. Auf der Packung deklarierte Kalorien können bis zu 20 % von Laborwerten abweichen (FDA-Toleranz). Labordaten sind genauer.
  • Kein Rezept-basiertes Aufsummieren außer für „mixed dishes" aus FNDDS.

Genauigkeit und Grenzen

Was zu erwarten ist.

Datengenauigkeit: Bei Einzel-Lebensmitteln Laborwerte. Bei FNDDS-Gerichten rezept-berechnete Werte. Bei regionalen Gerichten LLM-Schätzungen.

Regionale Variation: Ein Apfel in den USA, Norwegen und Australien sind physisch unterschiedliche Produkte. Unser Median glättet regionale Effekte. Wer Lebensmittel einer bestimmten Region analysiert, ist mit einer lokalen Datenbank ggf. genauer.

Sortenvariation: Honeycrisp ≠ Granny Smith bei Zucker und Säure. Im Katalog ist „Apfel" der Median über Sorten. Konkrete Sorten muss man separat nachschlagen.

Garung: „Salzkartoffel" im Katalog ist Mittelwert über Kochmethoden. Geröstet oder frittiert — anderes Profil.

Datenalter: USDA SR Legacy von 2018; CoFID 2021; Ciqual 2020. Ganz neue Lebensmittel erscheinen nicht sofort.

Attribution

Alle Quellen sind auf der Acknowledgments-Seite mit Lizenzen aufgeführt. Jeder Nährstoff in einer Detailkarte lässt sich auf seine Quelle zurückverfolgen.

Wer Vnutri-Daten in einem eigenen Projekt nutzen möchte, kann uns ansprechen: hello@vnutri.app.

Quellen

  • US Department of Agriculture. FoodData Central. 2024.
  • Health Canada. Canadian Nutrient File. 2023.
  • Public Health England. McCance and Widdowson's The Composition of Foods Integrated Dataset 2021.
  • ANSES. Ciqual French food composition table. 2020.
  • Norwegian Food Safety Authority. Matvaretabellen. 2023.
  • Food Standards Australia New Zealand. Australian Food Composition Database, Release 3. 2024.
  • Technical University of Denmark. Frida Food Database. 2023.
  • Atkinson FS, Brand-Miller JC, Foster-Powell K, et al. International tables of glycemic index and glycemic load values 2021. Am J Clin Nutr. 2021;114(5):1625–1632.