Autor: admin

  • KI-Infrastruktur für Digitale Autonomie an Hochschulen

    Benjamin Paaßen, Stefanie Go, Maximilian Mayer, Benjamin Kiesewetter, Anne Krüger, Jonas Leschke, Christian M. Stracke für das Forschungsnetzwerk Artificial Intelligence and Digital Autonomy in Research and Education (AIDARE).

    Click here for the English version.

    Für die Zukunft von Forschung und Lehre an Hochschulen ist der Zugang zu großen Sprachmodellen (LLMs) wesentlich. Daher sollten Hochschulen Abhängigkeiten von proprietären LLM-Anbieter*innen vermeiden und stattdessen eine diversifizierte KI-Infrastruktur aufbauen, die digitale Autonomie von Lernenden, Lehrenden, Forschenden und den Hochschulen als Institutionen fördert. Dieses Dokument richtet sich an Hochschulleitungen und schlägt strategische Schritte in Richtung solch einer Infrastruktur vor, die sich in der nahen Zukunft umsetzen lassen und greifbare Fortschritte für die digitale Autonomie versprechen.

    Warum digitale Autonomie?

    Im Hinblick auf künstliche Intelligenz ist die digitale Autonomie eine Kernaufgabe der Hochschulen: Als institutionen sollten Hochschulen unabhängig vom Einfluss der KI-Industrie sein; Forschende sollten frei sein, ihre Forschungsmethoden und -ziele selbst zu wählen statt sich von Produkten einschränken zu lassen; Lehrende sollten frei wählen können, ob und wie sie KI-Systeme in die Lehre einbauen wollen, ohne dafür die Daten ihrer Studierenden ins Ausland schicken zu müssen; und Studierende sollten die Möglichkeit haben, verantwortliche Bürger*innen und selbstbestimmte Expert*innen zu werden, ohne ihre kognitiven Tätigkeiten und akademische Verantwortung an KI-Werkzeuge abzugeben. Deshalb sollten Hochschulen eine KI-Infrastruktur aufbauen, die digitale Autonomie fördert statt ihr zu schaden; Autonomie im Sinne von Selbstbestimmung, epistemischer Eigenständigkeit und Gerechtigkeit, akademischer Verantwortung und eigener Kompetenz (im Fach und über Fachgrenzen hinweg). Digitale Autonomie in diesem umfassenden Sinne betrifft alle universitären Bereiche: Lehre, Forschung, Verwaltung, Leitung, Ethos. Dieses Dokument fokussiert sich auf KI-Infrastruktur, also die technologischen Voraussetzungen für digitale Autonomie, wie etwa algorithmische Transparenz und Änderbarkeit. Wir betonen die Rolle der Hochschulen und ihrer Mitglieder als verantwortliche Akteur*innen, die die Zukunft der KI-Nutzung mitgestalten können – statt KI als überwältigende Welle von außen zu sehen – und wir zeigen kurz- und mittelfristige Schritte auf, mit denen Hochschulen merkliche Fortschritte in Sachen digitale Autonomie erreichen können.

    Der Status Quo: LLM-Chat-Interfaces

    Viele deutsche Universitäten haben bereits erste Schritte in Richtung digitaler Autonomie getan: Sie stellen eigene Web-Seiten bereit, um mit LLMs zu chatten, zum Beispiel HAWKI[1] oder KI:connect.nrw[2]. Solche Seiten stellen sicher, dass die Account-Informationen der Hochschulangehörigen an den Hochschulen verbleiben und nur die Chat-Anfragen selbst an Dritte geschickt werden, bei denen die eigentlichen LLMs gehostet werden. Dies ist ein kritischer erster Schritt für mehr Datenschutz und weniger Abhängigkeit und kostet die Hochschulen beinahe nichts (außer die reinen LLM-Nutzungsgebühren, die ohnehin angefallen wären). Wir empfehlen, dass Hochschulen solche Chat-Interfaces für alle Hochschulangehörigen verfügbar machen, damit alle eine Alternative zu proprietären Systemen haben. Allerdings betonen wir auch, dass KI-Nutzung freiwillig bleiben muss und in bestimmten Kontexten sogar von KI-Nutzung abzuraten ist, etwa wenn in der Lehre zunächst Grundwissen und -kompetenzen aufgebaut werden müssen, um KI-Ausgaben beurteilen zu können.

    Der nächste Schritt: Das Hosting offener Modelle

    Chat-Interfaces allein reichen nicht aus als technische Grundlage für digitale Autonomie. Ohne weitere Schritte bleiben Hochschulen von proprietären LLM-Anbieter*innen abhängig. Die Wettbewerbsposition dieser Anbieter*innen wird durch die Großverträge mit Hochschulen gestärkt, nicht zuletzt weil Hochschulangehörige während der Nutzung wertvolle forschungs- und lehrbezogene Daten in die Systeme eingeben. Dadurch können sich Abhängigkeiten verstärken und Lock-In-Effekte eintreten. Schließlich bleiben auch Datenschutzbedenken, weil auch die Chat-Nachrichten selbst personenbeziehbare (oder anderweitig sensitive) Daten enthalten können. Deshalb braucht es eine diversifizierte KI-Infrastruktur mit mehreren Anbieter*innen und LLMs.

    Einige Hochschulen haben deshalb bereits Verträge mit Hochleistungsrechenzentren (engl.: high performance computing centers, HPCs) abgeschlossen, die für sie LLMs mit offenen Parametern bereitstellen, etwa die Llama-Modelle von Meta, die DeepSeek-Modelle, oder Modelle, die noch offener sind, wie das Schweizerische Apertus[3]. Solche Verträge haben entscheidende Vorteile für Hochschulen: Sie reduzieren Datenschutzrisiken, können den Zugang zu transparenten Modellen ermöglichen und erlauben eine verlässlichere Kostenkontrolle. In Deutschland gibt es bereits best-practice-Beispiele, insbesondere die GWDG[4], die bereits dutzende Hochschulen bedient, aber auch Initiativen wie Open Source-KI.nrw[5], die sich bereits auf den Weg gemacht haben. Hochschulen sollten Verträge mit solchen offenen LLM-Anbieter*innen abschließen, um ihren Angehörigen LLM-Zugang ohne Datenschutz- oder Abhängigkeitsbedenken zu ermöglichen. Dort, wo solche Anbieter*innen noch nicht verfügbar sind, sollten Hochschulen Partnerschaften mit Hochleistungsrechenzentren aufbauen, um sie zu offenen LLM-Anbieter*innen zu machen. Diese Strategie der Partnerschaften ist auch von der GWDG im Rahmen ihres Papiers zu KI-Grundversorgung empfohlen worden[4]. Im Sinne der digitalen Autonomie empfehlen wir eine geteilte Bereitstellung an mehreren HPC-Standorten, das heißt mehr technische Redundanz, mehr Kompetenzaufbau und keine Abhängigkeit von Einzelstandorten.

    Forschung unterstützen mit offenen LLM-Schnittstellen

    Zwar ermöglicht ein Chat-Interface bereits kleine Forschungsanwendungen, aber für die meisten Einsatzszenarien in der Forschung braucht es mehr, wenn es etwa um die automatische Annotation oder Klassifikation großer Mengen Text geht, um automatisches Transkribieren oder den Aufbau eigener Forschungsprototypen für interaktive intelligente Systeme (Robotik, intelligente Assistenten, etc.), die LLMs als Teilkomponenten brauchen. Forschungsanwendungen von LLM sind nicht auf Informatik oder Computerlinguistik beschränkt sondern reichen weit in die Natur-, Sozial- und Geisteswissenschaften hinein. Die Forschung ist gerade erst im Prozess, valide Forschungsmethoden mit LLMs aufzubauen. Gute wissenschaftliche Praxis setzt LLMs mit voller Transparenz voraus.

    Für die Nutzung in der Forschung braucht es insbesondere eine Programmierschnittstelle, über die sich auch große Mengen an Anfragen stellen lassen (engl.: application programming interface, API). Aktuell wird ein solcher API-Zugang beinahe ausschließlich von proprietären Anbieter*innen bereitgestellt. Das macht die Forschung jedoch abhängig von Anbieter*innen, die ihre Trainingsdaten, LLM-Architektur und die umgebende Software geheim halten und damit die Forschung einschränken: sowohl im Hinblick auf epistemische Eigenständigkeit, etwa der kritischen Auseinandersetzung mit den biases von LLMs, als auch im Hinblick auf gute wissenschaftliche Praxis, etwa Transparenz und Reproduzierbarkeit. Um eine Alternative zu bieten, die die digitale Autonomie der Forschenden fördert, müssen HPCs so ausgestattet werden, dass sie der Forschung API-Zugang für große Mengen an Anfragen bereit stellen können, also wesentlich mehr als die 10 Anfragen pro Person und Tag, die aktuell geschätzt werden[4]. Dieser API-Zugang kommt hinzu zu den traditionellen Dienstleistungen der HPCs. APIs für Sprachmodell-Anfragen dienen dem Prototyping und kleineren Experimenten (mit einigen zehntausend Datenpunkten). Jedoch werden auch klassische Dienstleistungen für große, merhstündige bis mehrwöchige Rechenaufgaben weiterhin nötig sein, nicht zuletzt um LLMs zu trainieren und zu fine-tunen.

    Hochschulen sollten strategische Investitionen beantragen und von der Politik einfordern, um HPCs mit ausreichend Hardware und Personal für das große Volumen zukünftiger Forschungsanfragen auszustatten und für all ihre Forschenden API-Zugang mit entsprechenden Volumina bereitstellen zu können. So kann auch die Autonomie der Forschung im Hinblick auf LLMs sichergestellt werden, das heißt: Die Freiheit zu wählen, ob und welche LLMs eingesetzt werden sollen und die Freiheit, alle Aspekte der Modelle zu erforschen.

    LLM-Integration in offene digitale Lehrwerkzeuge

    In der Lehre stellen Chatbot-Interfaces bereits eine wertvolle Alternative zu proprietären Angeboten dar. Allerdings benötigen viele Lehranwendungen zusätzliche Funktionalität, etwa Tutoring-Chatbots, die Antworten und Hinweise nur basierend auf dem tatsächlichen Lehrmaterial des Kurses geben sollen. Bei der Nutzung solcher Bildungstechnologien sollten Lernende und Lehrende nicht gezwungen sein, ihre Daten an proprietäre Anbieter*innen zu übermitteln. Im Gegenteil sollten Lernende und Lehrende selbst entscheiden können, wie die Prompts für LLMs konfiguriert sind und welche Daten für Lernen und Lehren genutzt werden. Open Source-KI.nrw und GWDG haben bereits Prototypensysteme in dieser Richtung entwickelt und die Praxisprojekte von KI:edu.nrw haben gezeigt, wie solche Systeme sich in der Hochschullehre einsetzen lassen[6]. Hochschulen sollten Open Source-Entwicklungen unterstützen, die offene digitale Lehrwerkzeuge mit den Möglichkeiten offener Sprachmodelle verknüpfen und ihren Lehrkräften und Studierenden die Möglichkeit geben, solche Werkzeuge in ihre Veranstaltungen einzuführen. Wir betonen, dass wir nicht für eine Pflicht, sondern für eine autonomie-respektierende Möglichkeit eintreten, LLMs zu nutzen. Hochschulen sollten Lernenden und Lehrenden die Möglichkeit bieten, über Art und Umfang der LLM-Nutzung in ihren jeweiigen Lernkontexten zu diskutieren und damit zu einer informierten Entscheidung zu gelangen.

    Zeitlicher Rahmen

    Wir sind überzeugt, dass Hochschulen eigene Chat-Interfaces und Verträge für die Nutzung offener Sprachmodelle sofort oder zumindest in wenigen Monaten erreichen können. Für den API-Zugang für Forschende und offene digitale Lehrwerkzeuge mit LLM-Integration gibt es bereits Prototypen, und Hochschulen sollten sich für Investitionen und Entwicklungen in diesen Bereichen einsetzen – etwa mit Anträgen und politischen Forderungen – und bereits Partnerschaften mit möglichen zukünftigen Anbieter*innen für APIs (etwa HPCs) und Lehrwerkzeuge aufbauen. Bei koordinierter und dauerhafter Arbeit lassen sich auch diese weiteren Schritte binnen zwei Jahren erreichen. Wir betonen, dass dieses Dokument nur kurz- und mittelfristige Schritte beschreibt, um die technischen Voraussetzungen für digitale Autonomie in Hochschulen zu schaffen. Hochschulen werden weitere Schritt ein Lehre, Forschung, Verwaltung und Leitung gehen müssen. Außerdem wird die Politik auf Landes-, Bundes- und sogar europäischer Ebene handeln müssen, wenn es um eine autonomieförderliche KI-Infrastruktur, die Sammlung von Trainingsdaten und das Training der Modelle selbst gehen soll.

    Verwandte Initiativen

    Mit diesen Forderungen stehen wir nicht allein. Unsere Empfehlungen stimmen im Kern überein mit dem Strategiepapier von KI:edu.nrw[7], dem Sifterverband-Aufruf für einen “KI-Zukunftsfonds Hochschule”[8], dem GWDG-Papier zur “KI Grundversorgung”[4] und den Expert*innen-Anhörungen des Hochschulforums Digitalisierung zu “Souveränen KI-Infrastrukturen”. Weitere Initiativen im Bereich Hochleistungsrechnen für KI sind die AI (Giga-)facotries (z.B. HammerHAI[9]), das JUPITER system[10] des FZ Jülich und supercomputing for LLM training in Darmstadt[11]. Verwandte Initiativen für das Training offener Sprachmodelle in Europa sind OpenEuroLLM[12], die Swiss AI Initiative[3] und Open GPT-X[13]. In der grundlegenden Haltung, nämlich die digitaler Autonomie aller Universitätsangehörigen zu fördern und der Skepsis gegenüber KI-Hype, stimmt dieses Dokument mit den Richtlinien “Ethical AI in Higher Education” für Lehrende[14] und Lernende[15] überein (beide Teil des Netzwerks “Ethical Use of AI”[16]). All diese Initiativen (und viele weitere) spielen eine Rolle beim Aufbau einer KI-Infrastruktur, die digitale Autonomie an Hochschulen fördert.


    [1] https://hawki.hawk.de/ 

    [2] https://kiconnect.pages.rwth-aachen.de/pages/ 

    [3] https://ethz.ch/de/news-und-veranstaltungen/eth-news/news/2025/09/medienmitteilung-apertus-ein-vollstaendig-offenes-transparentes-und-mehrsprachiges-sprachmodell.html 

    [4] https://kisski.gwdg.de/dok/grundversorgung.pdf 

    [5] https://www.oski.nrw/ 

    [6] https://ki-edu-nrw.ruhr-uni-bochum.de/ueber-das-projekt/phase-2/praxis-transferprojekte/aktuelle-praxisprojekte/ 

    [7] https://ki-edu-nrw.ruhr-uni-bochum.de/wp-content/uploads/2025/07/2025_07_09_KI-Strategiepapier_NRW.pdf 

    [8] https://www.stifterverband.org/sites/default/files/2025-02/ki-zukunftsfords_hochschulen_2026-2030.pdf 

    [9] https://www.hlrs.de/press/detail/hammerhai-to-create-an-ai-factory-for-science-and-industry 

    [10] https://www.fz-juelich.de/de/aktuelles/news/pressemitteilungen/2025/europas-ki-turbo-jupiter-ai-factory 

    [11] https://hessian.ai/supercomputer-for-cutting-edge-ai-research-in-hesse/ 

    [12] https://openeurollm.eu/ 

    [13] https://opengpt-x.de/en/ 

    [14] https://doi.org/10.5281/zenodo.10995669 (German version: https://doi.org/10.5281/zenodo.10793844)

    [15] https://doi.org/10.5281/zenodo.15880726 

    [16] https://ethischeki.ecompetence.eu 

  • AI Infrastructure for Digital Autonomy in Universities

    Benjamin Paaßen, Stefanie Go, Maximilian Mayer, Benjamin Kiesewetter, Anne Krüger, Jonas Leschke, Christian M. Stracke for the Research network Artificial Intelligence and Digital Autonomy in Research and Education (AIDARE).

    Click here for the German version.

    For future research and teaching in universities, access to large language models (LLMs) will be crucial. As such, universities ought to avoid dependencies on proprietary LLM suppliers and, instead, build a diversified AI infrastructure that supports rather than undermines digital autonomy of students, teachers, researchers, and the university as a whole. This document is directed at university leadership to support strategic steps toward such an infrastructure that can be implemented in the short- and mid-term with tangible benefits to digital autonomy.

    Why digital autonomy?

    With respect to artificial intelligence (AI), digital autonomy is core to the purpose of universities as teaching and research institutions: As institutions, they ought to be independent from the influence of AI hyperscalers; university researchers ought to be free to choose their own research tools and objectives instead of being limited by the constraints of proprietary AI systems; university teachers ought to be able to choose whether and how to integrate AI systems into their learning design and didactics without sending personal data of their students to servers abroad; and university students ought to become responsible citizens and autonomous experts in their field without offloading their cognition and academic responsibility to AI tools. Therefore, universities should build an AI infrastructure that promotes, rather than undermines digital autonomy in the sense of self-determination, epistemic agency and –justice, academic responsibility, and competencies (within and beyond specific academic subjects). Promoting digital autonomy in this ambitious sense involves many facets of universities, including teaching, research, administration, governance (such as guidelines), ethos. This document focuses on AI infrastructure, meaning the technological foundations for autonomy, such as algorithmic transparency and flexibility, that enable university members to manifest autonomy in the first place. We frame universities and their members as responsible actors that can shape the future of AI usage – instead of treating AI as an overwhelming external force – and we emphasize short- and mid-term steps universities can take to achieve tangible benefits to digital autonomy.

    The status quo: LLM Chat-Interfaces

    Many German universities have already made first steps toward more digital autonomy: They host their own website interfaces to chat with LLMs, such as HAWKI[1] or KI:connect.nrw[2]. These websites make sure that the account information of university members stay internal, while only the chat messages are forwarded to external providers who host the actual LLMs. This is a crucial first step for more data privacy and less dependency that can be implemented by universities at almost no additional cost (beyond what needs to be paid for LLM tokens, anyways). We recommend that universities open such interfaces for all their members, including students, teachers, researchers, and administrators to provide a meaningful alternative to proprietary systems. However, we emphasize that AI use must remain voluntary, and can even be discouraged in certain contexts (e.g., in teaching when building foundational knowledge and skills that are needed to competently judge AI outputs).

    The next step: OpenWeight LLM Hosting

    Just offering a chat interface is an insufficient basis for digital autonomy. If no further steps are taken, universities remain dependent on external providers of proprietary LLMs. The competitive position of these providers is further strengthened by the high-volume contracts with universities as well as the valuable research- and teaching-related chat data provided by universities – thus, potentially, deepening dependencies and leading to lock-in effects. Finally, privacy concerns remain as the chat messages themselves may leak personal data. Therefore, a diversified AI infrastructure is needed, meaning a diversity of hosters and a diversity of LLMs.

    Some universities have, therefore, partnered with high performance computing (HPC) centers which host OpenWeight LLMs, such as Meta’s Llama models,  DeepSeek models, or even more open models, such as Apertus[3]. Such arrangements have crucial advantages for universities: They can alleviate privacy concerns, can guarantee access to transparent models with known parameters, and can control costs more reliably. Germany already has working best-practice examples, most notably the GWDG[4], which connects to dozens of universities, but other initiatives like Open Source-KI.nrw[5] have started in this direction, as well. Universities should secure contracts with such OpenWeight LLM hosters to enable LLM access without privacy or dependency concerns for their members. If such hosters are not yet available, universities should partner with HPC institutions to enable OpenWeight LLM hosting on their servers. Such partnerships have also been recommended by the GWDG paper on AI basic infrastructure (“KI-Grundversorgung”)[4]. To promote digital autonomy we recommend hosting at multiple HPCs, meaning more technical redundancy, LLM hosting capabilities in more locations, and less dependency on single providers.

    Supporting research with LLM API access

    A chatbot interface supports research processes at very small scales but is insufficient for larger research applications, such as automatically annotating/classifying large amounts of text data, transcription tasks, or building custom systems that need LLMs as a component. Research applications of LLMs are not limited to fields like computer science and computer linguistics but cross disciplinary boundaries, including natural sciences, social science and humanities. Establishing valid scientific methods with LLM involvement is an on-going process. Developing and applying such methods requires reliable LLM access with full transparency.

    For such research use, an application programming interface (API) is required. Currently, API access to LLMs is (almost) only offered by proprietary vendors. However, depending on vendors who keep training data, LLM architecture and surrounding software secret, severely limits researchers’ epistemic agency in the sense of critically engaging with underlying biases in the LLMs, as well as good scientific practice in the sense of transparency and reproducibility of research. To build an alternative that promotes the digital autonomy of researchers, HPC centers must be equipped to offer APIs to researchers, which means handling a large expected volume of research-related LLM inference queries, far exceeding the 10 queries per day and user currently estimated[4]. Importantly, this inference infrastructure is separate from and additional to classic scientific computing, also situated at HPCs: Inference APIs are intended for prototyping and small-compute research tasks, whereas classic scientific computing typically requires a proposal to apply for a large, multi-hour to multi-week computing effort. Classic scientific computing will still be needed, not least to fine-tune and train LLMs.

    Universities should strategically apply for and politically demand investments in HPC centers to equip them with hardware and personnel to handle large volumes of research-related LLM inference queries and to provide API access to all researchers. This ensures that researchers have full freedom to choose whether and which LLM to use and can research every aspect of the models.

    LLM integration in open source digital teaching tools

    In teaching, chatbot interfaces are already useful for students and provide an alternative to personal accounts with proprietary vendors. However, many useful teaching applications require additional functionality, such as tutoring chatbots that should be able to answer questions and provide feedback and hints that are based on the material in one course. If such teaching applications are offered, they should not force students (or teachers) to transmit teaching material or student data to proprietary vendors; and teachers as well as students should have full autonomy how the prompts to LLMs are configured and which data is used to support teaching and learning. OpenSourceKI.nrw and GWDG have already developed prototype systems in this direction; the practice projects of KI:edu.nrw have shown how such infrastructure can be used in teaching[6]. Universities should support open source developments that equip digital learning tools with freely configurable open weight LLM functionalities, including retrieval augmented generation (RAG) based on teaching material, and give their teachers and students the choice to integrate these functionalities in their courses.
    We emphasize that we advocate for an autonomy-respecting option to use LLMs if desired. Universities should facilitate discussions for informed decisions by teachers and students regarding LLM use in specific learning contexts (i.e. a specific course in a specific subject for a specific learner).

    The timeline

    We believe that university chat interfaces and OpenWeight LLM hosting are steps that can be taken immediately or within months. To achieve API access for researchers and OpenSource teaching tools, prototypes already exists and universities should take steps to facilitate investments and developments (e.g., via proposals and political advocacy) and build partnerships with institutions (such as HPCs) who can become their suppliers for API access and OpenSource teaching tools. With coordinated effort, we believe that even these mid-term goals can be achieved within two years. We emphasize that these are only short- and mid-term steps to provide a technological foundation for digital autonomy at the university level. Universities will need to take additional steps in education, research, administration, governance, etc. Further, policy action on the national or even European level will be needed to achieve an autonomy-promoting infrastructure for training LLMs and gathering training data in a way that respects autonomy.

    Related Initiatives

    We are not the first to propose similar activities. The recommendations in this paper are particularly well aligned with the strategy paper of KI:edu.nrw[7], the “KI-Zukunftsfonds Hochschule”[8], the “KI Grundversorgung”[4] and the expert hearings on “Souveräne KI-Infrastrukturen” of the Hochschulforum Digitalisierung in Germany. Other initiatives toward high performance computing hardware for AI are the AI (Giga-)factories (e.g.  HammerHAI[9]), the JUPITER system[10] at FZ Jülich, supercomputing for LLM training in Darmstadt[11]. Related initiatives for the training of fully open LLMs in Europe are OpenEuroLLM[12], the Swiss AI Iniative[3] and Open GPT-X[13]. In terms of promoting digital autonomy of all university members and remaining skeptical toward AI hype, our document aligns with the guidelines “Ethical AI in Higher Education” for teachers[14] and for students[15] (both by the Network “Ethical Use of AI”[16]). All these initiatives (and many more) play a role to build an infrastructure that promotes digital autonomy in universities.

     


    [1] https://hawki.hawk.de/ 

    [2] https://kiconnect.pages.rwth-aachen.de/pages/ 

    [3] https://ethz.ch/de/news-und-veranstaltungen/eth-news/news/2025/09/medienmitteilung-apertus-ein-vollstaendig-offenes-transparentes-und-mehrsprachiges-sprachmodell.html 

    [4] https://kisski.gwdg.de/dok/grundversorgung.pdf 

    [5] https://www.oski.nrw/ 

    [6] https://ki-edu-nrw.ruhr-uni-bochum.de/ueber-das-projekt/phase-2/praxis-transferprojekte/aktuelle-praxisprojekte/ 

    [7] https://ki-edu-nrw.ruhr-uni-bochum.de/wp-content/uploads/2025/07/2025_07_09_KI-Strategiepapier_NRW.pdf 

    [8] https://www.stifterverband.org/sites/default/files/2025-02/ki-zukunftsfords_hochschulen_2026-2030.pdf 

    [9] https://www.hlrs.de/press/detail/hammerhai-to-create-an-ai-factory-for-science-and-industry 

    [10] https://www.fz-juelich.de/de/aktuelles/news/pressemitteilungen/2025/europas-ki-turbo-jupiter-ai-factory 

    [11] https://hessian.ai/supercomputer-for-cutting-edge-ai-research-in-hesse/ 

    [12] https://openeurollm.eu/ 

    [13] https://opengpt-x.de/en/ 

    [14] https://doi.org/10.5281/zenodo.10995669 (German version: https://doi.org/10.5281/zenodo.10793844)

    [15] https://doi.org/10.5281/zenodo.15880726 

    [16] https://ethischeki.ecompetence.eu 

  • Human Autonomy in the AI Supply Chain

    Benjamin Paaßen, 2025-07-06

    Large language models (LLMs) are a foundational technology, unlocking novel research methods, teaching practices, and business models – even when looking beyond the hype[1]. Given the increasing importance of LLMs, it is deeply concerning that the supply chain for LLMs is controlled by a handful of AI corporations located in the US and China. The current practices of this handful of AI corporations stand in stark contrast to the vision of trustworthy AI, as well as human autonomy[2]: their LLM-based bots spread misinformation and propaganda and are used to replace human labor; the AI platforms form an oligopoly that can dictate prices and conditions; and the data used for training has been gathered without consent. The alignment of current big AI players with autocratic regimes in China and the US only heightens the concern that AI tools will increasingly undermine, rather than strengthen, digital autonomy (consider the case of Microsoft cutting off services for ICC members). To maintain autonomy – as well as competitiveness for all companies that wish to remain independent of a tech oligopoly – alternatives along all steps of the LLM supply chain have to be established. In this paper, we focus on the software side of this supply chain, starting at the end users interacting with AI tools, over the deployment of LLMs for these tools, the training of such LLMs, to the training data for this training. Starting from the most urgent recommendations at the end user side, we provide recommendations to promote human autonomy at each step of this supply chain.

    LLM-based Tools

    End users most immediately engage with LLMs via tools, most notably chat interfaces such as ChatGPT. To support digital autonomy of end users, we therefore need to make sure that they do not become dependent on certain tools but have alternatives. This is particularly urgent since any delay will mean that end users will become locked into platforms and products that use the usage fees and the accumulated (person-related) information to strengthen their market position even further.

    Hence, we need to offer alternatives for the most crucial tools, especially chat interfaces, research tools for scientific literature, as well as core educational tools such as AI plugins for digital learning platforms. Crucially, such tools should be hosted at universities themselves to avoid flows of person-related data to third parties and enable universities to design and adjust such tools to their research and teaching needs. Fortunately, this is achievable as the compute needs for the tools themselves are modest, as is demonstrated by many success stories of  universities hosting their own chat interface alternatives, e.g. via KI:connect.nrw[3] and HAWKI[4]. For literature search and AI plugins, developments are still in progress and urgently needed.

    We recommend to:

    • Provide project-based funding opportunities to develop new tools, both inside universities (e.g. via the Stiftung Innovation Hochschullehre) and beyond (e.g. via OpenSource development grants or ministry funding).
    • Set up permanent development teams at the state or federal level which can maintain tools (e.g. as OpenSource output of project based funding) that have proven crucial and develop them further. These could be embedded at AI competency hubs, as suggested by the “KI-Zukunftsfonds Hochschule”[5].
    • Equip universities with sufficient funding for permanent staff which can introduce tools at the university level (e.g. for RAG), and provide support and guidance to researchers, teachers, students and administrators how to utilize these tools responsibly (i.e., enhance AI literacy).

    LLM Deployment

    To enable LLM-based tools, LLMs must be available in the first place. In particular, this means copies of trained LLMs being deployed on powerful GPU servers which can respond to queries with low delay (a few seconds). Such deployment services can be bought from commercial providers – but this would make all tools (and hence their users) dependent on the AI oligopoly, again. Therefore, we urgently need alternative LLM deployment options. However, to make LLM deployment efficient, we need some level of centralization to profit from scaling effects and pooled expertise. High performance computing centers are, hence, the prime actors to provide this service. We also know that such deployments are achievable as GWDG in Göttingen[6] and OpenSourceKI.nrw[7] already provide success stories for effective and efficient deployment.

    In line with the notion of a “KI-Zukunftsfonds Hochschule”5, we recommend to:

    • Provide substantial funds to equip Tier 2 High Performance Computing Centers with GPU server infrastructure to deploy multiple parallel copies of state-of-the-art open weight LLMs (with ca. 100 bio. Parameters).
    • Provide Tier 2 High Performance Computing Centers withpermanent staff to operate this infrastructure, update the models as needed, and develop new APIs for tool development. For research and teaching, this will have to be funded by the state and federal level (e.g. via ministry funds). For private companies, parallel infrastructure may be set up as part of AI (Giga-)factories, such as HammerHAI[8], and re-finance itself via contracts.

    LLM Training

    In order to deploy LLMs, they need to be trained, first. Fortunately, several alternatives for open weight LLMs are provided by private actors (e.g. Llama models out of the US, DeepSeek out of China, or Mistral models out of France) with substantial investment. When deploying such pre-trained models, no data or power flows to the model creators and, due to alternatives being available, we avoid dependencies on single creators. Hence, there is no urgent need to train alternative models. However, there is no guarantee that open weight models will be continuously provided by private actors and the training practices themselves do not consistently respect principles of openness and autonomy[9]. Hence, we need to take steps to become capable to train LLMs, and to provide better training practices for LLMs without engaging in an “AI race”. Since building such capabilities is challenging and costly, we suggest to centralize this effort at the EU level. In more detail, we recommend to:

    • Provide substantial funds to equip at least one Tier 1/Tier 0 High Performance Computing Center with sufficient GPU infrastructure to train state-of-the-art LLMs at the order of 100 bio. Parameters. The JUPITER system[10] at FZ Jülich provides a good practice example in this regard.
    • Set up at least one large-scale training project with ca. 200 mio. EUR of funding for ca. 200 researchers and developers over ca. 3 years to demonstrate that open models can be trained. Such large-scale projects should pool expertise and staff across university research teams as well as research institutes and companies that have experience in training LLMs at the 8 bio. parameter level (e.g. Darmstadt[11]). The OpenEuroLLM[12] and Open GPT-X[13] initiatives may be starting points.

    LLM Training Data Collection

    Current LLM training operates on data that has been collected without consent, is strongly biased towards the US-based, male, white, internet-affine population and is badly curated, containing vast amounts of toxic or at least questionable data[14]. It also becomes increasingly clear that LLM development is limited by the fact that no further reservoirs of publicly accessible, high-quality texts will become available – everything that is available has already been used[15]. Hence, to provide a basis for autonomy-respecting training of LLMs in the future, we recommend to take first steps toward a long-term collection project for training data at the global level. More specifically, we recommend to:

    • Set up a ten-year, long-term, global data collection project to gather high-quality, curated text data from sources that are currently under-represented. This data should be gathered with explicit, informed consent for LLM training, guaranteeing that the resulting LLMs will be available as a commons. The data collection should consider both direct data donations by individual authors as well as negotiations with publishers and other text-owning institutions. The Common Pile project[16] may be a starting point.
    • Set up a network of data stewards and curators who implement this project and are funded under it, involving public libraries and NGOs (e.g. Wikimedia) with experience on licensing and maintaining open data. These data stewards should also ensure long-term data maintenance under the FAIR principles and should ensure that the data is only available for LLM training under a public commons license to prevent privatization without consent.

    Conclusion

    We emphasize that all these recommendations can be implemented in parallel to gain sufficient speed. First success stories and examples driven forward by competent actors are already available at every step. The only thing needed is political action to make a public AI infrastructure happen and, thus, significantly strengthen human digital autonomy in the AI age.


    [1] https://doi.org/10.1007/s10648-025-10020-8

    [2] https://doi.org/10.1007/978-981-97-8638-1_7 

    [3] https://kiconnect.pages.rwth-aachen.de/pages/

    [4] https://hawki.hawk.de/

    [5] https://www.stifterverband.org/sites/default/files/2025-02/ki-zukunftsfords_hochschulen_2026-2030.pdf 

    [6] https://gwdg.de/en/services/application-services/ai-services/

    [7] https://www.oski.nrw/

    [8] https://www.hlrs.de/press/detail/hammerhai-to-create-an-ai-factory-for-science-and-industry

    [9] https://doi.org/10.1145/3630106.365900

    [10] https://www.fz-juelich.de/de/aktuelles/news/pressemitteilungen/2025/europas-ki-turbo-jupiter-ai-factory

    [11] https://hessian.ai/supercomputer-for-cutting-edge-ai-research-in-hesse/

    [12] https://openeurollm.eu/

    [13] https://opengpt-x.de/en/

    [14] https://knowingmachines.org/models-all-the-way

    [15] https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

    [16] https://blog.eleuther.ai/common-pile/