Feb 09 2025 44 mins 6
Willem Meints, Chief AI Architect bij Aigency, bespreekt de technische innovaties achter DeepSeek in deze aflevering van AIToday Live. DeepSeek is een Chinees taalmodel dat de trainingskosten aanzienlijk heeft weten te verlagen.
Het model bestaat uit verschillende onderdelen, waaronder een chatbot-website, een onderliggend taalmodel en een speciaal reasoning model voor complexe taken. DeepSeek maakt gebruik van synthetische trainingsdata, efficiënter geheugengebruik en geautomatiseerde feedback om kosten te besparen.
De hosts bespreken de implicaties van deze ontwikkelingen voor de AI-industrie. De verlaging van trainingskosten kan leiden tot meer diversiteit in de ontwikkeling van taalmodellen.
Onderwerpen
- Technische innovaties achter DeepSeek
- Verlaging van trainingskosten van AI-modellen
- Gebruik van synthetische trainingsdata
- Verschil tussen closed-source en open-source modellen
- Implicaties van lagere kosten voor de ontwikkeling van taalmodellen
- Paper: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- Nieuwsbrief: Jarno Duursma
- Podcast: AIToday Live podcast
- DeepSeek Model: Hugging Face
- Software: Jan.ai - Desktop GPT applicatie
- Software: Open WebUI - Lokale webinterface voor AI modellen
- Software: Ollama - Model Download Tool
- Artikel: Dario van Anthropic over DeepSeek
- Kaartspel: AI Game Changer - Generative AI editie
Genoemde entiteiten: DeepSeek - GPT-4
AigencyAigency ontwerpt en ontwikkelt waardevolle, robuuste en betrouwbare Machine Learning-modellen.
Info Support
Info Support is de specialist in maatwerk software en leidend in kunstmatige intelligentie (AI).
Disclaimer: This post contains affiliate links. If you make a purchase, I may receive a commission at no extra cost to you.
Schrijf je in voor onze nieuwsbrief en ontvang exclusieve toegang tot nieuws, blik achter de schermen en meer!