Afleveringen
-
Wir sprechen mit Noah Hollman von Prior Labs, einem der Schöpfer von TabPFN (Tabular Prior Fitted Network), ĂŒber dieses bahnbrechende Foundation-Modell fĂŒr tabulare Daten. In der Diskussion geht es um die Funktionsweise von TabPFN, die Rolle von In-Context Learning, die Herausforderungen bei der Anwendung der Transformer-Architektur auf tabulare Daten sowie die Generierung synthetischer Daten mit strukturellen kausalen Modellen (SCMs). DarĂŒber hinaus beleuchten wir die beeindruckenden Benchmarking-Ergebnisse und zusĂ€tzliche Features des Modells. Zum Ende hin sprechen wir ĂŒber die offenen Herausforderungen von Prior Labs und welche "Moonshots" sie fĂŒr die Zukunft planen.
**Zusammenfassung:**
TabPFN ist ein Modell fĂŒr Vorhersagen auf tabellarischen Daten, entwickelt von Prior LabsEs nutzt In-Context Learning, um Aufgaben durch Sequenzen von Daten zu lernen, und wurde speziell fĂŒr die Transformer-Architektur angepasstTabPFN wurde mit 100 Millionen synthetischen DatensĂ€tzen, die durch strukturelle kausale Modelle (SCMs) generiert wurden, trainiertEs stellt einen neuen Benchmark dar und liefert starke Leistungen ĂŒber verschiedene DomĂ€nen hinwegDas Modell kann Unsicherheiten quantifizieren, mit fehlenden Werten umgehen und Outlier erkennenTabPFN ist auf Consumer-Hardware trainierbar, was die Entwicklung auch auf kleinen GPUs ermöglichtZukĂŒnftige Entwicklungen fokussieren sich auf Zeitreihen, KausalitĂ€t und multimodale Modelle**Links:**
Blog: TabPFN: Die KI-Revolution fĂŒr tabulare Daten https://www.inwt-statistics.de/blog/tabpfn-die-ki-revolution-fuer-tabulare-datenNature Publikation zu tabPFN aus 2025: https://www.nature.com/articles/s41586-024-08328-6Artikel ĂŒber tabPFN in Fortune: https://fortune.com/2025/02/05/prior-labs-9-million-euro-preseed-funding-tabular-data-ai/Nature News & views von Duncan C. McElfresh: https://www.nature.com/articles/d41586-024-03852-xZeit fĂŒr Unternehmer: https://www.zeit.de/zeit-fuer-unternehmer/2025/01/kuenstliche-intelligenz-tabpfn-tabellen-daten?freebie=a67d9166Publikation zu tabICL: https://arxiv.org/abs/2502.05564frĂŒher Hintergrund-Artikel zur Transformers Architektur fĂŒr Bayesianische Inferenz : https://arxiv.org/abs/2112.10510frĂŒheres Working Paper zu tabPFN: https://arxiv.org/abs/2207.01848GitHub Repo zu tabPFN: https://github.com/PriorLabs/TabPFNHomepage Prior Labs: https://priorlabs.ai/#71: Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek https://www.podbean.com/ew/pb-p2wjd-1897b7eFeedback, Fragen oder ThemenwĂŒnsche gern an [email protected] -
In dieser Folge geht's um die Frage: Macht GröĂe von Large Language Models (LLMs) bei Predictive Analytics wirklich einen Unterschied? Wir vergleichen Open-Source-Modelle mit bis zu 70 Milliarden Parametern â und siehe da, das 8B-Modell schlĂ€gt das groĂe Schwergewicht. AuĂerdem berichten wir vom Finetuning auf einer AWS-Maschine mit 8 A100-GPUs und den Herausforderungen in Bezug auf die Reproduzierbarkeit. Auch das viel diskutierte DeepSeek-Modell haben wir im Autopreis-Benchmark antreten lassen. Und wie immer fragen wir uns: Was ist praktisch und was ist overkill?
**Zusammenfassung**
ModellgröĂe â bessere Prognosen: Das Llama-3.1-8B ĂŒbertraf das gröĂere 70B-Modell bei der FahrzeugpreisprognoseDeepSeek im Benchmark: Das chinesische Modell zeigt bei gröĂeren Trainingsmengen eine Ă€hnlich gute Performance wie das Llama-3.1-8B, ist bei kleinen DatensĂ€tzen aber schwĂ€cherFinetuning mit Multi-GPU auf AWS: FĂŒr das 70B-Modell war ein Setup mit 8 A100-GPUs nötigReproduzierbarkeit bleibt schwierig: Trotz Seed erzeugen wiederholte Finetuning-Runs unterschiedliche ErgebnisseModellselektion empfohlen: Um zuverlĂ€ssige Prognosen zu erhalten, sollte aus mehreren Finetuning-DurchlĂ€ufen das beste Modell ausgewĂ€hlt werdenCPU-Inferenz möglich, aber langsam: Im Vergleich zur GPU war die Vorhersage auf der CPU ca. 30-mal langsamer, Quantisierung könnte kĂŒnftig Abhilfe schaffenAusblick auf TabPFN & Quantisierung: Kommende BeitrĂ€ge widmen sich Erfahrungen mit TabPFN und der praktischen Umsetzung von quantisierten LLMs auf kleineren Maschinen**Links**
[Begleitender Blogartikel] Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek https://www.inwt-statistics.de/blog/predictive-llms-skalierung-reproduzierbarkeit-und-deepseek#50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost? https://inwt.podbean.com/e/50-predictive-analytics-mit-llms-ist-gpt35-besser-als-xgboost/#64: Predictive LLMs: Ăbertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen https://inwt.podbean.com/e/64-predictive-llms-ubertreffen-open-source-modelle-jetzt-openai-und-xgboost-bei-preisprognosen/vLLM Framework fĂŒr schnelle Inferenz: https://github.com/vllm-project/vllm?tab=readme-ov-filetorchtune Finetuning-Framework von PyTorch: https://github.com/pytorch/torchtunePyTorch Reproducibility: https://pytorch.org/docs/stable/notes/randomness.htmlPaper zur Reproduzierbarkeit von QLoRA-Finetuning: S. S. Alahmari, L. O. Hall, P. R. Mouton and D. B. Goldgof, "Repeatability of Fine-Tuning Large Language Models Illustrated Using QLoRA," in IEEE Access, vol. 12, pp. 153221-153231, 2024, doi: 10.1109/ACCESS.2024.3470850 https://ieeexplore.ieee.org/document/10700744heise online: Komprimierte KI: Wie Quantisierung groĂe Sprachmodelle verkleinert von RenĂ© Peinl https://www.heise.de/hintergrund/Komprimierte-KI-Wie-Quantisierung-grosse-Sprachmodelle-verkleinert-10206033.htmldeepseek-ai/DeepSeek-R1-Distill-Llama-8B auf Huggingface https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B#6-how-to-run-locallyTabPFN: Hollmann, N., MĂŒller, S., Purucker, L. et al. Accurate predictions on small data with a tabular foundation model. Nature 637, 319â326 (2025). https://doi.org/10.1038/s41586-024-08328-6 Feedback, Fragen oder ThemenwĂŒnsche gern an [email protected] -
Zijn er afleveringen die ontbreken?
-
Wie datenreif ist dein Unternehmen eigentlich? Wir sprechen ĂŒber die fĂŒnf Stufen der Data Maturity â von manueller Datensammlung bis zur KI als Teil der Unternehmenskultur. Dabei geht es auch um die Rolle der Organisation, warum viele beim âDeath by Dashboardsâ hĂ€ngenbleiben und wie man echte Fortschritte macht. Und wir diskutieren, welche AbkĂŒrzungen auf diesem Weg funktionieren â und welche eher nach hinten losgehen.
**Zusammenfassung**
Data Maturity Skala: FĂŒnf Stufen von manueller Datennutzung bis zu datengetriebener Kultur mit AI/ML â viele Unternehmen stecken noch in den unteren Bereichen festOrganisationskultur als SchlĂŒssel: Kultur bestimmt maĂgeblich, wie datenreif ein Unternehmen wird â HiPPO-Denke (Highest Paid Person's Opinion), Risikoaversion und fehlende Offenheit sind hĂ€ufige BremsklötzeTypische HĂŒrden: Datensilos, fehlendes QualitĂ€tsbewusstsein, "Death by Dashboards" und Projekte ohne echten ErkenntnisgewinnAufbau von Datenreife: Kombination aus Top-Down-Initiativen und Bottom-up-Leuchtturmprojekten, ergĂ€nzt durch agile VorgehensweisePoC â MVP â Produkt: Datenprojekte sollten in kurzen, klar umrissenen Phasen geplant und bei fehlendem Nutzen auch konsequent gestoppt werdenAbkĂŒrzungen und Workarounds: Externe Daten, simulierte Daten oder cloudbasierte Infrastruktur können helfen â bergen aber auch Risiken fĂŒr Aussagekraft und AkzeptanzData Mesh & Self-Service BI: Nur sinnvoll bei entsprechender Datenkultur â sonst droht mehr Chaos als Erkenntnisgewinn**Links**
Maturity Model mit 5 Stufen von Gartner: Gartner Survey Shows Organizations Are Slow to Advance in Data and Analytics https://www.gartner.com/en/newsroom/press-releases/2018-02-05-gartner-survey-shows-organizations-are-slow-to-advance-in-data-and-analytics#61: Technologische Must-Haves: Unser Survival-Guide fĂŒr Data-Science-Projekte https://www.podbean.com/ew/pb-k6fx5-175ea51#36: Der Data Mesh Hype und was davon bleibt https://www.podbean.com/ew/pb-7er7v-15080c1Feedback, Fragen oder ThemenwĂŒnsche gern an [email protected] -
AI Agents sind mehr als nur Chatbots â aber wie bewertet man sie richtig? Wir sprechen ĂŒber die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos fĂŒhren und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. MatthĂ€us Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative AnsĂ€tze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. AuĂerdem: welche Metriken wirklich zĂ€hlen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verĂ€ndert.
Zusammenfassung
AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonbereich, durch GenAI-basierte, dynamische LösungenParloa demonstriert flexible Plattformintegrationen und den Einsatz von Evaluationsmethoden wie assertion-based Testing und SimulationenDie Evaluation von AI Agents erfordert spezielles Benchmarking auf Plattform- und individueller EbeneTypische Herausforderungen sind Integrationsprobleme, fehlerhafte API-Calls und unzureichendes Instruction FollowingTests erfolgen sowohl auf Konversationsebene als auch durch deterministische AnsĂ€tze und LLMs als JudgeEs mĂŒssen komplexe Metriken und Trade-offs beachtet werden, wobei hĂ€ufig binĂ€re TestansĂ€tze aggregiert werdenSchnelle Updates auf neue Modellversionen sind möglich, allerdings steigen langfristig die Kosten durch umfangreiche TestzyklenInnovationen wie optimierte Speech-to-Speech-Technologien und Open-Source-Lösungen (z.âŻB. DeepSeek) bieten Potenzial zur KostenreduktionDer Einsatz von Operatoren-Modellen und Tool-Integrationen ermöglicht auch die Anbindung an Legacy-Systeme, z.B. SAPZiel ist es, den Automatisierungsanteil im Kundenservice zu erhöhen und eine Balance zwischen bewĂ€hrter QualitĂ€t und neuen Features zu findenLinks
MatthĂ€us Deutsch auf LinkedIn: https://www.linkedin.com/in/matth%C3%A4us-d-928864ab/Parloa Contact-Center-AI-Plattform https://www.parloa.com/de/Stellenangebote bei Parloa https://www.parloa.com/company/careers/#jobs#55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit MatthĂ€us Deutsch https://www.podbean.com/ew/pb-6gvc6-16d5018#64: Predictive LLMs: Ăbertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen? https://www.podbean.com/ew/pb-m5qr2-17c425dheise online: "Aromatisches" Chloramingas, Eintopf aus Menschenfleisch: KI-Rezepte irritieren https://www.heise.de/news/Aromatisches-Chlorgas-Eintopf-aus-Menschenfleisch-KI-irritiert-mit-Rezepten-9242991.htmlFeedback, Fragen oder ThemenwĂŒnsche gern an [email protected] -
Daten(banken) versionieren â klingt maximal unsexy, spart aber Stress im Deployment. Warum ohne Schema-Versionierung selbst kleine Ănderungen groĂe Probleme verursachen und was ORMs, Flyway oder Liquibase damit zu tun haben, erfahrt ihr hier. Daten historisieren ist ein Must-have fĂŒr Compliance, Reproduzierbarkeit und Modellierung. Aber Achtung: Nicht jede Lösung passt fĂŒr jede Datenbank und den Live-Betrieb. Wir geben Tipps, wie ihr eure Datenprodukte systematisch und effizient im Griff behaltet.
**Zusammenfassung**
Schema-Versionierung ist essenziell, um Ănderungen an Datenbanken nachvollziehbar und reibungslos ins Deployment einzubindenFehlende Versionierung kann zu kaputten Prozessen fĂŒhren, wenn Schema-Ănderungen nicht dokumentiert und automatisiert umgesetzt werdenWerkzeuge wie ORMs, Flyway oder Liquibase helfen dabei, Ănderungen an Datenbankschemata strukturiert zu verwaltenHistorisierung von Daten ist fĂŒr Compliance, Reproduzierbarkeit und Modellierung entscheidend AnsĂ€tze zur Datenhistorisierung: Append-only-Strategien vs. System-VersionierungHerausforderungen: Performance-EngpĂ€sse, hohe Pflegekosten und KompatibilitĂ€tsprobleme je nach Datenbank und Migrationstool Best Practices: Versionierung systematisch einfĂŒhren, Automatisierung priorisieren und sicherstellen, dass Downgrades funktionieren.**Links**
#58: Arm, aber sexy: Data Warehousing at Scale ohne Budget https://www.podbean.com/ew/pb-gywt4-1719aef#52: In-process Datenbanken und das Ende von Big Data https://www.podbean.com/ew/pb-tekgi-16896e4#36: Der Data Mesh Hype und was davon bleibt https://www.podbean.com/ew/pb-7er7v-15080c1Flyway: https://www.red-gate.com/products/flyway/Liquibase: https://www.liquibase.com/Alembic (fĂŒr SQLAlchemy): https://alembic.sqlalchemy.org/en/latest/MariaDB: https://mariadb.org/ClickHouse: https://clickhouse.com/Fragen, Feedback und ThemenwĂŒnsche gern an [email protected] -
Dieser Satz "it works on my machine" hat IT-Teams und Data Scientists lange Nerven gekostet. FrĂŒher war Deployment ein mĂŒhsames Zusammenspiel aus Setup-Anleitungen, inkompatiblen Umgebungen und endlosen RĂŒckfragen. Docker bringt endlich Ordnung ins Chaos: Anwendungen laufen isoliert, reproduzierbar und unabhĂ€ngig vom Host-System. Warum Containerisierung fĂŒr Data Science ein echter Gamechanger ist und welche Best Practices du kennen solltest, erfĂ€hrst du in dieser Folge!
Zusammenfassung
FrĂŒher war Deployment umstĂ€ndlich: lange Setup-Anleitungen, inkompatible Umgebungen, viele RĂŒckfragen Virtuelle Maschinen haben das Problem teilweise gelöst, sind aber ressourcenintensiv und unflexibelData Scientists arbeiten oft mit R/Python, was IT-Abteilungen vor Herausforderungen stelltFehlende Reproduzierbarkeit fĂŒhrt zu Stress, Verzögerungen und hohem KommunikationsaufwandDocker schafft eine standardisierte, isolierte und reproduzierbare Umgebung fĂŒr AnwendungenContainer laufen direkt auf dem Host-OS, sind schlanker als VMs und starten schnellerMit Dockerfiles lassen sich Umgebungen als Code definieren und automatisch deployenBest Practices: schlanke Base-Images, .dockerignore, nur benötigte AbhĂ€ngigkeiten installierenAutomatisierung mit CI/CD-Pipelines beschleunigt den Entwicklungs- und Deploy-ProzessContainerisierung ist fĂŒr moderne Data-Science-Workflows unverzichtbar und spart IT sowie Data Science viel ZeitLinks
Offizielle Docker Dokumentation https://docs.docker.com/Docker Hub https://hub.docker.com/[Blog] Die Welt der Container: EinfĂŒhrung in Docker https://www.inwt-statistics.de/blog/die-welt-der-container-einfuehrung-in-docker[Podcast] #14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7[Podcast] #59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen https://www.podbean.com/ew/pb-txhnf-17314de[Video] Solomon Hykes stellt Docker vor (2013) "The future of Linux Containers" https://www.youtube.com/watch?v=wW9CAH9nSLs&t=158sFragen, Feedback und ThemenwĂŒnsche gern an [email protected] -
Warum knirscht es immer wieder zwischen Data Scientists und Developern? In dieser Episode holen wir uns VerstĂ€rkung von Andy und Wolfi vom Engineering Kiosk Podcast um dieser Frage auf den Grund zu gehen. Wir reden ĂŒber typische Klischees und warum diese zu Konflikten fĂŒhren. Gemeinsam sprechen wir darĂŒber, welche Skills helfen, damit beide Spezies am Ende harmonisch zusammenarbeiten können â statt sich gegenseitig auszubremsen.
Zusammenfassung
Klischees und Konflikte: Stereotype ĂŒber Data Scientists (Jupyter-Fans, Doktortitel) und Developer (Perfektionismus, Black-Box-Furcht)Teamorganisation: Cross-funktionale Teams vs. getrennte Abteilungen (Vor- und Nachteile, Agenturmodell)Typische Herausforderungen: Ăbergabe von Prototypen an die Entwicklung, VerstĂ€ndnis von SLAs/Responsezeiten, DatenbankauswahlSkill-Set und Zusammenarbeit: Generalistisches Grundwissen in DevOps und Softwarearchitektur, offenes MindsetLinks
Engineering Kiosk Podcast: https://engineeringkiosk.dev/Andy Grunwald auf LinkedIn: https://www.linkedin.com/in/andy-grunwald-09aa265a/Wolfgang Gassler auf LinkedIn: https://www.linkedin.com/in/wolfganggassler/[Engineering Kiosk] #179 MLOps: Machine Learning in die Produktion bringen mit Michelle Golchert und Sebastian Warnholz https://engineeringkiosk.dev/podcast/episode/179-mlops-machine-learning-in-die-produktion-bringen-mit-michelle-golchert-und-sebastian-warnholz/[Engineering Kiosk] #178 Code der bewegt: Infotainmentsysteme auf Kreuzfahrtschiffen mit Sebastian Hammerl https://engineeringkiosk.dev/podcast/episode/178-code-der-bewegt-infotainmentsysteme-auf-kreuzfahrtschiffen-mit-sebastian-hammerl/[Engineering Kiosk] #177 Stream Processing & Kafka: Die Basis moderner Datenpipelines mit Stefan Sprenger https://engineeringkiosk.dev/podcast/episode/177-stream-processing-kafka-die-basis-moderner-datenpipelines-mit-stefan-sprenger/[Data Science Deep Dive] #30: Agile Softwareentwicklung im Data-Science-Kontext https://www.podbean.com/ew/pb-mvspn-1482ea4[Data Science Deep Dive] #23: Unsexy aber wichtig: Tests und Monitoring https://www.podbean.com/ew/pb-vxp58-13f311a[Data Science Deep Dive] #20: Ist Continuous Integration (CI) ein Muss fĂŒr Data Scientists? https://www.podbean.com/ew/pb-4mkqh-13bb3b3Fragen, Feedback und ThemenwĂŒnsche gern an [email protected] -
Punktprognosen sind was fĂŒr Leute, die gerne enttĂ€uscht werden ;) Wir befassen uns in dieser Episode mit der Quantifizierung und Kommunikation von Unsicherheit bei Prognosen. Dabei gehen Mira und Amit auf klassische Statistik, Bayes-Methoden, Machine Learning, Bootstrapping und Conformal Predictions ein. AuĂerdem gehen sie auf Herausforderungen der Data Literacy und bei rechenintensiven AnsĂ€tzen zur Bestimmung der Unsicherheit ein.
Zusammenfassung
Warum Unsicherheiten unverzichtbar sind (Beispiel Wetter-, Wahl-, Bewerberprognosen)Klassische Statistik: Konfidenzintervall vs. Prediction IntervallBayesianische Sicht: GlaubwĂŒrdigkeitsintervalleML-Methoden ohne Verteilungsannahmen: Bootstrapping & Conformal PredictionsRechenaufwand vs. ModellannahmenData Literacy als SchlĂŒssel zum richtigen Interpretieren von PrognoseintervallenPraxisnahe Beispiele und EntscheidungshilfenLinks
#10: Signifikanz https://www.podbean.com/ew/pb-y25ti-12fab65#44: Lineare Regression in der Praxis â Oldie oder Goldie? https://www.podbean.com/ew/pb-jiecf-15d0ac1#56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025? https://www.podbean.com/ew/pb-hwgnd-16e446eWer gewinnt die Bundestagswahl 2025? www.wer-gewinnt-die-wahl.deMolnar (2023): Introduction To Conformal Prediction With Python. A Short Guide For Quantifying Uncertainty Of Machine Learning Models.Sammlung von Ressourcen zu Conformal Predictions https://github.com/valeman/awesome-conformal-prediction/Feedback, Fragen oder ThemenwĂŒnsche gern an [email protected] -
Teil 2 unseres Preisprognose-Experiments fĂŒr Gebrauchtfahrzeuge: Können Open-Source-LLMs wie Llama 3.1, Mistral und Leo-HessianAI mit GPT-3.5 mithalten? Wir haben fleiĂig gefinetuned, bis die Motoren qualmten â und es zeigt sich, dass die Unterschiede gar nicht mehr so groĂ sind. Mit ausreichend vielen Trainingsbeobachtungen nĂ€hern sich die Open-Source-Modelle den Ergebnissen von GPT-3.5 an und können es in einzelnen Metriken sogar ĂŒbertreffen. FĂŒr das Finetuning gröĂerer Modelle sind jedoch auch leistungsfĂ€hige GPUs notwendig, was die Ressourcenanforderungen deutlich erhöht. In der Folge beleuchten wir, welchen Mehrwert diese Open-Source-LLMs fĂŒr praxisnahe Use Cases liefern und welche Herausforderungen dabei auftreten.
Zusammenfassung:
Vergleich von OpenAI GPT-3.5 und drei Open-Source-LLMs (Llama 3.1, Mistral 7B, Leo-HessianAI)Finetuning der Modelle auf lokalen DatenErgebnisse: Open-Source-LLMs sind bei gröĂerem Trainingsdatensatz fast so gut wie GPT-3.5XGBoost hinkt etwas hinterher, da Freitexte hier nicht einbezogen wurdenWichtige Faktoren: BatchgröĂe, Trainingsschritte, Speicherbedarf und Nutzung von Lora-FinetuningBeim Einsatz von Open Source ist mehr Handarbeit nötig, dafĂŒr bleibt alles on-premiseOpenAI punktet durch Einfachheit und hohe QualitĂ€t ohne groĂen DatenbedarfFrameworks wie Huggingface, Mistral Codebase und Torchtune unterstĂŒtzen das FinetuningAusblick: gröĂere LLMs mit Multi-GPU, multimodale Daten und Unsicherheitsquantifizierung***Links***
[Blog] Predictive LLMs: Ăbertreffen Open-Source-Modelle OpenAI bei Preisprognosen? https://www.inwt-statistics.de/blog/predictive-llms-uebertreffen-os-modelle-openai-bei-preisprognosen[Podcast] #50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost? https://www.podbean.com/ew/pb-n6wem-165cb2c[Blog] Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern[Podcast] #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage https://www.podbean.com/ew/pb-vw736-15baac0[Link] Llama-3.1-8B-Instruct auf Huggingface https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct- [Link] Mistral-7B-Instruct-v0.3 auf Huggingface https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3[Link] Mistral 7B Release Notes https://mistral.ai/news/announcing-mistral-7b/[Link] leo-hessianai-7b auf Huggingface https://huggingface.co/LeoLM/leo-hessianai-7b[Link] The Hessian Center for Artificial Intelligence https://hessian.ai/de/[Docs] LangChain: How to return structured data from a model https://python.langchain.com/docs/how_to/structured_output/#the-with_structured_output-method[Link] Wie hoch sind die Treibhausgasemissionen pro Person in Deutschland durchschnittlich? https://www.umweltbundesamt.de/service/uba-fragen/wie-hoch-sind-die-treibhausgasemissionen-pro-person#:~:text=Der%20deutsche%20Aussto%C3%9F%20an%20Treibhausgasen,sehr%20gro%C3%9Fe%20Unterschiede%20im%20Konsumniveau. -
âData Miningâ â klingt nach Staub und Schaufeln, ist aber der SchlĂŒssel zur Mustererkennung in Daten! Wir diskutieren, warum einfache Methoden oft besser sind als fancy KI-Lösungen, besonders bei niedriger Datenreife. AuĂerdem: Wie man nachhaltigen Mehrwert schafft, ohne sich in Dashboards zu verlieren, und welche Skills und Tools wirklich zĂ€hlen. Hilfreich fĂŒr alle, die effektiv mit Daten arbeiten wollen.
Zusammenfassung
Data Mining: Definition und Bedeutung als pragmatischer Ansatz zur MustererkennungHerausforderungen: Niedrige Datenreife und der Druck, âfancyâ Methoden einzusetzenLösungsansĂ€tze: BewĂ€hrte Methoden wie Statistik, Visualisierungen und Anomaly DetectionNachhaltigkeit: Optimierte Prozesse und ressourcenschonende Lösungen als KernnutzenSkills und Tools: Analytisches Denken, Statistik, Programmierkenntnisse, sowie Tools aus dem Bereich Business Intelligence und Programmiersprachen wie R & PythonFehler vermeiden: DatenqualitĂ€t, Vermeidung von Confirmation Bias und sinnvolle Nutzung von Dashboards***Links***
Prof. Dr. Ana Moya auf LinkedIn: https://www.linkedin.com/in/doc-moya/International School of Management (ISM) https://en.ism.de/INFOMOTION GmbH https://www.infomotion.de/Power BI https://www.microsoft.com/de-de/power-platform/products/power-bi?market=deTableau https://www.tableau.com/Python https://www.python.org/R https://www.r-project.org/Fragen, Feedback und ThemenwĂŒnsche gern an [email protected] -
Kafka, aber in R? Das geht jetzt! In dieser Folge klĂ€ren wir, warum Kafka fĂŒr schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofĂŒr braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus!
Zusammenfassung
Apache Kafka als schnelles, ausfallsicheres System fĂŒr Event-Streaming und DatenströmeEinsatzbereiche: Ăberall wo Daten fortlaufend und in Echtzeit verarbeitet werdenUnser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg ĂŒber PythonFeatures: Consumer/Producer-Modelle, asynchrone Datenverarbeitung, hohe Performance und AusfallsicherheitAusblick: Veröffentlichung auf CRAN, Admin-Client fĂŒr Cluster-Management, Blogartikel mit Beispiel (siehe unten in den Links)Links
Apache Kafka https://kafka.apache.org/Confluent https://www.confluent.io/Rcpp (CRAN) https://cran.r-project.org/web/packages/Rcpp/index.htmlreticulate (CRAN) https://cran.r-project.org/web/packages/reticulate/index.htmlR Paket kafka auf GitHub https://github.com/INWTlab/r-kafka Blogartikel zum R Paket kafka https://www.inwt-statistics.de/blog/r-paket-kafkanats https://nats.io/Azure EventHub https://azure.microsoft.com/de-de/products/event-hubsRedpanda https://www.redpanda.com/Fragen, Feedback und ThemenwĂŒnsche gern an [email protected] -
Zusammenfassend unsere Must-Haves:
Datenbank / DWH Lösung zur DatenvisualisierungMöglichkeit, unkompliziert zu entwickeln (lokal oder im Web)Versionskontrolle / CI/CDDeployment-LösungTrennung von Entwicklungs- und ProduktivumgebungMonitoring fĂŒr Modell & RessourcenVerwandte Podcast-Episoden
Folge #2: Erfolgsfaktoren fĂŒr Predictive Analytics Projekte
Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh
Folge #20: Ist Continuous Integration (CI) ein Muss fĂŒr Data Scientists?
Folge #21: Machine Learning Operations (MLOps)
Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack
Folge #35: Erfolgsfaktoren fĂŒr Machine Learning Projekte mit Philipp Jackmuth von dida
Folge #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage
Folge #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?
Technologien & Tools
Datenvisualisierung: Azure Databricks, AWS Quicksight, Redash
Entwicklungsumgebung: VSCode, INWT Python IDE V2, Remote Explorer, Pycharm
Versionskontrolle: GitHub, GitLab, Azure DevOps
CI/CD: GitHub Actions, GitLab CI, Jenkins
Deployment: Kubernetes, Docker, Helm, ArgoCD
Experiment-Tracking: MLFlow, DVC, Tensorboard
Monitoring: Prometheus, Grafana, AWS Cloudwatch
-
Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein â oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen ĂŒber die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: FlexibilitĂ€t und Generalismus sehen wir als wichtige Eigenschaften fĂŒr die Zukunft!
***Links***
#4: Job-Profile & Arbeitsmarkt https://www.podbean.com/ew/pb-aurkr-126887d https://de.wikipedia.org/wiki/Hype-ZyklusFragen, Feedback und ThemenwĂŒnsche gern an [email protected] -
Helm auf und los gehtâs! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben â Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger fĂŒr eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. FĂŒr alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge.
***Links***
#14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7#28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten https://www.podbean.com/ew/pb-we2f3-145e5fe#38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen https://www.podbean.com/ew/pb-u5qsn-1548784https://helm.sh/https://kubernetes.io/https://argo-cd.readthedocs.io/en/stable/Fragen, Feedback und ThemenwĂŒnsche gern an [email protected] -
Dies ist ein Gedankenexperiment, das euch zeigt, wie man mit wenig Budget und minimaler Hardware eine clevere self-service Umgebung bastelt, die auf dem Laptop oder einer gĂŒnstigen Cloud-Instanz lĂ€uft. Wir sprechen darĂŒber wie so ein Stack aussehen kann (Storage Layer, Data Layer, Compute Layer) und welche Anwendungsszenarien es gibt, aber auch wo die Grenzen bei einem solchen Szenario liegen.
***Links***
#52: In-process Datenbanken und das Ende von Big Data https://www.podbean.com/ew/pb-tekgi-16896e4Engineering Kiosk - #129 Simplify Your Stack: Files statt Datenbanken! https://engineeringkiosk.dev/podcast/episode/129-simplify-your-stack-files-statt-datenbanken/https://delta.io/https://ibis-project.org/https://duckdb.org/ -
In dieser Episode sprechen wir mit Dr. Andreas Kerschbaumer, Umweltexperte beim Berliner Senat, ĂŒber unsere Luftschadstoffprognose und warum Berlin immer noch dringend sauberere Luft braucht. Andreas erklĂ€rt, wie Machine Learning hilft, die Luftverschmutzung vorherzusagen und welche Rolle klassische Methoden (CTMs) dabei spielen. Wir vergleichen den neuen Machine-Learning-Ansatz mit dem traditionellen und diskutieren, welche Vor- und Nachteile sie mit sich bringen. AuĂerdem verraten Mira und Andreas, was sie in diesem spannenden Projekt gelernt haben.
***Links***
Digitale Plattform Stadtverkehr Berlin: https://viz.berlin.de/site/_masterportal/berlin/index.html (fĂŒr die Prognosen kann oben links Themen > Fachdaten > Umwelt ausgewĂ€hlt werden)Episode #12: Use Case - Luftschadstoffprognose fĂŒr Berlin https://www.podbean.com/ew/pb-j24xm-1321244Business Case: Customized Stack zur automatisierten Luftschadstoffprognose in Berlin https://www.inwt-statistics.de/blog/business_case_luftschadstoffprognose -
Vor der Bundestagswahl 2017 haben wir begonnen, ein Prognosemodell fĂŒr den Wahlausgang zu entwickeln â und seitdem stĂ€ndig verbessert. Heute prĂ€sentieren wir tĂ€glich aktualisierte Prognosen, die Verzerrungen einzelner Wahlumfragen korrigieren und das Wahlverhalten am Wahltag vorhersagen. Mit bayesianischen Modellen liefern wir Wahrscheinlichkeiten zur Regierungsbeteiligung und anderer Ereignisse und stellen sie auf wer-gewinnt-die-wahl.de bereit.
***Links***
Website: Wer gewinnt die Wahl 2025? https://wer-gewinnt-die-wahl.de/deBusiness Case: Bayes'sches Prognosemodell fĂŒr die Bundestagswahl https://inwt-statistics.de/blog/business_case_wahlprognoseBundestagswahl 2021: Wie gut waren unsere Wahlprognosen? https://inwt-statistics.de/blog/bundestagswahl-2021-wie-gut-waren-unsere-wahlprognosenPodcast Learning Bayesian Statistics von Alexandre Andorra: #52 Election forecasting models in Germany, with Marcus GroĂ (09.12.2021) https://learnbayesstats.com/episode/52-election-forecasting-models-germany-marcus-gross/Blog: Das Schlechteste an Wahlprognosen: Wie wir mit ihnen umgehen (Stefan Niggemeier, 13.11.2016) https://uebermedien.de/9664/das-schlechteste-an-wahlprognosen-wie-wir-mit-ihnen-umgehen/fivethirtyeight: https://projects.fivethirtyeight.com/Wahlrecht.de: https://www.wahlrecht.de/ -
Warum ist XGBoost seit Jahren das Tool der Wahl, wenn es um tabulare Daten geht? Mira spricht zusammen mit MatthĂ€us Deutsch darĂŒber, warum XGBoost State of the Art ist und was es so erfolgreich macht. AuĂerdem: Wie schlĂ€gt sich XGBoost im Vergleich zu Deep Learning? Und gibt es ĂŒberhaupt bessere Alternativen?
**Links**
Kaggle AI Report 2023: https://storage.googleapis.com/kaggle-media/reports/2023_Kaggle_AI_Report.pdf?trk=public_post_comment-textXGBoost Documentation: https://xgboost.readthedocs.io/en/stable/Hastie, T.; Tibshirani, R. & Friedman, J. (2009), The elements of statistical learning: data mining, inference and prediction , Springer (ISBN: 0387848576) -
Online vs. Offline Serving â welcher Ansatz ist besser? Wir besprechen, wie du dein Modell erfolgreich in die Produktion bringst und eine passende Datenschnittstelle deployst. Dazu gibtâs Tipps zu den Tools, die uns dabei helfen, wie FastAPI, Docker und Kubernetes. AuĂerdem erfĂ€hrst du, worauf du bei der Automatisierung und beim Handling vieler Modelle achten solltest.
**Links**
Buch: Designing Machine Learning Systems by Chip Huyen https://www.oreilly.com/library/view/designing-machine-learning/9781098107956/Fragen, Feedback und ThemenwĂŒnsche gern an [email protected] -
In dieser Episode von Data Science Deep Dive sprechen Mira und Wolf-Gideon ĂŒber das Agile Fluency Model und dessen Bedeutung im Data-Science-Kontext. Im Fokus stehen die verschiedenen Stufen der AgilitĂ€t sowie die damit verbundenen Vorteile und notwendigen Investitionen. Wolf-Gideon erklĂ€rt, wie man den optimalen AgilitĂ€tsgrad fĂŒr ein Team ermittelt und welche Praktiken dabei relevant sind. ***Links***Buch von Henning Wolf und Wolf-Gideon Bleek (2010): Agile Softwareentwicklung: Werte, Konzepte und Methoden (ISBN: 978-3-89864-701-4)it-agile Webseite https://www.it-agile.de/Mehr Infos zu Wolf-Gideon Bleek auf der Seite von it-agile: https://www.it-agile.de/ueber-it-agile/das-team/dr-wolf-gideon-bleek/Manifest fĂŒr Agile Softwareentwicklung https://agilemanifesto.org/iso/de/manifesto.htmlAgile Fluency Project (EN) https://www.agilefluency.org/Artikel: The Agile Fluency Model - A Brief Guide to Success with Agile von James Shore & Diana Larsen (EN) https://martinfowler.com/articles/agileFluency.htmlBuch: Company-wide Agility with Beyond Budgeting, Open Space & Sociocracy von Jutta Eckstein & John Buck https://www.agilebossanova.com/Feedback, Fragen oder ThemenwĂŒnsche? Schreib uns gern an [email protected]
- Laat meer zien