Bienvenue sur mon portfolio

Séphora MITOSSEDE

// Data Analyst // Data Scientist

À propos de moi

Séphora MITOSSEDE

Data Analyst & Data Scientist spécialisée en analyse statistique et machine learning, je conçois des solutions data pour transformer les données en leviers de décision. Mon profil allie rigueur quantitative, maîtrise des outils data et compréhension des enjeux métiers, avec une intervention sur l’ensemble de la chaîne de valeur, de la préparation des données à la modélisation et à la restitution des résultats.

mitossedes@gmail.com
Rennes, France

Expertises & Solutions Data

1

Statistiques appliquées

Stack

  • Python (Pandas, NumPy, Statsmodels)
  • R (tidyverse)
  • SQL

Compétences

  • Analyse statistique et économétrique
  • Inférence et tests statistiques
  • Interprétation des résultats
2

Machine Learning & modélisation prédictive

Stack

  • Python (scikit-learn, XGBoost, LightGBM)
  • R (tidymodels)
  • Deep Learning (TensorFlow, PyTorch)

Compétences

  • Modèles de régression et classification (logistique, arbres, SVM, méthodes d’ensemble)
  • Réseaux de neurones (MLP, CNN, RNN)
  • Sélection de variables et réduction de dimensionnalité
  • Optimisation et tuning d’hyperparamètres
  • Évaluation et interprétation des modèles
3

NLP & IA générative

Stack

  • Python (spaCy, NLTK, Transformers)
  • Transformers (Hugging Face)
  • APIs LLM (OpenAI, etc.)
  • TF-IDF, embeddings

Compétences

  • Prétraitement et vectorisation de texte (TF-IDF, embeddings)
  • Classification et analyse de documents
  • tilisation de modèles de langage (LLM)
  • Génération de texte & prompt engineering
  • Fine-tuning et évaluation de modèles NLP
4

Data Engineering & Cloud

Stack

  • PySpark, hadoop
  • SQL, bases de données distribuées/li>
  • Cloud (GCP, AWS)

Compétences

  • Traitement distribué et gestion de données massives
  • Imputation de données
  • Pipelines de données et orchestration (ETL/ELT)
  • Architecture et intégration cloud
5

Visualisation & Data storytelling

Stack

  • Power BI & Tableau
  • Matplotlib, Seaborn
  • R (ggplot2)

Compétences

  • Tableaux de bord interactifs
  • Data storytelling
  • Suivi de KPI
6

Méthodologie data

Forces

  • Rigueur, autonomie, structure
  • Communication technique et métier
  • Documentation et versionning

Approche

  • Travail analytique reproductible
  • Vulgarisation des résultats
  • Vision orientée décision

Projets principaux

Une sélection de projets en data analyse, data science et intelligence artificielle appliquée.

Système de recommandation culinaire intelligent

Système de recommandation culinaire intelligent & IA conversationnelle

Recommandation de recettes basée sur les ingrédients utilisateur, avec moteur hybride et IA conversationnelle intégrée.

spaCy TF-IDF KMeans LLM Streamlit
Démo Code
Analyse du churn client

Analyse du churn client — Prédiction et aide à la décision

Modélisation du churn, segmentation des clients à risque et restitution via dashboard Power BI.

Scikit-learn SMOTE Random Forest Gradient Boosting Power BI
Code
SephBot

SephBot — Assistant IA RAG pour répondre aux questions sur mon parcours

Assistant IA capable de répondre de manière fiable sur mon parcours académique et professionnel à partir de documents structurés.

LangChain BM25 Embeddings Reranking Streamlit
Démo Code
AgriSave

AgriSave — Détection de maladies des plantes

Application RShiny de diagnostic végétal à partir d’images, basée sur EfficientNetB0.

RShiny TensorFlow EfficientNetB0 CNN
Code
Pipeline ETL de web scraping

Pipeline ETL de web scraping à grande échelle

Extraction, transformation et structuration de plus de 42 000 recettes pour des usages analytiques et de recommandation.

Python BeautifulSoup Pandas ETL ThreadPoolExecutor
Code
Reco cuisine IA

NLP · Recommandation · IA conversationnelle

Système de recommandation culinaire intelligent & IA conversationnelle

Conception d’un assistant culinaire intelligent articulé autour d’un moteur de recommandation et d’une IA conversationnelle. À partir des ingrédients saisis par l’utilisateur, le système sélectionne les 5 recettes les plus pertinentes, puis affine les résultats en langage naturel grâce à une IA intégrée capable de prendre en compte les préférences, contraintes et intentions de recherche.

Points clés

  • Extraction et normalisation des ingrédients avec NLP en français (spaCy).
  • Système de recommandation hybride combinant TF-IDF, similarité cosinus, clustering KMeans et analyse sémantique.
  • Classement des recettes les plus pertinentes et génération d’un top 5 personnalisé.
  • IA conversationnelle intégrée avec GPT-4o-mini pour affiner les résultats et répondre aux questions utilisateur.
  • Prise en compte de filtres contextuels : temps, budget, exclusions alimentaires, type de plat et catégorie culinaire.
  • Application interactive développée avec Streamlit, avec restitution détaillée des recettes recommandées.
Python spaCy TF-IDF KMeans LLM Streamlit
Churn client

Machine Learning · Analyse prédictive

Analyse du churn client — Prédiction et aide à la décision

Analyse des facteurs explicatifs du churn et développement de modèles de prédiction afin d’identifier les clients à risque et orienter les actions de rétention.

Points clés

  • Modélisation avec Logistic Regression, Random Forest et Gradient Boosting.
  • Gestion du déséquilibre des classes avec SMOTE.
  • Identification des variables déterminantes du churn.
  • Segmentation des clients à risque.
  • Restitution des résultats via un dashboard Power BI.
Python Scikit-learn SMOTE Random Forest Gradient Boosting Power BI
SephBot

RAG · Recherche hybride · IA

SephBot — Assistant IA RAG pour répondre aux questions sur mon parcours

Assistant IA permettant de répondre de manière fiable aux questions sur mon parcours académique et professionnel à partir de documents structurés.

Points clés

  • Architecture RAG hybride combinant recherche vectorielle (embeddings) et lexicale (BM25).
  • Amélioration de la pertinence via reranking neuronal.
  • Réduction des hallucinations grâce à une génération contrôlée.
  • Traçabilité des sources utilisées dans les réponses.
  • Application interactive développée avec Streamlit.
Python LangChain Embeddings BM25 Reranking Streamlit
AgriSave

Vision par ordinateur · CNN

AgriSave — Détection de maladies des plantes

Application de détection précoce des maladies végétales à partir d’images pour faciliter l’aide à la décision.

Points clés

  • Classification d’images de plantes avec EfficientNetB0 (transfer learning).
  • Développement d’une application interactive avec RShiny.
  • Restitution d’un diagnostic détaillé (symptômes, recommandations).
  • Interface orientée aide à la décision utilisateur.
R RShiny TensorFlow EfficientNetB0 CNN
ETL scraping

ETL · Scraping · Data pipeline

Pipeline ETL de web scraping à grande échelle

Développement d’un pipeline ETL permettant d’extraire, transformer et structurer à grande échelle des données culinaires issues du web.

Points clés

  • Extraction de plus de 42 000 recettes via sitemaps et parsing HTML.
  • Collecte automatisée des contenus avec BeautifulSoup.
  • Transformation, nettoyage et structuration des données avec Pandas.
  • Optimisation des performances par parallélisation avec ThreadPoolExecutor.
  • Construction d’un dataset robuste destiné à alimenter les traitements NLP et le moteur de recommandation.
Python BeautifulSoup Pandas ETL ThreadPoolExecutor

Expériences Professionnelles

Parcours en data science, data analyse et statistique appliquée, avec des missions orientées modélisation, qualité des données, automatisation et aide à la décision.

📅 Sept. 2025 – Août 2026

Alternance | Data Scientist

INSEE

Rennes, France

INSEE

Institut National de la Statistique et des Études Économiques (INSEE)

  • Optimisation de la méthode d’imputation des revenus en évaluant plusieurs modèles : Random Forest, Gradient Boosting et MICE.
  • Mise en place du modèle d’imputation optimal, permettant une réduction significative de l'erreur de prédiction par rapport à la méthode existante.
  • Exploration de données à grande échelle : 12 millions d’individus et plus de 600 variables pour identifier les variables pertinentes.
  • Restitution des résultats via dashboards et rapports pour accompagner la prise de décision.

📅 Déc. 2024 – Août 2025

CDD | Data Analyst

EHESP

Rennes, France

EHESP

École des hautes études en santé publique (EHESP)

  • Analyse et exploitation de données en santé publique avec Python, R et Excel pour la production d’indicateurs.
  • Automatisation de rapports analytiques et traitement de données d’enquêtes avec R Markdown et Sphinx.
  • Préparation, structuration et fiabilisation de bases de données pour des analyses reproductibles.

📅 Mai 2023 – Juil. 2023

Stage | Statisticienne

DSPSSEL

Cotonou, Bénin

DSPSSEL

DSPSSEL (Ministère de l'Économie)

  • Conception et analyse d’enquêtes statistiques sur la mobilité urbaine, contribuant à l’étude des transports collectifs à Cotonou.
  • Nettoyage, contrôle de cohérence et imputation de données sous R.
  • Production de synthèses statistiques pour appuyer l’interprétation des résultats et l’aide à la décision.

📅 Déc. 2021 – Mars 2022

Stage | Analyste risque crédit

BSIC

Cotonou, Bénin

BSIC

Banque Sahélo-Saharienne pour l’Investissement et le Commerce (BSIC)

  • Analyse de données de crédit pour l’identification des facteurs associés au risque de défaut.
  • Étude des déterminants des créances en souffrance afin de mieux caractériser le profil du client solvable.
  • Contrôle documentaire et vérification de la conformité des dossiers de crédit dans le cadre des procédures internes.
  • Appui aux activités de suivi du risque et de fiabilisation des informations utilisées dans les analyses.

Parcours Académique

Master Mathématiques Appliquées, Statistique (DS & IA)

2024 - Présent

Université de Rennes 2 / Rennes, France

Cours : Machine Learning, Deep Learning, Big Data, Séries Temporelles, Optimisation, Programmation R & Python.

Licence 3 Mathématiques et Informatique Appliquées aux SHS

2023 - 2024

Université de Bretagne Occidentale (UBO) / Brest, France

Cours : Algèbre, Analyse, Probabilités, Bases de données, Développement Web.

Licence 3 Statistiques parcours Statistiques Économique

2020 - 2021

ENEAM / Cotonou, Bénin

Cours : Économétrie, Enquêtes Statistiques, Analyse de données, Logiciels statistiques.

Discute avec mon IA
Posez une question à mon IA

Contactez-moi

Vous avez un poste pour moi ? N'hésitez pas à me contacter !

Téléphone

+33 6 05 73 21 29

Localisation

Rennes, France