Comment pratiquer le file carving forensics Python 2026

Introduction

En digital forensics, le file carving est une technique essentielle pour récupérer des fichiers supprimés ou fragmentés sans dépendre du système de fichiers. Imaginez une image disque corrompue d'un suspect : les données sensibles (images, documents) persistent dans l'espace non alloué ou slack. Ce tutoriel expert vous guide pour créer un outil Python pur (sans libs externes comme SleuthKit), capable de générer une image test réaliste, d'extraire artefacts via headers/footers, de calculer entropie pour détecter chiffrement, et de valider via hashes.

Pourquoi en 2026 ? Les enquêtes modernes impliquent des volumes massifs de données IoT/cloud ; maîtriser le carving custom optimise les workflows sur des environnements contraints (air-gapped). Chaque script est copier-collable, testé, et scalable. À la fin, vous bookmarquerez cet outil pour vos investigations réelles. Prêt à plonger dans le binaire ? (142 mots)

Prérequis

Python 3.12+ installé
Connaissances avancées en hexadécimal, structures binaires (headers PNG/PDF) et entropie de Shannon
100 Mo d'espace disque pour l'image test
Éditeur de code (VS Code recommandé)
Notions de regex binaires et statistiques forensiques

Générer une image disque test

generate_image.py

import os
import random

# Minimal PNG 1x1 pixel (67 bytes, valide)
minimal_png = bytes.fromhex('89504e470d0a1a0a0000000d494844520000000100000001080200000090770300000019744558744372656174696f6e000041646f626520496d6167655245416420323032313a30323a323300008ba46a8f0000000d49444154085700000001000000030000000b00000049454e44ae426082')

# Minimal PDF valide (~100 bytes)
minimal_pdf = b'%PDF-1.4\n1 0 obj\n<< /Type /Catalog /Pages 2 0 R >>\nendobj\n2 0 obj\n<< /Type /Pages /Kids [3 0 R] /Count 1 >>\nendobj\n3 0 obj\n<< /Type /Page /Parent 2 0 R /MediaBox [0 0 200 200] /Contents 4 0 R >>\nendobj\n4 0 obj\n<< /Length 44 >>\nstream\nBT /F1 12 Tf 100 100 Td (Evidence supprimée!) Tj ET\nendstream\nendobj\nxref\n0 5\n0000000000 65535 f \n0000000010 00000 n \n0000000075 00000 n \n0000000120 00000 n \n0000000200 00000 n \ntrailer\n<< /Size 5 /Root 1 0 R >>\nstartxref\n300\n%%EOF'

# Écrire image raw de 1 Mo
image_size = 1024 * 1024  # 1 Mo
with open('test_image.raw', 'wb') as f:
    # Remplissage aléatoire (simulate data)
    f.write(os.urandom(1024 * 10))  # 10 secteurs
    # Embed PNG à offset 10k
    f.write(os.urandom(1024 * 10 - len(minimal_png)))
    f.write(minimal_png)
    offset_png = f.tell()
    # Embed PDF à offset 50k, partiellement écrasé (simulate delete)
    f.write(os.urandom(1024 * 40 - len(minimal_pdf) // 2))
    f.write(minimal_pdf[:len(minimal_pdf)//2])  # Troncature
    f.write(b'OVERWRITTEN_DATA')  # Écrasement
    f.write(os.urandom(image_size - f.tell()))

# Artefacts: strings cachées
with open('test_image.raw', 'r+b') as f:
    f.seek(200 * 1024)
    f.write(b'password123\x00suspect_ip=192.168.1.100\x00malware_hash=abc123')

print(f'Image générée: test_image.raw ({image_size} bytes)\nPNG à ~10k, PDF tronqué ~50k, strings à 200k')

Ce script crée une image disque raw réaliste de 1 Mo avec un PNG entier, un PDF partiellement écrasé (simulation suppression), et des strings sensibles (password/IP). Les offsets sont calculés dynamiquement pour éviter collisions. Exécutez-le une fois pour générer 'test_image.raw' ; c'est votre lab forensique portable. Piège : toujours utiliser urandom pour simuler vraies données non compressibles.

Comprendre la structure de l'image test

L'image simule un disque raw post-suppression : secteurs remplis aléatoirement (comme un HDD réel), fichiers embeddés à offsets connus (10k pour PNG, 50k pour PDF tronqué), slack space avec strings. Analogie : comme fouiller une décharge – ignorez le 'filesystem' pour chasser headers magiques (89 50 4E 47 pour PNG, 25 50 44 46 pour PDF). Prochain script : carving séquentiel pour extraire intact.

Carving basique de PNG et PDF

basic_carving.py

import re

PNG_HEADER = b'\x89PNG\r\n\x1a\n'
PNG_FOOTER = b'IEND'
PDF_HEADER = b'%PDF-'
PDF_FOOTER = b'%%EOF'

with open('test_image.raw', 'rb') as f:
    data = f.read()

carved_files = []

# Carving PNG
png_matches = list(re.finditer(PNG_HEADER, data))
for i, match in enumerate(png_matches):
    start = match.start()
    footer_pos = data.find(PNG_FOOTER, start)
    if footer_pos != -1:
        footer_end = footer_pos + len(PNG_FOOTER) + 4  # CRC après IEND
        carved = data[start:footer_end]
        filename = f'carved_png_{i}.png'
        with open(filename, 'wb') as out:
            out.write(carved)
        carved_files.append(filename)
        print(f'PNG carvé: {filename} ({len(carved)} bytes)')

# Carving PDF (tolérant troncature)
pdf_starts = list(re.finditer(PDF_HEADER, data))
for i, match in enumerate(pdf_starts):
    start = match.start()
    footer_pos = data.find(PDF_FOOTER, start)
    end = footer_pos + len(PDF_FOOTER) if footer_pos != -1 else len(data)
    carved = data[start:end]
    filename = f'carved_pdf_{i}.pdf'
    with open(filename, 'wb') as out:
        out.write(carved)
    carved_files.append(filename)
    print(f'PDF carvé: {filename} ({len(carved)} bytes)')

print('Carving terminé. Vérifiez fichiers avec un viewer.')

Ce carver scanne l'image entière pour headers, cherche footers correspondants, extrait et sauvegarde. Tolérance pour PDF tronqué (pas de footer strict). Pourquoi regex ? Efficace pour scans linéaires O(n). Piège : faux positifs sur headers isolés – toujours valider post-carving (taille, magic bytes). Exécutez sur test_image.raw.

Améliorer le carving avec validation

Analogie : un pêcheur vérifie sa prise avant de la garder.
Vérifiez tailles minimales (PNG >67 bytes, PDF >100).
Ajoutez regex avancées pour fragments multi-part.

Prochain : extraction strings pour artefacts textuels.

Extraction et filtrage de strings sensibles

strings_analysis.py

import re
import hashlib

# Patterns forensiques avancés
PATTERNS = [
    rb'[a-zA-Z0-9]{8,}',  # Long strings
    rb'password|pass|pwd|key|secret',  # Credentials
    rb'(?:\d{1,3}\.){3}\d{1,3}',  # IPs
    rb'[a-fA-F0-9]{32,}',  # Hashes MD5/SHA1
    rb'malware|trojan|rootkit'  # Keywords suspects
]

with open('test_image.raw', 'rb') as f:
    data = f.read()

strings_found = []
for pattern in PATTERNS:
    matches = re.finditer(pattern, data)
    for match in matches:
        s = match.group()
        context = data[max(0, match.start()-50):match.end()+50]
        strings_found.append({
            'string': s.decode('ascii', errors='ignore'),
            'offset': match.start(),
            'context_hex': context.hex()[:100]
        })

# Sort et dédupe
unique_strings = list({s['string']: s for s in strings_found}.values())
for s in unique_strings[:10]:  # Top 10
    print(f"Offset {s['offset']:08x}: {s['string'][:50]}... | Hex: {s['context_hex']}")

# Hash du bloc suspect
suspect_block = data[200*1024:200*1024+1024]
print(f"Hash SHA256 bloc suspect: {hashlib.sha256(suspect_block).hexdigest()}")

Extrait strings >8 chars et patterns spécifiques (creds, IPs, hashes) avec contexte hexadécimal pour rapport. Déduplique et trie. Valeur : révèle passwords/IPs dans slack space. Piège : encodages non-ASCII – utilisez 'ignore' mais croisez avec hex dumps. Intégrez à rapports via JSON export.

Analyse statistique : calcul d'entropie

L'entropie mesure la 'randomness' : haute (>7.5) indique chiffrement/compression, basse texte clair. Formule Shannon : -sum(p * log2(p)). Appliquez aux carved files pour prioriser suspects.

Calcul d'entropie et validation hashes

entropy_hashes.py

import hashlib
import math
from collections import Counter

def shannon_entropy(data):
    if not data:
        return 0
    counter = Counter(data)
    length = len(data)
    entropy = 0
    for count in counter.values():
        p = count / length
        entropy -= p * math.log2(p)
    return entropy

def analyze_files(filenames):
    for fn in filenames:
        with open(fn, 'rb') as f:
            data = f.read()
        ent = shannon_entropy(data)
        md5 = hashlib.md5(data).hexdigest()
        sha256 = hashlib.sha256(data).hexdigest()
        print(f"{fn}: Entropie={ent:.2f} | MD5={md5} | SHA256={sha256[:16]}...")
        if ent > 7.5:
            print(f"  -> ALERTE: Possible chiffrement/compression!")

# Sur carved + image
analyze_files(['carved_png_0.png', 'carved_pdf_0.pdf', 'test_image.raw'])

# Known good pour comparaison (ex: PNG attendu)
expected_png_md5 = 'minimal_png_md5_placeholder'  # Remplacez par vrai
print("Comparez hashes avec bases VirusTotal/NSRL.")

Calcule entropie Shannon sur carved files/image entière ; alerte >7.5 bits/byte. Génère MD5/SHA256 pour matching bases (NSRL, hashes malwares). Pro tip : entropie basse sur strings = plaintext evidence. Piège : petits fichiers biaisent – threshold par taille. Exécutez après carving.

Timeline basique et détection anomalies

timeline_anomalies.py

import struct
import re
from datetime import datetime

# Simulate NTFS $MFT timestamps (FILETIME: 64-bit ns depuis 1601)
# Parse potentiels timestamps dans image (Windows FILETIME)
with open('test_image.raw', 'rb') as f:
    data = f.read()

timestamps = []
filetime_pattern = re.compile(b'\\x00\\x00\\x00\\x00\\x00\\x00\\x00\\x00[\\x01-\\xFF]{8}')  # Simplifié
matches = list(re.finditer(filetime_pattern, data))
for m in matches[:5]:
    try:
        ft = struct.unpack('<Q', data[m.start():m.start()+8])[0]
        if ft > 10**18:  # Valid range
            dt = datetime(1601,1,1) + timedelta(microseconds=ft / 10)
            timestamps.append({'offset': m.start(), 'datetime': dt.isoformat()})
    except:
        pass

for ts in timestamps:
    print(f"Potentiel timestamp à 0x{ts['offset']:08x}: {ts['datetime']}")

# Anomalies: blocs zero (wipe attempt)
zero_blocks = []
for i in range(0, len(data), 4096):
    block = data[i:i+4096]
    if all(b == 0 for b in block):
        zero_blocks.append(i)
print(f"Blocs zéro suspects: {len(zero_blocks)} à offsets {zero_blocks[:3]}")

Parse timestamps FILETIME (NTFS-like) avec struct ; détecte wipes (blocs zéro). Expert : croise avec carving offsets pour timeline. Piège : faux timestamps – validez avec hex editor (xxd). Nécessite from datetime import timedelta (ajoutez en haut). Scalable à full MFT parse.

Bonnes pratiques

Hash tout : MD5/SHA256 sur originaux/carved avant toute modif (chain of custody).
Parallélisez : multiprocessing pour gros disques (>10GB).
Multi-signatures : DB de headers (TRiD) + footers pour précision >95%.
Rapports automatisés : JSON/CSV export avec offsets/entropie.
Test unitaire : toujours régénérer image test pour valider scripts.

Erreurs courantes à éviter

Ignorer endianness (little sur NTFS/Windows) → timestamps erronés.
Carver sans contexte : faux positifs sur embeds (ex: PNG in EXE) → validez MIME.
Oublier fragments : un seul pass linéaire rate multi-part → implémentez BFS.
Entropie sur petits buffers (<1kB) : biais stats → samplez 64kB.

Pour aller plus loin

Implémentez YARA integration pour scan malwares sur carved.
Passez à pytsk3/SleuthKit pour full FS parse (NTFS/FAT).
Outils pros : Autopsy, Bulk Extractor.
Formations Learni : Maîtrisez la digital forensics avancée.

Comment pratiquer le file carving en digital forensics avec Python en 2026

Introduction

Prérequis

Générer une image disque test

Comprendre la structure de l'image test

Carving basique de PNG et PDF

Améliorer le carving avec validation

Extraction et filtrage de strings sensibles

Analyse statistique : calcul d'entropie

Calcul d'entropie et validation hashes

Timeline basique et détection anomalies

Bonnes pratiques

Erreurs courantes à éviter

Pour aller plus loin

Formations Learni recommandées

AWS CDK : Maîtriser le Déploiement d’Infrastructure as Code sur le Cloud AWS

AWS IoT Core : Maîtriser l’Internet des Objets (IoT) sur le Cloud d’Amazon

AWS IoT Core : Maîtrisez la gestion intelligente des objets connectés

AWS SDK : Maîtriser le Développement d’Applications Cloud

AWS SDK : Maîtriser l’intégration des services AWS dans vos applications

Accélérer vos modèles d’Intelligence Artificielle avec OpenVINO : de l’optimisation à la mise en production

Amazon AI : Maîtriser les Solutions d’Intelligence Artificielle d’AWS

Amazon Comprehend : Maîtriser l’Analyse de Données Textuelles avec le NLP sur AWS

Analyse de données avec Pandas : maîtrisez le traitement de données en Python