Welcome to this page!
💡 An Open Chest X-ray Dataset with Benchmarks for Automatic Radiology Report Generation in French

📃 Introduction

Medical report generation (MRG), which aims to automatically generate a textual description of a specific medical image (e.g., a chest X-ray), has recently received increasing research interest. Building on the success of image captioning, MRG has become achievable. However, generating language-specific radiology reports poses a challenge for data-driven models due to their reliance on paired image-report chest X-ray datasets, which are labor-intensive, time-consuming, and costly. In this paper, we introduce a chest X-ray benchmark dataset, namely CASIA-CXR, consisting of high-resolution chest radiographs accompanied by narrative reports originally written in French. To the best of our knowledge, this is the first public chest radiograph dataset with medical reports in this particular language. Importantly, we propose a simple yet effective multimodal encoder-decoder contextually-guided framework for medical report generation in French. We validated our framework through intra-language and cross-language contextual analysis, supplemented by expert evaluation performed by radiologists. The dataset is freely available at: https://www.casia-cxr.net/.

Introduction in Chinese (中文)
开放式胸部 X 射线数据集,具有自动生成法语放射学报告的基准
医疗报告生成(MRG)旨在自动生成特定医学图像(例如胸部X光片)的文本描述,最近受到了越来越多的研究兴趣。在图像字幕的成功基础上,MRG 已经成为可能。然而,生成特定语言的放射学报告对数据驱动模型提出了挑战,因为它们依赖于配对图像报告胸部 X 射线数据集,这些数据集是劳动密集型、耗时且昂贵的。在本文中,我们介绍了一个胸部 X 射线基准数据集,即由高分辨率胸部 X 光照片以及最初用法语编写的叙述报告组成。据我们所知,这是第一个包含这种特定语言的医疗报告的公共胸部放射线照片数据集。重要的是,我们提出了一个简单而有效的多模态编码器-解码器上下文引导框架,用于法语医疗报告的生成。我们通过语言内和跨语言上下文分析验证了我们的框架,并辅以放射科医生进行的专家评估。该数据集可在以下位置免费获取: https://www.casia-cxr.net

🗂️ Dataset Structure

  • Main Folder
    • CASIA-CXR_Cardiomegaly
      • CASIA-CXR_Cardiomegaly_Images
      • CASIA-CXR_Cardiomegaly_Reports.csv
      • CASIA-CXR_Cardiomegaly_Labels.csv
    • CASIA-CXR_Pneumothorax
      • CASIA-CXR_Pneumothorax_Images
      • CASIA-CXR_Pneumothorax_Reports.csv
      • CASIA-CXR_Pneumothorax_Labels.csv
    • CASIA-CXR_Pneumonia
      • CASIA-CXR_Pneumonia_Images
      • CASIA-CXR_Pneumonia_Reports.csv
      • CASIA-CXR_Pneumonia_Labels.csv
    • CASIA-CXR_PleuralEffusion
      • CASIA-CXR_PleuralEffusion_Images
      • CASIA-CXR_PleuralEffusion_Reports.csv
      • CASIA-CXR_PleuralEffusion_Labels.csv
    • CASIA-CXR_Mass
      • CASIA-CXR_Mass_Images
      • CASIA-CXR_Mass_Reports.csv
      • CASIA-CXR_Mass_Labels.csv

To download the dataset sample (~80MB), please refer to the download page: Link

📈 Dataset Description

  • Dataset Labels
    • Global Labels
      • (1) Cardiomegaly (3,576 exams), (2) Pneumothorax (2,000 exams), (3) Pleural Effusion (2,000 exams), (4) Pneumonia (2,000 exams), and (5) Mass (1,355 exams).
    • Local Labels
      • (6) Pulmonary Opacity, (7) Emphysema, (8) Edema, (9) Atelectasis, (10) Lung Tumor, (11) Calcification, (12) Infiltration, (13) Cardiopathy, (14) Bilateral Hilar, (15) Dyspnea, (16) Apical Hypercarbia, (17) Hypertrophy, (18) Enlargement AP, (19) Enlargement PA, (20) Oval Opacity, (21) Pleural Thickening, (22) Mediastinal, (23) Pulmonary Cavity, (24) Tuberculosis.
      • CASIA-CXR: An Open Chest X-ray Dataset with Benchmarks for Automatic Radiology Report Generation in French

        Figure 1: Data Labeling.

  • Dataset Samples
    • Chest X-ray paird medical reports
        Chest X-ray
        Medical Report in French
        CASIA-CXR Findings: Augmentation de l’index cardio-thoracique./Absence d’anomalie parenchymateuse./Absence d’épanchement pleural./Absence d’anomalie du gril costal./Absence d’anomalie des parties molles.
        Indication: Cardiopathie, Dyspnée.
        Comparison: None.
        Impression: Cardiomégalie avec dilatation de l’oreillette droite./Surélévation de la coupole diaphragmatique gauche (atélectasie gauche)./
        CASIA-CXR Findings: Opacités linéaire et stellaire bilatérales et rétractiles bilatérales et diffuses./Surcharge hilaire bilatérale./Il s’y associe des opacités linéaires rétractiles avec épaississement non septaux bilatéraux./Hyperclartés apicales.
        Indication: ATCD de pneumothorax.
        Comparison: None.
        Impression: l’hémichamp pulmonaire gauche. de moyenne. abondance./Atteinte interstitielle diffuse avec emphysème pulmonaire./
        CASIA-CXR Findings: Volumineuse opacité arrondie, de tonalité hydrique, a cheval des tiers moyen et inférieur de l’hémichamp pulmonaire droit, dont les limites externes sont nettes, et dont les limites internes ne sont pas noyées dans le médiastin (lobaire inférieure selon le signe de la silhouette)./Silhouette cardiaque d’aspect normal./Absence d’anomalie médiastinale./Absence d’anomalie des parties molles./Artefacts vestimentaires.
        Indication: Douleurs thoraciques.
        Comparison: None.
        Impression: Opacité ovalaire du tiers inférieur de l’hémichamp pulmonaire droit./
        CASIA-CXR Findings: Épanchement pleural gauche de moyenne abondance./Surcharge hilaire bilatérale./Aspect rétracté du poumon gauche avec attraction de la trachée et hypertrophie compensatrice du poumon droit./Absence d’anomalie du gril costal.
        Indication: Dyspnée, Lobectomie inférieure gauche.
        Comparison: None.
        Impression: Aspect rétracté du poumon gauche avec déviation de la trachée et hypertrophie compensatrice du poumon droit secondaire à une lobectomie gauche./
        CASIA-CXR Findings: Foyer de condensation parenchymateuse en regard du tiers inférieure de l’hémichamp pulmonaire droit systématisé, de contours flous./Scissurite droite./Silhouette cardiaque d’aspect normal./Absence d’anomalie médiastinale./Absence d’épanchement pleural./Absence d’anomalie du gril costal./Absence d’anomalie des parties molles.
        Indication: Toux fébrile.
        Comparison: None.
        Impression: Foyer de condensation au niveau du tiers inférieure de l’hémichamp pulmonaire droit./
        CASIA-CXR Findings: Multiples opacités alvéolaires prédominant au niveau de l’hémichamp pulmonaire droit, à disposition périphérique, il s’y associe quelques opacités micronodulaire et nodulaire, de tonalité moyenne et de contours flous./Scissurite droite./Silhouette cardiaque d’aspect normal./Absence d’anomalie médiastinale./Absence d’épanchement pleural./Absence d’anomalie du gril costal./Absence d’anomalie des parties molles.
        Indication: Douleurs thoraciques + fièvre.
        Comparison: None.
        Impression: Atteinte pulmonaire alvéolaire prédominant au niveau de l’hémichamp pulmonaire droit d’origine probablement infectieuse, à recontrôler après traitement.
    • Archived Clinical Records
        PatientID
        Gender
        ExamDate
        Age
        Archived Clinical Records
        P00001
        M
        2021/09/22
        44
        <...>Pneumothorax gauche de grande abondance exerçant un effet de masse sur le poumon et sur les éléments du médiastin avec collapsus partiel au niveau du tiers inférieur de l’hémichamp pulmonaire gauche<...>.
        P00002
        F
        2019/04/20
        53
        <...>Opacité grossièrement ovalaire, spiculée, de tonalité tissulaire hétérogène, au niveau des tiers inférieur et moyen de l’hémichamp pulmonaire droit et de contours internes noyés dans le médiastin, de limites externes accolés à la paroi thoracique sans lyse costale décelable à la limite de cet examen<...>.
        P00003
        M
        2020/08/08
        43
        <...>Opacité arrondie, de tonalité hydrique, bien limitée, au niveau des tiers inférieur et moyen de l’hémichamp pulmonaire gauche, de localisation lobaire inférieure selon le signe de la silhouette<...>.
        P00004
        F
        2022/07/15
        50
        <...>Distension des deux hémi champs pulmonaires avec élargissement des espaces intercostaux et aplatissement des coupoles diaphragmatiques<...>.
        P00005
        M
        2021/03/22
        45
        <...>Volumineuse opacité arrondie, de tonalité hydrique, a cheval des tiers moyen et inférieur de l’hémichamp pulmonaire droit, dont les limites externes sont nettes,
        et dont les limites internes ne sont pas noyées dans le médiastin lobaire inférieure
        selon le signe de la silhouette<...>.
        P00006
        M
        2021/08/21
        52
        <...>Foyer de condensation alvéolaire intéressant le tiers inférieur de l’hémichamp pulmonaire gauche, systématisée, siège de bronchogramme aérien<...>.
        P00007
        F
        2019/11/16
        44
        <...>Opacités alvéolaires bilatérales et éparses associées à des infiltrats réticulo-micronodulaire avec plages en verre dépoli plus marquées au niveau des bases<...>.

        Download sample of the archived clinical records: Link

The original images are provided in .JPEG format with high-resolution of 2372x3000px.
The full archived clinical records are not available to download. We may provide them upon request.

🗄️ Dataset Fields

Name Attribute Description Sample
ExamID Exam identifier, a unique ID for each exam. CASIA-CXR_Cardiomegaly_ExamID_0001.
ImageID Image identifier, a unique ID for each image. CASIA-CXR_Cardiomegaly_ImgID_0001.
PatientID Patient’s identifier, a unique ID for each patient. CASIA-CXR_Cardiomegaly_PatientID_0001.
ImageDir Image directory in the root folder ~Root/CASIA-CXR_Cardiomegaly.
StudyDate Date of the study YYYY/MM/DD 2021/12/29.
PatientAge Patient’s age in YY. 57.
PatientGender Patient’s gender, M: Male, F: Female. M.
PatientPosition Radiographic positioning during the acquisition of radiographs. Erect.
ViewPosition Chest X-ray views during the acquisition of radiographs. PosteroAnterior.
Projection Direction of the X-ray beam as it passes through the patient chest. PA.
MethodProjection Projectional radiography using X-ray radiation to generate two-dimensional images. Manual.
OriginalImage
[Width, Height]
Image dimensions in pixels. 2372x3000.
ReportID Report identifier, a unique ID for each report. CASIA-CXR_Cardiomegaly_ReportID_0001.
Findings Observations of radiologists on the X-ray image. - Augmentation de l’index cardio-thoracique./
- Absence d’anomalie parenchymateuse./
- Absence d’épanchement pleural./
- Absence d’anomalie du gril costal./
- Absence d’anomalie des parties molles./
Indication Explanation of clinical concerns that prompted the examination. Cardiopathie, Dyspnée.
Comparison Comparison of the current X-ray to previous ones (if available). None.
Impression Summarization of the radiologist's interpretation of the findings. - Cardiomégalie avec dilatation de l’oreillette droite./
- Atélectasie basale gauche.
LabelingMethod Assigning labels to each data point. Manual by radiologists.

The medical reports and the archived clinical records are available in .CSV format.

📃 Read Paper

To read the paper, please refer to the following link: Paper PDF

📑 Citation

If you find our work helpful in your research, please consider citing our paper:
Download Citation: BibTex

@article{METMER2024128478,
title = {An open chest X-ray dataset with benchmarks for automatic radiology report generation in French},
journal = {Neurocomputing},
volume = {609},
pages = {128478},
year = {2024},
issn = {0925-2312},
doi = {https://doi.org/10.1016/j.neucom.2024.128478},
url = {https://www.sciencedirect.com/science/article/pii/S0925231224012499},
author = {Hichem Metmer and Xiaoshan Yang},
keywords = {Chest X-ray dataset, Medical report generation in French},
abstract = {Medical report generation (MRG), which aims to automatically generate a textual description of a specific medical image (e.g., a chest X-ray), has recently received increasing research interest. Building on the success of image captioning, MRG has become achievable. However, generating language-specific radiology reports poses a challenge for data-driven models due to their reliance on paired image-report chest X-ray datasets, which are labor-intensive, time-consuming, and costly. In this paper, we introduce a chest X-ray benchmark dataset, namely CASIA-CXR, consisting of high-resolution chest radiographs accompanied by narrative reports originally written in French. To the best of our knowledge, this is the first public chest radiograph dataset with medical reports in this particular language. Importantly, we propose a simple yet effective multimodal encoder–decoder contextually-guided framework for medical report generation in French. We validated our framework through intra-language and cross-language contextual analysis, supplemented by expert evaluation performed by radiologists. The dataset is freely available at: https://www.casia-cxr.net/.}
}