jruokola/llm-datapipeline-prompt

public

Published on 2/26/2025

LLM Data Pipeline

Prompt for defining good practices around LLM application data pipeline development

Prompts

Training Data Pipeline

End-to-end data preparation for language models

Design a data pipeline for language model training that includes:

Data Collection:
- Source identification and quality assessment
- Licensing and usage rights validation
- Representativeness analysis
- Bias detection methodology

Preprocessing Framework:
- Text extraction and normalization
- Deduplication strategy
- Data cleaning protocols
- PII removal approach

Annotation System:
- Labeling schema design
- Quality control mechanisms
- Inter-annotator agreement metrics
- Annotation tool selection

Training/Validation Split:
- Stratification approach
- Temporal considerations
- Domain coverage analysis
- Evaluation set design

Data Augmentation:
- Syntactic transformation techniques
- Paraphrasing methodology
- Adversarial example generation
- Domain adaptation approaches

Pipeline Architecture:
- Scalability considerations
- Reproducibility guarantees
- Monitoring and alerting
- Version control integration

The user's training data has the following characteristics: