Challenges in transcribing multimodal data : A case study