此文为读Mask RCNN源码过程中的随笔,很“流水账”,我想价值在于对照着源码把每个步骤的“输入”、“输出”张量的维度标注了一下,会有助于对整体代码的理解。可能有些错误或遗漏,希望发现者指正,以期共同进步。
源码:https://github.com/matterport/Mask_RCNN
训练部分
模型输入:
input_image (batch_size, height, width, channels) #默认(2, 1024, 1024, 3)
input_image_meta (batch_size, 1 + 3 + 3 + 4 + 1 + config.NUM_CLASSES)
1