мне кажется, вероятность совпадения мала слишком, счета бывают разных типов и качества сканирования, надо ведь как то распознать слово счет и номер рядом с ним а если плохо отсканировалось например
Если нужно найти два одинаковых файла, то информация о размере файла должна проверяться первой. После размера уже можно считать контрольную сумму или хэш.
Если нужно найти два "одинаковых" отсканированных документа, то нужно "курить" сравнение образов - до конца ещё не решённая задача, но некоторые успехи в этом направлении уже есть.