v7: Бинарное или другое сравнение файлов

1C 7.7

20.08.11

✎

12:15

Здравствуйте господа, стоит такая задача просуммировать документы по Х полю, к которым прикреплен одинаковый счет (сканированный файл).

Как лучше сравнить файла что определить один это счет или разные?

Подводный камень канешно есть - один и тот же счет в разных документах 2 раза отсканированный или подредактированный фотошопом )).

1 ДенисЧ

20.08.11

✎

12:16

Если это графика, то прогнать через распознавалку.

2 aptomilov

20.08.11

✎

12:29

мне кажется, вероятность совпадения мала слишком, счета бывают разных типов и качества сканирования, надо ведь как то распознать слово счет и номер рядом с ним а если плохо отсканировалось например

3 aptomilov

20.08.11

✎

13:01

такую вот функцию нашел в инете

Функция МД5(файл)
ScrCtrl = СоздатьОбъект("MSScriptControl.ScriptControl");
ScrCtrl.Language = "vbscript";
ScrCtrl.AddCode("
|Function Hash()
|Dim crypt: Set crypt = CreateObject(""CAPICOM.HashedData"")
|crypt.Algorithm = 3
|Dim stream: Set stream = CreateObject(""ADODB.Stream"")
|stream.Type = 1 ' adTypeBinary
|stream.Open
|stream.LoadFromFile("""+файл+""")
|Do Until stream.EOS : crypt.Hash stream.Read() : Loop
|Hash = crypt.Value
|End Function
|");
рез = ScrCtrl.Run("Hash");
Возврат рез;
КонецФункции

4 andrewks

20.08.11

✎

13:43

ты имеешь в виду, один и тот же файл, или один и тот же счёт, но разные его сканы? не совсем понятно.

второе гораздо сложнее, тут надо рыть системы распознавания образов

5 aptomilov

20.08.11

✎

20:11

помоему распознование это перебор в данном случае

думаю достаточно сравнивать на хеш или мд5, вот ещё рабочий код:
v8: 1С и хеш с мд5 у файла

срванивать хотя бы файлы (сканы счета)

6 ДенисЧ

20.08.11

✎

20:12

бред

7 Torquader

21.08.11

✎

13:33

Если нужно найти два одинаковых файла, то информация о размере файла должна проверяться первой. После размера уже можно считать контрольную сумму или хэш.
Если нужно найти два "одинаковых" отсканированных документа, то нужно "курить" сравнение образов - до конца ещё не решённая задача, но некоторые успехи в этом направлении уже есть.

8 aptomilov

22.08.11

✎

11:09

разве одинаковый хэш не значит что файлы одинаковые ? , Мне этого будет достаточно, сравнивать образы, распознавать это утопия