Имя: Пароль:
1C
 
Как прочитать текст файла PDF?
0 AleshaPypok
 
14.07.25
14:33
Добрый день! Файл хранится в базе, как можно прочитать его содержимое?
1 mikecool
 
14.07.25
14:36
а текст есть?
2 Homer
 
14.07.25
14:36
программа cuneiform
3 AleshaPypok
 
14.07.25
14:36
(1) Текст в PDF файле есть
4 AleshaPypok
 
14.07.25
14:37
(2) а средствами 1С?
5 Fish
 
гуру
14.07.25
14:37
(2) А она умеет напрямую из ПДФ или надо сначала в картинку преобразовать?
6 Fish
 
гуру
14.07.25
14:41
(3) ИзвлечениеТекста (TextExtraction)
7 AleshaPypok
 
14.07.25
14:44
(6) А как получить путь к файлу? Подскажите пожалуйста
8 Fish
 
гуру
14.07.25
14:44
Ну началось.
9 Волшебник
 
14.07.25
14:46
(6) Только предварительно нужно установить какой-нибудь PDF IFilter
10 Fish
 
гуру
14.07.25
14:46
(7) Если у тебя файл хранится в базе, то нужно сначала его куда-то записать. Вот куда ты его запишешь, это и будет путь к файлу.
11 Волшебник
 
14.07.25
14:52
консольная утилита PDFtoText
https://www.xpdfreader.com/pdftotext-man.html

пример подключения: https://infostart.ru/1c/tools/1119432/
12 AleshaPypok
 
14.07.25
15:10
(10)     ИмяФайла = ПолучитьИмяВременногоФайла("pdf");
    ДДФайла = РаботаСФайлами.ДвоичныеДанныеФайла(ФайлЗаявки);
    ДДФайла.Записать(ИмяФайла);
    Объект= новый ИзвлечениеТекста(ИмяФайла);
    ТекстФ=Объект.ПолучитьТекст();

ТекстФ = Неопределено
13 maxab72
 
14.07.25
15:12
(12) а в файле точно текст, а не отсканированная картинка?
14 Волшебник
 
14.07.25
15:13
ИзвлечениеТекста
Для извлечения текста из файлов используется интерфейс IFilter. Он является расширяемым. Можно установить дополнительные модули, чтобы появилась возможность извлекать текст из еще одного типа файлов. По умолчанию текст извлекается из файлов следующих типов (имеющих расширение): ASCX, ASP, ASPX, CSS, HHC, HTA, HTM, HTML, HHT, HTW, HTX, ODC, STM, DOC, DOT, POT, PPS, PPT, XLB, XLC, XLS, XLT, TXT, EML.


Для обработки PDF-файлов нужен PDF IFilter
15 AleshaPypok
 
14.07.25
15:15
(13) Точно текст, файл формируется в 1С
16 Волшебник
 
14.07.25
15:17
(15) Формируйте ещё дополнительно текстовый файл и кладите рядом.
17 Fish
 
гуру
14.07.25
15:32
(14) Да, про PDF IFilter забыл.
18 Garykom
 
гуру
14.07.25
15:36
Как бы PDF это фактически текстовый файл...
С разными кодировками
19 Fish
 
гуру
14.07.25
15:42
(18) Если только это не скан в виде картинки, сохраненный в формате ПДФ.
20 Волшебник
 
14.07.25
15:43
(19) Такой PDF можно закинуть в нейронку и вежливо попросить выдать текст.
21 Fish
 
гуру
14.07.25
15:46
(20) Ну если допускается закидывание файлов во внешний интернет, то можно любой онлайн-сервис OCR использовать.
22 AleshaPypok
 
14.07.25
15:53
(21) (20) (18) а как-то с помощью ДокументPDF.Прочитать() можно?
23 Волшебник
 
14.07.25
18:42
(22) текст нельзя
24 Timon1405
 
14.07.25
17:24