OCR (Optik Karakter Tanıma), yazılı veya yazılı metin karakterlerinin bilgisayar tarafından tanınmasıdır. Görüntülerdeki veya taranmış belgelerdeki karakterleri tanır ve görüntüleri (metin içeren) aranabilir hale getirir. OCR, herhangi bir ECM ürünü veya yazılımı için çok kullanışlı bir özelliktir. Bu blogda, Alfresco Community Edition'da nasıl yapılandırabileceğimizi göreceğiz. Bunu Alfresco sürüm 5.1.f ve 5.2.e ile test ettik.
Alfresco Community / Enterprise Edition yüklendi ve çalışıyor
Alfresco yönetiminin temel bilgisi
Tesseract'ı Yapılandırma Adımları:
1. Tesseract'ı indirin ve yükleyin
https://github.com/tesseract-ocr/tesseract
Linux:
apt-get install tesseract-ocr
2. Alfresco tomcat sunucusunu durdur
./alfresco.sh dur tomcat
3. Linux / Windows içerik dosyasını indirin ve
<ALFRESCO-HOME>/tomcat/shared/classes/alfresco/extension/
4. ocr.bat (Windows) ve ocr.sh (Linux) öğelerini <ALFRESCO-HOME> /
a) ocr.bat (Windows için)
Ne olacağını görmek için REM
a) ocr.bat (for Windows)
REM to see what happens
mkdir c:\tmp
echo from %1 to %2 >> C:\\tmp\ocrtransform.log
copy /Y %1 "C:\TMP\%~n1%~x1"
echo target %~d2%~p2%~n2
REM call tesseract and redirect output to $TARGET
"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" "C:\tmp\%~n1%~x1" "%~d2%~p2%~n2" -l eng
b) ocr.sh (for Linux)
# save arguments to variables
SOURCE=$1
TARGET=$2
TMPDIR=/tmp/Tesseract
FILENAME=`basename $SOURCE`
OCRFILE=$FILENAME.tif
# Create temp directory if it doesn't exist
sudo mkdir -p $TMPDIR
# to see what happens
#echo "from $SOURCE to $TARGET" >>/tmp/ocrtransform.log
sudo cp -f $SOURCE $TMPDIR/$OCRFILE
# call tesseract and redirect output to $TARGET
sudo /usr/local/bin/tesseract $TMPDIR/$OCRFILE ${TARGET%\.*} -l eng
#sudo tesseract $TMPDIR/$OCRFILE ${TARGET%\.*} -l eng
sudo rm -f $TMPDIR/$OCRFILE
Not: tesseract komutunun yolunun ocr.sh / ocr.bat dosyasında doğru olduğundan emin olun
Linux:
/usr/local/bin or /usr/bin
Windows
C: \ Program Dosyaları (x86) \ Tesseract-ocr \ tesseract.exe
veya C: \ Program Files \ Tesseract-ocr \ tesseract.exe
5. Mevcut kullanıcı ocr.sh üzerinde okuma ya da yürütme iznine sahip değilse, veriniz.
chmod + rx /opt/alfresco-community/ocr.sh
6. adresinde bulunan alfresco-global.properties dosyasına aşağıdaki özellikleri ekleyin
/opt/alfresco-community/tomcat/shared/classes/
Linux:
ocr.script=/opt/alfresco-community/ocr.sh
ghostscript.exe=gs
Windows:
ocr.script = C: \ <ALFRESCO-HOME> \ ocr.bat
ghostscript.exe = gs
7. tomcat sunucusunu başlat
Linux:
./alfresco.sh tomcat başlat
Windows:
C: \ <ALFRESCO-HOME> \ tomcat \ bin \ startup.bat tuşuna basın.
Veya manager-windows.exe dosyasını kullanın.
Not: Açık havada bulunan dosyalar OCR olmayacak, test etmek için yeni resim dosyaları yüklemelisiniz.
Önemli:
Bağlam dosyasında doğru argümanları ilettiğinizden emin olun (bağlam dosyalarındaki girdiler Windows ve Linux için farklı olacaktır).
.Bat veya .sh komutlarınızın düzgün çalışıp çalışmadığını kontrol edin.
Tesseract'ın görüntü dosyası için metin dosyası oluşturduğunu doğrulayın
Bunun, tesseract'ın yüklü olduğu dizine gidin ve aşağıdaki komutu çalıştırın.
tesseract ./<image dosya adı> ./<text dosya adı> -l eng
Metin dosyası içinde bir içeriğe sahipse, tesseract'ınız çalışıyor demektir.
İçeriğiniz hala aranamıyorsa, burada yorum yapın. ECM'nin karşılaştığı zorlukları bilmekten mutluluk duyuyoruz, çözmeyi sevdiğimiz için Bize ulaşın!
Alfresco'da OCR Yapılandırma