文石BOOX官方社区-墨水屏平板电纸书护眼阅读器

 找回密码
 注册

手机号码,快捷登录

搜索
查看: 13230|回复: 12

关于【双层PDF文档】的分析

  [复制链接]
发表于 2015-6-25 18:44:23 | 显示全部楼层 |阅读模式
首先感谢用户@busybee  不遗余力的向我们反馈M96打开双层PDF文档过程中批注的异常反应,这种类型的文档我们很少遇见,故而也没有做过专门的测试和适配,目前研发部门还在研究是否能如普通PDF文档一样很好的解决批注位置和导出的问题。& l3 {, J, z. c; m, j; g1 _

* h5 `; h( H& J& _! n: @/ o7 E1 y: ^1 k0 F4 N: n. q
后续会在这里更新进展情况。2 @. L6 p/ _8 z4 ~$ c

, D) m9 j1 y, r$ K  \+ i( O
+ O9 T$ J+ l) m4 Y! n3 s这里给像我一样不怎么接触双层PDF文档的朋友一些简要介绍,以便大家在碰到类似问题时能做一些简单的判断,不论是向我们厂家反馈问题或者自己筛选合适的文档类型,都有所帮助。鉴于大部分用户(包括楼主在内)都不是专业人士,我们就用最简单的语言和图示来介绍。
) ?9 A# c4 n% m  y4 K0 r* D2 w- d% V: j6 n+ y, n

& x+ h) a; Y9 D1.  什么是双层PDF文件?
: c- [9 k. Q4 Q, V' w9 ?" f$ c% }; z* W6 H) W3 I2 m; m
PDF文件是一种具有多层结构的格式文件,其特点是:文件既可以是文本型的(比如由word生成的文件),也可以是图像型的(比如由扫描生成的文件);双层PDF文件是指文件内容既包含文本层,也包含图像层,且其位置上下一一相对应。) c2 A1 @8 z7 P, E$ {

$ x+ W1 g1 O$ W( T9 Y* N6 y: `简单给个图示大家看下:(测试文档由@busybee 提供)
8 H- F4 k( k9 Y! q' G+ C
: h" f  o( r8 l+ f下图是直接打开测试文档时图像层和文本层的原始位置:  A- P3 ~% U6 X% L4 k$ q" z
, i: z4 w! T, y4 l0 ^

8 }8 T. o" }4 \* a. k, X5 D1 b! a5 H* H4 c
下图是移动了图像层之后,图像层和文本层的位置:. R1 z7 z; U" r- y

! i; ^$ E1 q+ y" `4 L4 {3 O; H$ h; u5 P$ K$ s+ N6 t' p5 g

, }7 @4 s$ t4 L) \3 b: F* P& |4 v" z3 f7 X$ [
2. 为什么批注高亮的位置会偏?
6 i& G2 [/ v8 R( ~! n' K" `# }2 b/ b$ p6 s% J  n# x
为什么批注高亮的位置会偏?简单来说就是,实际选择的文字的位置,不是我们眼睛看到的位置。这是因为PDF文档本身制作时文本位置偏移导致的(什么原因抱歉我也不确定),阅读器是一个显示设备,不是编辑设备,所以它不能默认自动适配,所以才会有些文档批注高亮是准确的,有些是左右偏移的,有些是上下偏移的,有些高亮的位置有重叠。- m& v. B" D9 K* [: P4 L
! X! p1 @5 b: H% h4 w2 g
可以用foxit PDF editor在PC上打开源文档,直接用鼠标点选文字,清晰直观,一目了然。$ r& K( `( B0 X8 ?# H- @8 `

1 z8 k9 g7 K( u, i( G; _( ]3 {5 x如下图,原始打开我们看到的是这样(不论PC还是BOOX上):6 H- c/ z2 J7 F( _: k, h, P8 k  t

  B5 J6 `1 l9 c" i7 y& G6 o' y8 _- r7 ]6 p
/ \- f# }+ ^1 j0 F
那么实际的文字定位是怎样呢?框框位置可以看出,可见文字的位置,可选文字的位置,没有重叠,偏移较大,如下图:: t' K% D6 A2 w0 ]5 E4 K7 o
1 h8 {' F& s" q# T

" Z! Y, c# |' u' E7 ]6 P  d1 C6 D4 Z$ U- h% t, w2 [
双层PDF文档因为图层分离,如果愿意,甚至可以是这样的,可选择的位置,极端偏移你所看到的位置:
% i$ i2 d, x$ F- w6 d. V
7 W4 n: B2 `% F: U! w
- Y# a1 k- S7 r  d
  k( C# u" g8 y, Z$ J2 F而单层PDF文档,或者制作正规没有发生位置偏移的文档,它的显示效果是下面这样的:
* p2 a1 K; B2 H# \7 g
7 k6 K' I8 e$ I# O1 _7 _
. E% T- H9 @3 b5 D0 s6 d+ o/ J
) Z! t0 g, A" D  |. N$ y: v% U& F这样的文档选词高亮后的位置就是整齐的,实拍如下:
9 d' ~6 R0 k. y
+ P" |8 |: U& ^4 i3 V; V6 O. ]& V2 B

2 B$ h& L8 \3 F- A# M框框的位置高亮有断掉,因为原始文档在这个位置分段了,所以高亮的时候这个位置没能连贯起来,这个问题在研究解决方案中了。
- I  z4 a& P- D$ ]5 y5 h# h3 K1 z4 K+ v
而关于大家说的高亮太”黑“不便于查看文字,改为灰色其实并不适合EINK的显示,后面我们会增加下划线的选择方案,这个已经做好,会在下一版的升级包中提供,效果如下:
% ]6 w# W+ q- W4 @( H
* g5 o/ w) ^& Y
* x4 e. ]% R$ j$ b  D3 n
4 }: |( h' |5 n, ]/ O) L+ z$ k
9 _; z; g1 j6 o6 C& \4 G3. 目前BOOX上对双层PDF文档的修正。% F1 p' T* \9 _
9 [) E7 Q6 q. {- M  w; S
已经可以基本解决左右偏移的问题,达到原始文档文字层和图片层的原始位置一致,部分文字缺失的问题还在查找原因。
7 G& d2 X, h1 q# S9 _; ~" J2 ~$ p9 V- ]+ Y  \
实拍M96上高亮的位置:* x: [; r( x: T6 H, A2 {
$ D+ {& g- X, d0 y( j. j' D
5 W! |2 r$ J2 j, `( G6 x0 s# K
: E; f9 L8 Y( V- _# K% v
PC上打开导出文档的高亮位置:
- `. J, s$ {3 K* X7 d9 v
5 s- p  w) t5 P
2 F  |  X- a! Z/ c
& S# t# t, a9 D4 K是的,你看到的高亮还是不整齐的,因为源文档它就是这样的啊,把高亮换成下划线的话,看到的也是一段一段的,这个是阅读器无法解决的问题,至少目前不能,以后能不能要看技术的发展了。
+ y$ y9 g( {; [% b6 J6 Z. k' b3 T+ o: \

. f: a2 }* Y2 M
+ P0 Y- }8 f! k! g1 Q4. 阅读器上双层PDF文档的普遍表现。, u) c; i$ x- {

  R4 y' P9 E; Z5 B6 n' W+ i目前我们除了测试M96上双层PDF文档的表现,还请群里的网友测了其他品牌的阅读器,kindle原生系统和kindle多看系统高亮的效果和我们BOOX基本一样,源文档怎么错位,阅读器上高亮后效果就是如何,并且无法导出,kobo aura hd和博阅t62只能识别图片层,不能识别文本层,所以不能高亮文字,sony大法的13.3暂时没找到人可以测,后续如果找到了会更新上来。
( c" M$ p# X# U. N" ?
2 W. d( ?# {. K8 u( gkindle 多看系统:
" x# ]2 _8 U* p2 j: ~! v$ \6 o# s" h% `+ a' [! j

5 C9 ?) V- B3 n2 Q! |. C( F& V# w' X7 z+ I
kindle 原生系统:; q3 t4 G. u- J

+ y' N* ?- D! ~
4 U7 P9 b3 g: g
2 q; l9 @) R4 p' ]# N9 `
9 I; X! P- J8 [2 z上述这些并不是推卸责任,既然我们做了这个功能,当然希望能做好用好,不然我们也可以跟其他一样完全不到导出的功能,或者压根不让识别双层文档,就当扫描版处理。只是想说明,和普通单层PDF文档相比,这种双层PDF文档的特殊性,基本上常见的阅读器都没有做到完美支持,我们也在边做边发现问题边修正问题,但这些都需要一个过程去完成,如果能即时发现即时解决当然最好,不能马上解决也是有客观原因的,希望大家能够谅解。& S* s. N( I0 Z# ]5 `. U) [1 _# z
3 ^7 M" o, M7 `3 s

! g; e( _: V" I发布1.7.2时就说过,下一个版本1.8会重点解决批注和字典的问题,所以双层PDF的问题我们会重点研究和解决,因为这种文档的特殊性,特别做了以上分析说明,也欢迎大家补充我们还未发现的问题,我们尽量尽快解决,不能解决的也会在升级版本中说明。6 b$ O! {8 m8 J4 m4 a8 `

9 t& d! {# v5 h9 {( v) X谢谢大家。
. w+ @5 W; e8 _# @4 K! \

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

参与人数 1RP +1 支持 +1 收起 理由
木木_D02j6 + 1 + 1 同意

查看全部评分

发表于 2015-6-25 20:57:44 | 显示全部楼层
非常好,能够正视问题就有希望。
, @; r' `1 |5 N在下个版本,onyxscrible还增加导出功能和优化橡皮的功能啊?橡皮整屏最简单的就是增加个确认也行,防止误操作。如果再能增加恢复上一步的功能就更摆了。- `# }. q; p& x' g) j
真正做到读书和笔记了

点评

这个可以整理进升级列表中,但目前的计划1.7.3主要修改neo reader批注字典的问题,onyxscribbler的问题不确定这一版是否能改。  发表于 2015-6-26 09:45
发表于 2015-6-25 22:11:05 | 显示全部楼层
我觉得应该将高亮增加一个设置,让用户自己决定高亮是灰底黑字,还是黄底黑字(方便拷回电脑处理),高亮、下划线应该能嵌入PDF文件,而不是另外导出一个。要么就增加一个选项,是另外导出一个,还是嵌入原文件。最好是翻页动作后,就自动嵌入原文件。这样就不会出现升级后,或者误操作造成的笔记丢失现象了。我猜的没错的话,现在的批注、高亮笔记都是存在阅读器内存中某个文件夹中吧?包括epub文件,都没有嵌入笔记。所以丢失笔记的情况时刻都有。/ v7 a8 V6 I/ C  G! S0 V2 |
- j" k0 ^+ R1 k2 f
再高端一点的功能,笔记能上传到evernote?

点评

嵌入 是指嵌入源文档?还是导出时嵌入在export文档里?源文档的话不建议做嵌入,不便于后面想要修改批注内容,同时也会影响处理速度。  发表于 2015-6-26 09:52
分享的功能有考虑,可以把这一条加进去  发表于 2015-6-26 09:42
发表于 2015-6-26 11:05:27 | 显示全部楼层
本帖最后由 ibach 于 2015-6-26 11:10 编辑
( m! y! _$ a. {6 d  s8 v- B& |) e7 ?9 U7 j, }4 \9 [
今天试了下双层pdf的高亮导出,结果发现,导出的高亮页面顺序有明显的bug,导出的页面为2-12页,但显示顺序为2,11,12,3,4,5......10,,而且每页的导出都是紧密排列的,建议在每页的导出末尾换行隔开,同时最好能用***********这样的符号隔开,显示效果更佳。其次就是pdf高亮出来的结果,与pdf页面偏移,也许是pdf的问题。最后,如果在neo reader里面加入多个书签、页面高亮就会变得不稳定,常常自动退出,希望继续优化neo的稳定性。

点评

现在导出的txt是每一条都自动空行的呀  发表于 2015-6-29 14:35
这个问题到这里才看明白啥意思了,已经反馈给研发部门做修改  发表于 2015-6-29 14:34
发表于 2015-6-26 21:43:25 | 显示全部楼层
M96Plus产品本身的使命应该是读书和笔记。
( k) \/ n7 j( X5 [) z1. 对于读书,基本能满足,也有可替代方案,所以对于双层pdf没必要台钻。  J" F! R! L6 C; H* L7 F# R
2. 但对于笔记,当前的onyxscribbler形同虚设,这个你们应考虑在前面,才可以胜过汉王。3 c, F% x: f* O2 J) q9 x* h
你们还是要搞清楚产品开发与市场竞争的关系

点评

目前来说onyxscribbler还是辅助功能,主要还是以reader的功能为主。汉王是做手写板出身的呀,整个公司的定位都不一样  发表于 2015-6-29 14:40
每个人的需求点都不一样,众口难调  发表于 2015-6-29 14:26
发表于 2015-6-29 15:27:35 | 显示全部楼层
ibach 发表于 2015-6-26 11:05 1 I2 g; e2 m; X
今天试了下双层pdf的高亮导出,结果发现,导出的高亮页面顺序有明显的bug,导出的页面为2-12页,但显示顺序 ...

# T+ ~8 O$ D& D% d  d- l9 ~0 U不知道您看懂的是那一条,需要进一步说清楚,我可以上传附件。
发表于 2015-9-5 18:00:32 | 显示全部楼层
学习一下
发表于 2016-4-5 06:24:07 来自手机 | 显示全部楼层
似乎双层PDF是图片+表单形成的(我OCR扫描版PDF就形成这类似的效果。
发表于 2016-5-16 12:18:27 来自手机 | 显示全部楼层
n96,打开双层pdf,点朗读直接闪退,点字体放大直接闪退,只能原版看,是不是bug!!!!!!!
发表于 2016-7-26 13:12:21 | 显示全部楼层
FOXIT PDF EDITOR是个妖怪,% s1 {; N( C* O6 K7 k
改PDF非常快。% K6 p% z1 `2 f- d% @
但是改好的文件,& O# D% `- h1 ^$ G2 i7 m* K
用FOXIT READER或ADOBE ACROBAT看到的是一种结果,
2 H% V& D% x. e8 @- D用AI来编辑里面的内容却可以是另一天地。
发表于 2016-7-29 06:06:12 | 显示全部楼层
谢谢分享
发表于 2017-6-11 15:04:28 | 显示全部楼层
传说私服一条龙|网页游戏私服一条龙|幻灵游侠私服一条龙跑跑卡丁车私服一条龙
. ]: t- w+ b: K# o永恒之塔2.1|178|2.0|2.1杀星时代商业服务端|剑侠情缘私服一条龙A3私服一条龙
& ]( ]; l3 o/ ^1 G神迹私服一条龙丝路传说私服一条龙仙境传说私服一条龙梦幻国度惊天动地一条龙: G1 I! f3 P6 V
魔兽世界SF一条龙RFonline一条龙永恒之塔一条龙大话西游一条龙精灵复兴一条龙0 {9 J( x9 F- q  C) c- T4 _
蜀门一条龙英雄王座私服一条龙神迹私服一条龙科洛斯私服一条龙完美世界一条龙
; W* m: Z$ p, Y  H1 y& D* J冒险岛私服一条龙天上碑私服一条龙天堂2私服一条龙美丽世界一条龙征服S一条龙
/ O- p4 k4 `8 o2 |. Z+ ~7 {- S魔力宝贝私服一条龙挑战私服一条龙千年一条龙奇侠xiah一条龙真封神私服一条龙5 T- s6 D; G( K' @$ Y& h( }
GM除了可以在自己开的服里畅快的玩,还可以获取玩家充值而得大赚一笔!! z3 x$ P# M7 g2 P' K0 u
同样的价格,我们比质量;同样的质量,我们比服务;同样的服务,我们比信誉!* P, w9 I7 D; U) x1 Y# D$ o
我们的服务,帮助您走向锦绣的前程,品质源于竭力提供放心,安心,称心!
& g3 m' ]  M9 q# k想开个好F就来m7sf.com 想要服务器不卡就来m7sf.com!
0 C( h. k, ]* G6 VIDC服务器以及空间租用-私服一条龙服务端出售
% ~9 Z/ s6 G) u, B6 w" Y3 ~主机租用m7sf.com/server
7 o! ?+ K( E# W8 Y0 x9 ?9 v5 G$ Z开区模版m7sf.com/shop/Wangzhan2 m) ?2 j) {9 g4 n4 [+ n' p4 j$ \
版本介绍m7sf.com/shop/banben4 ]8 ]+ N4 L  H- |# B
开区广告m7sf.com/ad.asp
1 P% e4 Z2 n; x) ~. |游戏套餐m7sf.com/taocao
9 G# Y, t* H2 K& Q  `- F2 J4 [官方网站m7sf.com
/ ~( t1 m8 F, r# B9 D) w客服咨询QQ1207542352(企鹅扣扣)
' |# B! f/ {( iEmail:1207542352@qq.com
: S( n% F0 a$ P0 Y( Em7sf.com免费服务端版本下载地址(已修复不能下载问题):, ~2 D% j: k: d  l1 n( e# V; m* T
m7sf.com/soft/index.html
5 X* ?( ^" A5 ~) ]传世开私服版本一条龙服务_m7sf.com
* B* B, s# n, [2 a6 `奇迹开私服开服一条龙_m7sf.com! @2 M3 N  e. @
热血江湖开sf一条龙服务_m7sf.com
: Z8 Y1 c/ F7 F& \' l8 Z% y; k8 d* j

) n# N$ k9 `+ J7 Q- h2 Y5 C5 Z, |0 D
( n" v7 v# c/ O. e- {# n! Z
  K% C5 N9 S/ V6 S" F- P

+ L& T" w0 \; D- j" c" _
9 o# t" U# i' F( p; Z/ N2 v6 E8 A* y+ ]# D4 m$ g

! R" z& X+ k5 C: A2 ~# |
. w% T6 V/ R- m" E+ O, Z; V
7 y; _! O3 Q0 }; N
! F: B5 t) o2 }0 O) L! q2 {传奇私服开服一条龙开区服务 魔域私服一条龙开区服务 破天私服开服一条龙服务
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|小黑屋|手机版|文石BOOX官方社区

GMT+8, 2021-7-26 22:21 , Processed in 0.036229 second(s), 24 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表