4a008df8e18637b6cfa6579ad605a9b467676d24
[idzebra-moved-to-github.git] / data1 / d1_absyn.c
1 /* $Id: d1_absyn.c,v 1.23 2006-02-07 00:17:44 adam Exp $
2    Copyright (C) 1995-2005
3    Index Data ApS
4
5 This file is part of the Zebra server.
6
7 Zebra is free software; you can redistribute it and/or modify it under
8 the terms of the GNU General Public License as published by the Free
9 Software Foundation; either version 2, or (at your option) any later
10 version.
11
12 Zebra is distributed in the hope that it will be useful, but WITHOUT ANY
13 WARRANTY; without even the implied warranty of MERCHANTABILITY or
14 FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
15 for more details.
16
17 You should have received a copy of the GNU General Public License
18 along with Zebra; see the file LICENSE.zebra.  If not, write to the
19 Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
20 02111-1307, USA.
21 */
22
23 #include <stdio.h>
24 #include <assert.h>
25 #include <stdlib.h>
26 #include <string.h>
27
28 #include <yaz/log.h>
29 #include <yaz/oid.h>
30 #include <idzebra/data1.h>
31 #include <zebra_xpath.h>
32 #include <d1_absyn.h>
33
34 #define D1_MAX_NESTING  128
35
36 struct data1_hash_table {
37     NMEM nmem;
38     int size;
39     struct data1_hash_entry **ar;
40 };
41
42 struct data1_hash_entry {
43     void *clientData;
44     char *str;
45     struct data1_hash_entry *next;
46 };
47
48 unsigned data1_hash_calc(struct data1_hash_table *ht, const char *str)
49 {
50     unsigned v = 0;
51     assert(str);
52     while (*str)
53     {
54         if (*str >= 'a' && *str <= 'z')
55             v = v*65509 + *str -'a'+10;
56         else if (*str >= 'A' && *str <= 'Z')
57             v = v*65509 + *str -'A'+10;
58         else if (*str >= '0' && *str <= '9')
59             v = v*65509 + *str -'0';
60         str++;
61     }
62     return v % ht->size;
63 }
64
65 struct data1_hash_table *data1_hash_open(int size, NMEM nmem)
66 {
67     int i;
68     struct data1_hash_table *ht = nmem_malloc(nmem, sizeof(*ht));
69     ht->nmem = nmem;
70     ht->size = size;
71     if (ht->size <= 0)
72         ht->size = 29;
73     ht->ar = nmem_malloc(nmem, sizeof(*ht->ar) * ht->size);
74     for (i = 0; i<ht->size; i++)
75         ht->ar[i] = 0;
76     return ht;
77 }
78
79 void data1_hash_insert(struct data1_hash_table *ht, const char *str,
80                        void *clientData, int copy)
81 {
82     char *dstr = copy ? nmem_strdup(ht->nmem, str) : (char*) str;
83     if (strchr(str, '?') || strchr(str, '.'))
84     {
85         int i;
86         for (i = 0; i<ht->size; i++)
87         {
88             struct data1_hash_entry **he = &ht->ar[i];
89             for (; *he && strcmp(str, (*he)->str); he = &(*he)->next)
90                 ;
91             if (!*he)
92             {
93                 *he = nmem_malloc(ht->nmem, sizeof(**he));
94                 (*he)->str = dstr;
95                 (*he)->next = 0;
96             }
97             (*he)->clientData = clientData;
98         }
99     }
100     else
101     {
102         struct data1_hash_entry **he = &ht->ar[data1_hash_calc(ht, str)];
103         for (; *he && strcmp(str, (*he)->str); he = &(*he)->next)
104             ;
105         if (!*he)
106         {
107             *he = nmem_malloc(ht->nmem, sizeof(**he));
108             (*he)->str = dstr;
109             (*he)->next = 0;
110         }
111         (*he)->clientData = clientData;
112     }
113 }
114
115 void *data1_hash_lookup(struct data1_hash_table *ht, const char *str)
116 {
117     struct data1_hash_entry **he = &ht->ar[data1_hash_calc(ht, str)];
118     
119     for (; *he && yaz_matchstr(str, (*he)->str); he = &(*he)->next)
120         ;
121     if (*he)
122         return (*he)->clientData;
123     return 0;
124 }
125
126 struct data1_systag {
127     char *name;
128     char *value;
129     struct data1_systag *next;
130 };
131
132 struct data1_absyn_cache_info 
133 {
134     char *name;
135     data1_absyn *absyn;
136     data1_absyn_cache next;
137 };
138
139 struct data1_attset_cache_info 
140 {
141     char *name;
142     data1_attset *attset;
143     data1_attset_cache next;
144 };
145
146 data1_element *data1_mk_element(data1_handle dh)
147 {
148     data1_element *e = nmem_malloc(data1_nmem_get(dh), sizeof(*e));
149     e->name = 0;
150     e->tag = 0;
151     e->termlists = 0;
152     e->next = e->children = 0;
153     e->sub_name = 0;
154     e->hash = 0;
155     return e;
156 }
157
158 data1_absyn *data1_absyn_search (data1_handle dh, const char *name)
159 {
160     data1_absyn_cache p = *data1_absyn_cache_get (dh);
161
162     while (p)
163     {
164         if (!yaz_matchstr (name, p->name))
165             return p->absyn;
166         p = p->next;
167     }
168     return NULL;
169 }
170 /* *ostrich*
171    We need to destroy DFAs, in xp_element (xelm) definitions 
172    pop, 2002-12-13
173 */
174
175 void data1_absyn_destroy (data1_handle dh)
176 {
177     data1_absyn_cache p = *data1_absyn_cache_get (dh);
178     
179     while (p)
180     {
181         data1_absyn *abs = p->absyn;
182         if (abs)
183         {
184             data1_xpelement *xpe = abs->xp_elements;
185             while (xpe) {
186                 yaz_log (YLOG_DEBUG,"Destroy xp element %s",xpe->xpath_expr);
187                 if (xpe->dfa) {  dfa_delete (&xpe->dfa); }
188                 xpe = xpe->next;
189             } 
190         }
191         p = p->next;
192     }
193 }
194
195
196 void data1_absyn_trav (data1_handle dh, void *handle,
197                        void (*fh)(data1_handle dh, void *h, data1_absyn *a))
198 {
199     data1_absyn_cache p = *data1_absyn_cache_get (dh);
200
201     while (p)
202     {
203         (*fh)(dh, handle, p->absyn);
204         p = p->next;
205     }
206 }
207
208 data1_absyn *data1_absyn_add (data1_handle dh, const char *name)
209 {
210     char fname[512];
211     NMEM mem = data1_nmem_get (dh);
212
213     data1_absyn_cache p = (data1_absyn_cache)nmem_malloc (mem, sizeof(*p));
214     data1_absyn_cache *pp = data1_absyn_cache_get (dh);
215
216     sprintf(fname, "%s.abs", name);
217     p->absyn = data1_read_absyn (dh, fname, 0);
218     p->name = nmem_strdup (mem, name);
219     p->next = *pp;
220     *pp = p;
221     return p->absyn;
222 }
223
224 data1_absyn *data1_get_absyn (data1_handle dh, const char *name)
225 {
226     data1_absyn *absyn;
227
228     if (!(absyn = data1_absyn_search (dh, name)))
229         absyn = data1_absyn_add (dh, name);
230     return absyn;
231 }
232
233 data1_attset *data1_attset_search_name (data1_handle dh, const char *name)
234 {
235     data1_attset_cache p = *data1_attset_cache_get (dh);
236
237     while (p)
238     {
239         if (!yaz_matchstr (name, p->name))
240             return p->attset;
241         p = p->next;
242     }
243     return NULL;
244 }
245
246 data1_attset *data1_attset_search_id (data1_handle dh, int id)
247 {
248     data1_attset_cache p = *data1_attset_cache_get (dh);
249
250     while (p)
251     {
252         if (id == p->attset->reference)
253             return p->attset;
254         p = p->next;
255     }
256     return NULL;
257 }
258
259 data1_attset *data1_attset_add (data1_handle dh, const char *name)
260 {
261     char fname[512], aname[512];
262     NMEM mem = data1_nmem_get (dh);
263     data1_attset *attset;
264
265     strcpy (aname, name);
266     sprintf(fname, "%s.att", name);
267     attset = data1_read_attset (dh, fname);
268     if (!attset)
269     {
270         char *cp;
271         attset = data1_read_attset (dh, name);
272         if (attset && (cp = strrchr (aname, '.')))
273             *cp = '\0';
274     }
275     if (!attset)
276         yaz_log (YLOG_WARN|YLOG_ERRNO, "Couldn't load attribute set %s", name);
277     else
278     {
279         data1_attset_cache p = (data1_attset_cache)
280             nmem_malloc (mem, sizeof(*p));
281         data1_attset_cache *pp = data1_attset_cache_get (dh);
282         
283         attset->name = p->name = nmem_strdup (mem, aname);
284         p->attset = attset;
285         p->next = *pp;
286         *pp = p;
287     }
288     return attset;
289 }
290
291 data1_attset *data1_get_attset (data1_handle dh, const char *name)
292 {
293     data1_attset *attset;
294
295     if (!(attset = data1_attset_search_name (dh, name)))
296         attset = data1_attset_add (dh, name);
297     return attset;
298 }
299
300 data1_esetname *data1_getesetbyname(data1_handle dh, data1_absyn *a,
301                                     const char *name)
302 {
303     data1_esetname *r;
304
305     for (r = a->esetnames; r; r = r->next)
306         if (!data1_matchstr(r->name, name))
307             return r;
308     return 0;
309 }
310
311 /* we have multiple versions of data1_getelementbyname */
312 #define DATA1_GETELEMENTBYTAGNAME_VERSION 1
313
314 #if DATA1_GETELEMENTBYTAGNAME_VERSION==0
315 /* straight linear search */
316 data1_element *data1_getelementbytagname (data1_handle dh, data1_absyn *abs,
317                                           data1_element *parent,
318                                           const char *tagname)
319 {
320     data1_element *r;
321
322     /* It's now possible to have a data1 tree with no abstract syntax */
323     if ( !abs )
324         return 0;
325
326     if (!parent)
327         r = abs->main_elements;
328     else
329         r = parent->children;
330
331     for (; r; r = r->next)
332     {
333         data1_name *n;
334
335         for (n = r->tag->names; n; n = n->next)
336             if (!data1_matchstr(tagname, n->name))
337                 return r;
338     }
339     return 0;
340 }
341 #endif
342
343 #if DATA1_GETELEMENTBYTAGNAME_VERSION==1
344 /* using hash search */
345 data1_element *data1_getelementbytagname (data1_handle dh, data1_absyn *abs,
346                                           data1_element *parent,
347                                           const char *tagname)
348 {
349     data1_element *r;
350     struct data1_hash_table *ht;
351
352     /* It's now possible to have a data1 tree with no abstract syntax */
353     if ( !abs )
354         return 0;
355
356     if (!parent)
357         r = abs->main_elements;
358     else
359         r = parent->children;
360
361     if (!r)
362         return 0;
363
364     ht = r->hash;
365     if (!ht)
366     {
367         ht = r->hash = data1_hash_open(29, data1_nmem_get(dh));
368         for (; r; r = r->next)
369         {
370             data1_name *n;
371             
372             for (n = r->tag->names; n; n = n->next)
373                 data1_hash_insert(ht, n->name, r, 0);
374         }
375     }
376     return data1_hash_lookup(ht, tagname);
377 }
378 #endif
379
380 data1_element *data1_getelementbyname (data1_handle dh, data1_absyn *absyn,
381                                        const char *name)
382 {
383     data1_element *r;
384
385     /* It's now possible to have a data1 tree with no abstract syntax */
386     if ( !absyn )
387         return 0;
388     for (r = absyn->main_elements; r; r = r->next)
389         if (!data1_matchstr(r->name, name))
390             return r;
391     return 0;
392 }
393
394
395 void fix_element_ref (data1_handle dh, data1_absyn *absyn, data1_element *e)
396 {
397     /* It's now possible to have a data1 tree with no abstract syntax */
398     if ( !absyn )
399         return;
400
401     for (; e; e = e->next)
402     {
403         if (!e->sub_name)
404         {
405             if (e->children)
406                 fix_element_ref (dh, absyn, e->children);
407         }
408         else
409         {
410             data1_sub_elements *sub_e = absyn->sub_elements;
411             while (sub_e && strcmp (e->sub_name, sub_e->name))
412                 sub_e = sub_e->next;
413             if (sub_e)
414                 e->children = sub_e->elements;
415             else
416                 yaz_log (YLOG_WARN, "Unresolved reference to sub-elements %s",
417                       e->sub_name);
418         }
419     }
420 }
421 /* *ostrich*
422
423    New function, a bit dummy now... I've seen it in zrpn.c... We should build
424    more clever regexps...
425
426
427       //a    ->    ^a/.*$
428       //a/b  ->    ^b/a/.*$
429       /a     ->    ^a/$
430       /a/b   ->    ^b/a/$
431
432       /      ->    none
433
434    pop, 2002-12-13
435
436    Now [] predicates are supported
437
438    pop, 2003-01-17
439
440  */
441
442 static const char * mk_xpath_regexp (data1_handle dh, const char *expr) 
443 {
444     const char *p = expr;
445     int abs = 1;
446     int e = 0;
447     char *stack[32];
448     char *res_p, *res = 0;
449     size_t res_size = 1;
450     
451     if (*p != '/')
452         return ("");
453     p++;
454     if (*p == '/') 
455     { 
456         abs =0;
457         p++;
458     }
459     while (*p)
460     {
461         int is_predicate = 0;
462         char *s;
463         int i, j;
464         for (i = 0; *p && !strchr("/",*p); i++, p++)
465             ;
466         res_size += (i+3); /* we'll add / between later .. */
467         stack[e] = (char *) nmem_malloc(data1_nmem_get(dh), i+1);
468         s = stack[e];
469         for (j = 0; j < i; j++)
470         {
471             const char *pp = p-i+j;
472             if (*pp == '[')
473                 is_predicate=1;
474             else if (*pp == ']')
475                 is_predicate=0;
476             else 
477             {
478                 if (!is_predicate) {
479                     if (*pp == '*') 
480                         *s++ = '.';
481                     *s++ = *pp;
482                 }
483             }
484         }
485         *s = 0;
486         e++;
487         if (*p)
488             p++;
489     }
490     res_p = res = nmem_malloc(data1_nmem_get(dh), res_size + 10);
491
492     if (stack[e-1][0] == '@')  /* path/@attr spec (leaf is attribute) */
493         strcpy(res_p, "/");
494     else
495         strcpy(res_p, "[^@]*/");  /* path .. (index all cdata below it) */
496     res_p = res_p + strlen(res_p);
497     while (--e >= 0) {
498         sprintf(res_p, "%s/", stack[e]);
499         res_p += strlen(stack[e]) + 1;
500     }
501     if (!abs)
502     {
503         sprintf(res_p, ".*"); 
504         res_p += 2;
505     }
506     sprintf (res_p, "$");
507     res_p++;
508     yaz_log(YLOG_DEBUG, "Got regexp: %s", res);
509     return res;
510 }
511
512 /* *ostrich*
513
514    added arg xpelement... when called from xelm context, it's 1, saying
515    that ! means xpath, not element name as attribute name...
516
517    pop, 2002-12-13
518  */
519 static int parse_termlists (data1_handle dh, data1_termlist ***tpp,
520                             char *cp, const char *file, int lineno,
521                             const char *element_name, data1_absyn *res,
522                             int xpelement)
523 {
524     data1_termlist **tp = *tpp;
525     while(1)
526     {
527         char attname[512], structure[512];
528         char *source;
529         int r, i;
530         int level = 0;
531         structure[0] = '\0';
532         for (i = 0; cp[i] && i<sizeof(attname)-1; i++)
533             if (strchr(":,", cp[i]))
534                 break;
535             else
536                 attname[i] = cp[i];
537         if (i == 0)
538         {
539             if (*cp)
540                 yaz_log(YLOG_WARN,
541                         "%s:%d: Syntax error in termlistspec '%s'",
542                         file, lineno, cp);
543             break;
544         }
545         attname[i] = '\0';
546         r = 1;
547         cp += i;
548         if (*cp == ':')
549             cp++;
550
551         for (i = 0; cp[i] && i<sizeof(structure)-1; i++)
552             if (level == 0 && strchr(",", cp[i]))
553                 break;
554             else
555             {
556                 structure[i] = cp[i];
557                 if (cp[i] == '(')
558                     level++;
559                 else if (cp[i] == ')')
560                     level--;
561             }
562         structure[i] = '\0';
563         if (i)
564             r = 2;
565         cp += i;
566         if (*cp)
567             cp++;  /* skip , */
568
569         *tp = (data1_termlist *)
570             nmem_malloc(data1_nmem_get(dh), sizeof(**tp));
571         (*tp)->next = 0;
572         
573 #if NATTR
574         (*tp)->index_name = nmem_strdup(data1_nmem_get(dh), element_name);
575         if (*attname == '!' && xpelement)
576             (*tp)->index_name = 0;
577 #else
578         if (!xpelement) {
579             if (*attname == '!')
580                 strcpy(attname, element_name);
581         }
582         if (!((*tp)->att = data1_getattbyname(dh, res->attset, attname))) 
583         {
584             if ((!xpelement) || (*attname != '!')) {
585                 yaz_log(YLOG_WARN,
586                         "%s:%d: Couldn't find att '%s' in attset",
587                         file, lineno, attname);
588                 return -1;
589             } else {
590                 (*tp)->att = 0;
591             }
592         }
593 #endif   
594         if (r == 2 && (source = strchr(structure, ':')))
595             *source++ = '\0';   /* cut off structure .. */
596         else
597             source = "data";    /* ok: default is leaf data */
598         (*tp)->source = (char *)
599             nmem_strdup (data1_nmem_get (dh), source);
600         
601         if (r < 2) /* is the structure qualified? */
602             (*tp)->structure = "w";
603         else 
604             (*tp)->structure = (char *)
605                 nmem_strdup (data1_nmem_get (dh), structure);
606         tp = &(*tp)->next;
607     }
608
609     *tpp = tp;
610     return 0;
611 }
612
613 /* quinn
614  * Converts a 'melm' field[$subfield] pattern to a simple xpath
615  */
616 static int melm2xpath(char *melm, char *buf)
617 {
618     char *dollar;
619     char *field = melm;
620     char *subfield;
621     char *fieldtype;
622     if ((dollar = strchr(melm, '$'))) {
623         *dollar = '\0';
624         subfield = ++dollar;
625     } else
626         subfield = "";
627     if (field[0] == '0' && field[1] == '0')
628         fieldtype = "controlfield";
629     else
630         fieldtype = "datafield";
631     sprintf(buf, "/*/%s[@tag=\"%s\"]", fieldtype, field);
632     if (*subfield) 
633         sprintf(buf + strlen(buf), "/subfield[@code=\"%s\"]", subfield);
634     else if (field[0] != '0' || field[1] != '0')
635         strcat(buf, "/subfield");
636     yaz_log(YLOG_DEBUG, "Created xpath: '%s'", buf);
637     return 0;
638 }
639
640 const char *data1_systag_lookup(data1_absyn *absyn, const char *tag,
641                                 const char *default_value)
642 {
643     struct data1_systag *p = absyn->systags;
644     for (; p; p = p->next)
645         if (!strcmp(p->name, tag))
646             return p->value;
647     return default_value;
648 }
649
650 #define l_isspace(c) ((c) == '\t' || (c) == ' ' || (c) == '\n' || (c) == '\r')
651
652 int read_absyn_line(FILE *f, int *lineno, char *line, int len,
653                     char *argv[], int num)
654 {
655     char *p;
656     int argc;
657     int quoted = 0;
658     
659     while ((p = fgets(line, len, f)))
660     {
661         (*lineno)++;
662         while (*p && l_isspace(*p))
663             p++;
664         if (*p && *p != '#')
665             break;
666     }
667     if (!p)
668         return 0;
669     
670     for (argc = 0; *p ; argc++)
671     {
672         if (*p == '#')  /* trailing comment */
673             break;
674         argv[argc] = p;
675         while (*p && !(l_isspace(*p) && !quoted)) {
676           if (*p =='"') quoted = 1 - quoted;
677           if (*p =='[') quoted = 1;
678           if (*p ==']') quoted = 0;
679           p++;
680         }
681         if (*p)
682         {
683             *(p++) = '\0';
684             while (*p && l_isspace(*p))
685                 p++;
686         }
687     }
688     return argc;
689 }
690
691 data1_marctab *data1_absyn_getmarctab(data1_handle dh, data1_absyn *absyn)
692 {
693     return absyn->marc;
694 }
695
696 YAZ_EXPORT data1_element *data1_absyn_getelements(data1_handle dh,
697                                                   data1_absyn *absyn)
698 {
699     return absyn->main_elements;
700 }
701
702 data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
703                                int file_must_exist)
704 {
705     data1_sub_elements *cur_elements = NULL;
706     data1_xpelement *cur_xpelement = NULL;
707
708     data1_absyn *res = 0;
709     FILE *f;
710     data1_element **ppl[D1_MAX_NESTING];
711     data1_esetname **esetpp;
712     data1_maptab **maptabp;
713     data1_marctab **marcp;
714     data1_termlist *all = 0;
715     data1_attset_child **attset_childp;
716     data1_tagset **tagset_childp;
717     struct data1_systag **systagsp;
718     int level = 0;
719     int lineno = 0;
720     int argc;
721     char *argv[50], line[512];
722
723     if (!(f = data1_path_fopen(dh, file, "r")))
724     {
725         yaz_log(YLOG_WARN|YLOG_ERRNO, "Couldn't open %s", file);
726         if (file_must_exist)
727             return 0;
728     }
729     
730     res = (data1_absyn *) nmem_malloc(data1_nmem_get(dh), sizeof(*res));
731     res->name = 0;
732     res->reference = VAL_NONE;
733     res->tagset = 0;
734     res->encoding = 0;
735     res->enable_xpath_indexing = (f ? 0 : 1);
736     res->systags = 0;
737     systagsp = &res->systags;
738     tagset_childp = &res->tagset;
739
740     res->attset = data1_empty_attset (dh);
741     attset_childp =  &res->attset->children;
742
743     res->varset = 0;
744     res->esetnames = 0;
745     esetpp = &res->esetnames;
746     res->maptabs = 0;
747     maptabp = &res->maptabs;
748     res->marc = 0;
749     marcp = &res->marc;
750     res->sub_elements = NULL;
751     res->main_elements = NULL;
752     res->xp_elements = NULL;
753     
754     while (f && (argc = read_absyn_line(f, &lineno, line, 512, argv, 50)))
755     {
756         char *cmd = *argv;
757         if (!strcmp(cmd, "elm") || !strcmp(cmd, "element"))
758         {
759             data1_element *new_element;
760             int i;
761             char *p, *sub_p, *path, *name, *termlists;
762             int type, value;
763             data1_termlist **tp;
764
765             if (argc < 4)
766             {
767                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args to elm", file, lineno);
768                 continue;
769             }
770             path = argv[1];
771             name = argv[2];
772             termlists = argv[3];
773
774             if (!cur_elements)
775             {
776                 cur_elements = (data1_sub_elements *)
777                     nmem_malloc(data1_nmem_get(dh), sizeof(*cur_elements));
778                 cur_elements->next = res->sub_elements;
779                 cur_elements->elements = NULL;
780                 cur_elements->name = "main";
781                 res->sub_elements = cur_elements;
782                 
783                 level = 0;
784                 ppl[level] = &cur_elements->elements;
785             }
786             p = path;
787             for (i = 1;; i++)
788             {
789                 char *e;
790
791                 if ((e = strchr(p, '/')))
792                     p = e+1;
793                 else
794                     break;
795             }
796             if (i > level+1)
797             {
798                 yaz_log(YLOG_WARN, "%s:%d: Bad level increase", file, lineno);
799                 fclose(f);
800                 return 0;
801             }
802             level = i;
803             new_element = *ppl[level-1] = data1_mk_element(dh);
804             
805             tp = &new_element->termlists;
806             ppl[level-1] = &new_element->next;
807             ppl[level] = &new_element->children;
808             
809             /* consider subtree (if any) ... */
810             if ((sub_p = strchr (p, ':')) && sub_p[1])
811             {
812                 *sub_p++ = '\0';
813                 new_element->sub_name =
814                     nmem_strdup (data1_nmem_get(dh), sub_p);            
815             }
816             /* well-defined tag */
817             if (sscanf(p, "(%d,%d)", &type, &value) == 2)
818             {
819                 if (!res->tagset)
820                 {
821                     yaz_log(YLOG_WARN, "%s:%d: No tagset loaded", file, lineno);
822                     fclose(f);
823                     return 0;
824                 }
825                 if (!(new_element->tag = data1_gettagbynum (dh, res->tagset,
826                                                             type, value)))
827                 {
828                     yaz_log(YLOG_WARN, "%s:%d: Couldn't find tag %s in tagset",
829                          file, lineno, p);
830                     fclose(f);
831                     return 0;
832                 }
833             }
834             /* private tag */
835             else if (*p)
836             {
837                 data1_tag *nt =
838                     new_element->tag = (data1_tag *)
839                     nmem_malloc(data1_nmem_get (dh),
840                                 sizeof(*new_element->tag));
841                 nt->which = DATA1T_string;
842                 nt->value.string = nmem_strdup(data1_nmem_get (dh), p);
843                 nt->names = (data1_name *)
844                     nmem_malloc(data1_nmem_get(dh), 
845                                 sizeof(*new_element->tag->names));
846                 nt->names->name = nt->value.string;
847                 nt->names->next = 0;
848                 nt->kind = DATA1K_string;
849                 nt->next = 0;
850                 nt->tagset = 0;
851             }
852             else
853             {
854                 yaz_log(YLOG_WARN, "%s:%d: Bad element", file, lineno);
855                 fclose(f);
856                 return 0;
857             }
858             /* parse termList definitions */
859             p = termlists;
860             if (*p != '-')
861             {
862                 assert (res->attset);
863                 
864                 if (parse_termlists (dh, &tp, p, file, lineno, name, res, 0))
865                 {
866                     fclose (f);
867                     return 0;
868                 }
869                 *tp = all; /* append any ALL entries to the list */
870             }
871             new_element->name = nmem_strdup(data1_nmem_get (dh), name);
872         }
873         /* *ostrich*
874            New code to support xelm directive
875            for each xelm a dfa is built. xelms are stored in res->xp_elements
876            
877            maybe we should use a simple sscanf instead of dfa?
878            
879            pop, 2002-12-13
880
881            Now [] predicates are supported. regexps and xpath structure is
882            a bit redundant, however it's comfortable later...
883
884            pop, 2003-01-17
885         */
886
887         else if (!strcmp(cmd, "xelm") || !strcmp(cmd, "melm")) {
888
889             int i;
890             char *p, *xpath_expr, *termlists;
891             const char *regexp;
892             struct DFA *dfa = dfa = dfa_init();
893             data1_termlist **tp;
894             char melm_xpath[128];
895             
896             if (argc < 3)
897             {
898                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args to xelm", file, lineno);
899                 continue;
900             }
901
902             if (!strcmp(cmd, "melm")) {
903                 if (melm2xpath(argv[1], melm_xpath) < 0)
904                     continue;
905                 xpath_expr = melm_xpath;
906             } else {
907                 xpath_expr = argv[1];
908             }
909             termlists = argv[2];
910             regexp = mk_xpath_regexp(dh, xpath_expr);
911             i = dfa_parse (dfa, &regexp);
912             if (i || *regexp) {
913                 yaz_log(YLOG_WARN, "%s:%d: Bad xpath to xelm", file, lineno);
914                 dfa_delete (&dfa);
915                 continue;
916             }
917             
918             if (!cur_xpelement)
919             {
920                 cur_xpelement = (data1_xpelement *)
921                     nmem_malloc(data1_nmem_get(dh), sizeof(*cur_xpelement));
922                 res->xp_elements = cur_xpelement;
923             } else {
924                 cur_xpelement->next = (data1_xpelement *)
925                     nmem_malloc(data1_nmem_get(dh), sizeof(*cur_xpelement));
926                 cur_xpelement = cur_xpelement->next;
927             }
928             cur_xpelement->next = NULL;
929             cur_xpelement->xpath_expr = nmem_strdup(data1_nmem_get (dh), 
930                                                     xpath_expr); 
931             
932             dfa_mkstate (dfa);
933             cur_xpelement->dfa = dfa;
934
935 #ifdef ENHANCED_XELM 
936             cur_xpelement->xpath_len =
937                 zebra_parse_xpath_str(xpath_expr, 
938                                       cur_xpelement->xpath, XPATH_STEP_COUNT,
939                                       data1_nmem_get(dh));
940             
941             /*
942             dump_xp_steps(cur_xpelement->xpath,cur_xpelement->xpath_len);
943             */
944 #endif
945             cur_xpelement->termlists = 0;
946             tp = &cur_xpelement->termlists;
947             
948             /* parse termList definitions */
949             p = termlists;
950             if (*p != '-')
951             {
952                 assert (res->attset);
953                 
954                 if (parse_termlists (dh, &tp, p, file, lineno,
955                                      xpath_expr, res, 1))
956                 {
957                     fclose (f);
958                     return 0;
959                 }
960                 *tp = all; /* append any ALL entries to the list */
961             }
962         }
963         else if (!strcmp(cmd, "section"))
964         {
965             char *name;
966             
967             if (argc < 2)
968             {
969                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args to section",
970                         file, lineno);
971                 continue;
972             }
973             name = argv[1];
974             
975             cur_elements = (data1_sub_elements *)
976                 nmem_malloc(data1_nmem_get(dh), sizeof(*cur_elements));
977             cur_elements->next = res->sub_elements;
978             cur_elements->elements = NULL;
979             cur_elements->name = nmem_strdup (data1_nmem_get(dh), name);
980             res->sub_elements = cur_elements;
981             
982             level = 0;
983             ppl[level] = &cur_elements->elements;
984         }
985         else if (!strcmp(cmd, "xpath"))
986         {
987             if (argc != 2)
988             {
989                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args to 'xpath' directive",
990                      file, lineno);
991                 continue;
992             }
993             if (!strcmp(argv[1], "enable"))
994                 res->enable_xpath_indexing = 1;
995             else if (!strcmp (argv[1], "disable"))
996                 res->enable_xpath_indexing = 0;
997             else
998             {
999                 yaz_log(YLOG_WARN, "%s:%d: Expecting disable/enable "
1000                         "after 'xpath' directive", file, lineno);
1001             }
1002         }
1003         else if (!strcmp(cmd, "all"))
1004         {
1005             data1_termlist **tp = &all;
1006             if (all)
1007             {
1008                 yaz_log(YLOG_WARN, "%s:%d: Too many 'all' directives - ignored",
1009                      file, lineno);
1010                 continue;
1011             }
1012             if (argc != 2)
1013             {
1014                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args to 'all' directive",
1015                      file, lineno);
1016                 continue;
1017             }
1018             if (parse_termlists (dh, &tp, argv[1], file, lineno, 0, res, 0))
1019             {
1020                 fclose (f);
1021                 return 0;
1022             }
1023         }
1024         else if (!strcmp(cmd, "name"))
1025         {
1026             if (argc != 2)
1027             {
1028                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args to name directive",
1029                      file, lineno);
1030                 continue;
1031             }
1032             res->name = nmem_strdup(data1_nmem_get(dh), argv[1]);
1033         }
1034         else if (!strcmp(cmd, "reference"))
1035         {
1036             char *name;
1037             
1038             if (argc != 2)
1039             {
1040                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args to reference",
1041                      file, lineno);
1042                 continue;
1043             }
1044             name = argv[1];
1045             if ((res->reference = oid_getvalbyname(name)) == VAL_NONE)
1046             {
1047                 yaz_log(YLOG_WARN, "%s:%d: Unknown tagset ref '%s'", 
1048                      file, lineno, name);
1049                 continue;
1050             }
1051         }
1052         else if (!strcmp(cmd, "attset"))
1053         {
1054 #if NATTR
1055             yaz_log(YLOG_WARN, "%s:%d: attset obsolete", file, lineno);
1056 #else
1057             char *name;
1058             data1_attset *attset;
1059             
1060             if (argc != 2)
1061             {
1062                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args to attset",
1063                      file, lineno);
1064                 continue;
1065             }
1066             name = argv[1];
1067             if (!(attset = data1_get_attset (dh, name)))
1068             {
1069                 yaz_log(YLOG_WARN, "%s:%d: Couldn't find attset  %s",
1070                      file, lineno, name);
1071                 continue;
1072             }
1073             *attset_childp = (data1_attset_child *)
1074                 nmem_malloc (data1_nmem_get(dh), sizeof(**attset_childp));
1075             (*attset_childp)->child = attset;
1076             (*attset_childp)->next = 0;
1077             attset_childp = &(*attset_childp)->next;
1078 #endif
1079         }
1080         else if (!strcmp(cmd, "tagset"))
1081         {
1082             char *name;
1083             int type = 0;
1084             if (argc < 2)
1085             {
1086                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args to tagset",
1087                      file, lineno);
1088                 continue;
1089             }
1090             name = argv[1];
1091             if (argc == 3)
1092                 type = atoi(argv[2]);
1093             *tagset_childp = data1_read_tagset (dh, name, type);
1094             if (!(*tagset_childp))
1095             {
1096                 yaz_log(YLOG_WARN, "%s:%d: Couldn't load tagset %s",
1097                      file, lineno, name);
1098                 continue;
1099             }
1100             tagset_childp = &(*tagset_childp)->next;
1101         }
1102         else if (!strcmp(cmd, "varset"))
1103         {
1104             char *name;
1105
1106             if (argc != 2)
1107             {
1108                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args in varset",
1109                      file, lineno);
1110                 continue;
1111             }
1112             name = argv[1];
1113             if (!(res->varset = data1_read_varset (dh, name)))
1114             {
1115                 yaz_log(YLOG_WARN, "%s:%d: Couldn't load Varset %s",
1116                      file, lineno, name);
1117                 continue;
1118             }
1119         }
1120         else if (!strcmp(cmd, "esetname"))
1121         {
1122             char *name, *fname;
1123
1124             if (argc != 3)
1125             {
1126                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args in esetname",
1127                      file, lineno);
1128                 continue;
1129             }
1130             name = argv[1];
1131             fname = argv[2];
1132             
1133             *esetpp = (data1_esetname *)
1134                 nmem_malloc(data1_nmem_get(dh), sizeof(**esetpp));
1135             (*esetpp)->name = nmem_strdup(data1_nmem_get(dh), name);
1136             (*esetpp)->next = 0;
1137             if (*fname == '@')
1138                 (*esetpp)->spec = 0;
1139             else if (!((*esetpp)->spec = data1_read_espec1 (dh, fname)))
1140             {
1141                 yaz_log(YLOG_WARN, "%s:%d: Espec-1 read failed for %s",
1142                      file, lineno, fname);
1143                 continue;
1144             }
1145             esetpp = &(*esetpp)->next;
1146         }
1147         else if (!strcmp(cmd, "maptab"))
1148         {
1149             char *name;
1150             
1151             if (argc != 2)
1152             {
1153                 yaz_log(YLOG_WARN, "%s:%d: Bad # of args for maptab",
1154                      file, lineno);
1155                 continue;
1156             }
1157             name = argv[1];
1158             if (!(*maptabp = data1_read_maptab (dh, name)))
1159             {
1160                 yaz_log(YLOG_WARN, "%s:%d: Couldn't load maptab %s",
1161                      file, lineno, name);
1162                 continue;
1163             }
1164             maptabp = &(*maptabp)->next;
1165         }
1166         else if (!strcmp(cmd, "marc"))
1167         {
1168             char *name;
1169             
1170             if (argc != 2)
1171             {
1172                 yaz_log(YLOG_WARN, "%s:%d: Bad # or args for marc",
1173                      file, lineno);
1174                 continue;
1175             }
1176             name = argv[1];
1177             if (!(*marcp = data1_read_marctab (dh, name)))
1178             {
1179                 yaz_log(YLOG_WARN, "%s:%d: Couldn't read marctab %s",
1180                      file, lineno, name);
1181                 continue;
1182             }
1183             marcp = &(*marcp)->next;
1184         }
1185         else if (!strcmp(cmd, "encoding"))
1186         {
1187             if (argc != 2)
1188             {
1189                 yaz_log(YLOG_WARN, "%s:%d: Bad # or args for encoding",
1190                      file, lineno);
1191                 continue;
1192             }
1193             res->encoding = nmem_strdup (data1_nmem_get(dh), argv[1]);
1194         }
1195         else if (!strcmp(cmd, "systag"))
1196         {
1197             if (argc != 3)
1198             {
1199                 yaz_log(YLOG_WARN, "%s:%d: Bad # or args for systag",
1200                      file, lineno);
1201                 continue;
1202             }
1203             *systagsp = nmem_malloc (data1_nmem_get(dh), sizeof(**systagsp));
1204
1205             (*systagsp)->name = nmem_strdup(data1_nmem_get(dh), argv[1]);
1206             (*systagsp)->value = nmem_strdup(data1_nmem_get(dh), argv[2]);
1207             systagsp = &(*systagsp)->next;
1208         }
1209         else
1210         {
1211             yaz_log(YLOG_WARN, "%s:%d: Unknown directive '%s'", file, 
1212                     lineno, cmd);
1213             continue;
1214         }
1215     }
1216     if (f)
1217         fclose(f);
1218     
1219     for (cur_elements = res->sub_elements; cur_elements;
1220          cur_elements = cur_elements->next)
1221     {
1222         if (!strcmp (cur_elements->name, "main"))
1223             res->main_elements = cur_elements->elements;
1224         fix_element_ref (dh, res, cur_elements->elements);
1225     }
1226     *systagsp = 0;
1227     yaz_log(YLOG_DEBUG, "%s: data1_read_absyn end", file);
1228     return res;
1229 }