DbCreator.js 21 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642
  1. const fs = require('fs-extra');
  2. const InpxParser = require('./InpxParser');
  3. const InpxHashCreator = require('./InpxHashCreator');
  4. const utils = require('./utils');
  5. const emptyFieldValue = '?';
  6. class DbCreator {
  7. constructor(config) {
  8. this.config = config;
  9. }
  10. async loadInpxFilter() {
  11. const inpxFilterFile = this.config.inpxFilterFile;
  12. if (await fs.pathExists(inpxFilterFile)) {
  13. let filter = await fs.readFile(inpxFilterFile, 'utf8');
  14. filter = JSON.parse(filter);
  15. if (filter.includeAuthors) {
  16. filter.includeAuthors = filter.includeAuthors.map(a => a.toLowerCase());
  17. filter.includeSet = new Set(filter.includeAuthors);
  18. }
  19. if (filter.excludeAuthors) {
  20. filter.excludeAuthors = filter.excludeAuthors.map(a => a.toLowerCase());
  21. filter.excludeSet = new Set(filter.excludeAuthors);
  22. }
  23. return filter;
  24. } else {
  25. return false;
  26. }
  27. }
  28. //процедура формировани БД несколько усложнена, в целях экономии памяти
  29. async run(db, callback) {
  30. const config = this.config;
  31. callback({jobStepCount: 5});
  32. callback({job: 'load inpx', jobMessage: 'Загрузка INPX', jobStep: 1, progress: 0});
  33. //временная таблица
  34. await db.create({
  35. table: 'book',
  36. cacheSize: (config.lowMemoryMode ? 5 : 500),
  37. });
  38. //поисковые таблицы, позже сохраним в БД
  39. let authorMap = new Map();//авторы
  40. let authorArr = [];
  41. let seriesMap = new Map();//серии
  42. let seriesArr = [];
  43. let titleMap = new Map();//названия
  44. let titleArr = [];
  45. let genreMap = new Map();//жанры
  46. let genreArr = [];
  47. let langMap = new Map();//языки
  48. let langArr = [];
  49. let delMap = new Map();//удаленные
  50. let delArr = [];
  51. let dateMap = new Map();//дата поступления
  52. let dateArr = [];
  53. let librateMap = new Map();//оценка
  54. let librateArr = [];
  55. let uidSet = new Set();//уникальные идентификаторы
  56. //stats
  57. let authorCount = 0;
  58. let bookCount = 0;
  59. let noAuthorBookCount = 0;
  60. let bookDelCount = 0;
  61. //stuff
  62. let recsLoaded = 0;
  63. callback({recsLoaded});
  64. let chunkNum = 0;
  65. //фильтр
  66. const inpxFilter = await this.loadInpxFilter();
  67. let filter = () => true;
  68. if (inpxFilter) {
  69. let recFilter = () => true;
  70. if (inpxFilter.filter) {
  71. if (config.allowUnsafeFilter)
  72. recFilter = new Function(`'use strict'; return ${inpxFilter.filter}`)();
  73. else
  74. throw new Error(`Unsafe property 'filter' detected in ${this.config.inpxFilterFile}. Please specify '--unsafe-filter' param if you know what you're doing.`);
  75. }
  76. filter = (rec) => {
  77. let author = rec.author;
  78. if (!author)
  79. author = emptyFieldValue;
  80. author = author.toLowerCase();
  81. let excluded = false;
  82. if (inpxFilter.excludeSet) {
  83. const authors = author.split(',');
  84. for (const a of authors) {
  85. if (inpxFilter.excludeSet.has(a)) {
  86. excluded = true;
  87. break;
  88. }
  89. }
  90. }
  91. return recFilter(rec)
  92. && (!inpxFilter.includeSet || inpxFilter.includeSet.has(author))
  93. && !excluded
  94. ;
  95. };
  96. }
  97. //вспомогательные функции
  98. const splitAuthor = (author) => {
  99. if (!author)
  100. author = emptyFieldValue;
  101. const result = author.split(',');
  102. if (result.length > 1)
  103. result.push(author);
  104. return result;
  105. }
  106. let totalFiles = 0;
  107. const readFileCallback = async(readState) => {
  108. callback(readState);
  109. if (readState.totalFiles)
  110. totalFiles = readState.totalFiles;
  111. if (totalFiles)
  112. callback({progress: (readState.current || 0)/totalFiles});
  113. };
  114. const parseField = (fieldValue, fieldMap, fieldArr, bookId, rec, fillBookIds = true) => {
  115. let value = fieldValue;
  116. if (typeof(fieldValue) == 'string') {
  117. if (!fieldValue)
  118. fieldValue = emptyFieldValue;
  119. value = fieldValue.toLowerCase();
  120. }
  121. let fieldRec;
  122. if (fieldMap.has(value)) {
  123. const fieldId = fieldMap.get(value);
  124. fieldRec = fieldArr[fieldId];
  125. } else {
  126. fieldRec = {id: fieldArr.length, value, bookIds: new Set()};
  127. if (rec !== undefined) {
  128. fieldRec.name = fieldValue;
  129. fieldRec.bookCount = 0;
  130. fieldRec.bookDelCount = 0;
  131. }
  132. fieldArr.push(fieldRec);
  133. fieldMap.set(value, fieldRec.id);
  134. }
  135. if (fieldValue !== emptyFieldValue || fillBookIds)
  136. fieldRec.bookIds.add(bookId);
  137. if (rec !== undefined) {
  138. if (!rec.del)
  139. fieldRec.bookCount++;
  140. else
  141. fieldRec.bookDelCount++;
  142. }
  143. };
  144. const parseBookRec = (rec) => {
  145. //авторы
  146. const author = splitAuthor(rec.author);
  147. for (let i = 0; i < author.length; i++) {
  148. const a = author[i];
  149. //статистика
  150. if (!authorMap.has(a.toLowerCase()) && (author.length == 1 || i < author.length - 1)) //без соавторов
  151. authorCount++;
  152. parseField(a, authorMap, authorArr, rec.id, rec);
  153. }
  154. //серии
  155. parseField(rec.series, seriesMap, seriesArr, rec.id, rec, false);
  156. //названия
  157. parseField(rec.title, titleMap, titleArr, rec.id, rec);
  158. //жанры
  159. let genre = rec.genre || emptyFieldValue;
  160. genre = rec.genre.split(',');
  161. for (let g of genre) {
  162. parseField(g, genreMap, genreArr, rec.id);
  163. }
  164. //языки
  165. parseField(rec.lang, langMap, langArr, rec.id);
  166. //удаленные
  167. parseField(rec.del, delMap, delArr, rec.id);
  168. //дата поступления
  169. parseField(rec.date, dateMap, dateArr, rec.id);
  170. //оценка
  171. parseField(rec.librate, librateMap, librateArr, rec.id);
  172. };
  173. //основная процедура парсинга
  174. let id = 0;
  175. const parsedCallback = async(chunk) => {
  176. let filtered = false;
  177. for (const rec of chunk) {
  178. //сначала фильтр
  179. if (!filter(rec) || uidSet.has(rec._uid)) {
  180. rec.id = 0;
  181. filtered = true;
  182. continue;
  183. }
  184. rec.id = ++id;
  185. uidSet.add(rec._uid);
  186. if (!rec.del) {
  187. bookCount++;
  188. if (!rec.author)
  189. noAuthorBookCount++;
  190. } else {
  191. bookDelCount++;
  192. }
  193. parseBookRec(rec);
  194. }
  195. let saveChunk = [];
  196. if (filtered) {
  197. saveChunk = chunk.filter(r => r.id);
  198. } else {
  199. saveChunk = chunk;
  200. }
  201. await db.insert({table: 'book', rows: saveChunk});
  202. recsLoaded += chunk.length;
  203. callback({recsLoaded});
  204. if (chunkNum++ % 10 == 0 && config.lowMemoryMode)
  205. utils.freeMemory();
  206. };
  207. //парсинг
  208. const parser = new InpxParser();
  209. await parser.parse(config.inpxFile, readFileCallback, parsedCallback);
  210. //чистка памяти, ибо жрет как не в себя
  211. authorMap = null;
  212. seriesMap = null;
  213. titleMap = null;
  214. genreMap = null;
  215. langMap = null;
  216. delMap = null;
  217. dateMap = null;
  218. librateMap = null;
  219. uidSet = null;
  220. await db.close({table: 'book'});
  221. await db.freeMemory();
  222. utils.freeMemory();
  223. //отсортируем таблицы выдадим им правильные id
  224. //порядок id соответствует ASC-сортировке по value
  225. callback({job: 'sort', jobMessage: 'Сортировка', jobStep: 2, progress: 0});
  226. await utils.sleep(100);
  227. //сортировка авторов
  228. authorArr.sort((a, b) => a.value.localeCompare(b.value));
  229. callback({progress: 0.2});
  230. await utils.sleep(100);
  231. id = 0;
  232. for (const authorRec of authorArr) {
  233. authorRec.id = ++id;
  234. }
  235. callback({progress: 0.3});
  236. await utils.sleep(100);
  237. //сортировка серий
  238. seriesArr.sort((a, b) => a.value.localeCompare(b.value));
  239. callback({progress: 0.5});
  240. await utils.sleep(100);
  241. id = 0;
  242. for (const seriesRec of seriesArr) {
  243. seriesRec.id = ++id;
  244. }
  245. callback({progress: 0.6});
  246. await utils.sleep(100);
  247. //сортировка названий
  248. titleArr.sort((a, b) => a.value.localeCompare(b.value));
  249. callback({progress: 0.8});
  250. await utils.sleep(100);
  251. id = 0;
  252. for (const titleRec of titleArr) {
  253. titleRec.id = ++id;
  254. }
  255. //stats
  256. const stats = {
  257. filesCount: 0,//вычислим позднее
  258. filesCountAll: 0,//вычислим позднее
  259. filesDelCount: 0,//вычислим позднее
  260. recsLoaded,
  261. authorCount,
  262. authorCountAll: authorArr.length,
  263. bookCount,
  264. bookCountAll: bookCount + bookDelCount,
  265. bookDelCount,
  266. noAuthorBookCount,
  267. titleCount: titleArr.length,
  268. seriesCount: seriesArr.length,
  269. genreCount: genreArr.length,
  270. langCount: langArr.length,
  271. };
  272. //console.log(stats);
  273. //сохраним поисковые таблицы
  274. const chunkSize = 10000;
  275. const saveTable = async(table, arr, nullArr, indexType = 'string') => {
  276. if (indexType == 'string')
  277. arr.sort((a, b) => a.value.localeCompare(b.value));
  278. else
  279. arr.sort((a, b) => a.value - b.value);
  280. await db.create({
  281. table,
  282. index: {field: 'value', unique: true, type: indexType, depth: 1000000},
  283. });
  284. //вставка в БД по кусочкам, экономим память
  285. for (let i = 0; i < arr.length; i += chunkSize) {
  286. const chunk = arr.slice(i, i + chunkSize);
  287. for (const rec of chunk)
  288. rec.bookIds = Array.from(rec.bookIds);
  289. await db.insert({table, rows: chunk});
  290. if (i % 5 == 0) {
  291. await db.freeMemory();
  292. await utils.sleep(10);
  293. }
  294. callback({progress: i/arr.length});
  295. }
  296. nullArr();
  297. await db.close({table});
  298. utils.freeMemory();
  299. await db.freeMemory();
  300. };
  301. //author
  302. callback({job: 'author save', jobMessage: 'Сохранение индекса авторов', jobStep: 3, progress: 0});
  303. await saveTable('author', authorArr, () => {authorArr = null});
  304. //series
  305. callback({job: 'series save', jobMessage: 'Сохранение индекса серий', jobStep: 4, progress: 0});
  306. await saveTable('series', seriesArr, () => {seriesArr = null});
  307. //title
  308. callback({job: 'title save', jobMessage: 'Сохранение индекса названий', jobStep: 5, progress: 0});
  309. await saveTable('title', titleArr, () => {titleArr = null});
  310. //genre
  311. callback({job: 'genre save', jobMessage: 'Сохранение индекса жанров', jobStep: 6, progress: 0});
  312. await saveTable('genre', genreArr, () => {genreArr = null});
  313. callback({job: 'others save', jobMessage: 'Сохранение остальных индексов', jobStep: 7, progress: 0});
  314. //lang
  315. await saveTable('lang', langArr, () => {langArr = null});
  316. //del
  317. await saveTable('del', delArr, () => {delArr = null}, 'number');
  318. //date
  319. await saveTable('date', dateArr, () => {dateArr = null});
  320. //librate
  321. await saveTable('librate', librateArr, () => {librateArr = null}, 'number');
  322. //кэш-таблицы запросов
  323. await db.create({table: 'query_cache'});
  324. await db.create({table: 'query_time'});
  325. //кэш-таблица имен файлов и их хешей
  326. await db.create({table: 'file_hash'});
  327. //-- завершающие шаги --------------------------------
  328. await db.open({
  329. table: 'book',
  330. cacheSize: (config.lowMemoryMode ? 5 : 500),
  331. });
  332. callback({job: 'optimization', jobMessage: 'Оптимизация', jobStep: 8, progress: 0});
  333. await this.optimizeTable('author', db, (p) => {
  334. if (p.progress)
  335. p.progress = 0.3*p.progress;
  336. callback(p);
  337. });
  338. await this.optimizeTable('series', db, (p) => {
  339. if (p.progress)
  340. p.progress = 0.3 + 0.2*p.progress;
  341. callback(p);
  342. });
  343. await this.optimizeTable('title', db, (p) => {
  344. if (p.progress)
  345. p.progress = 0.5 + 0.5*p.progress;
  346. callback(p);
  347. });
  348. callback({job: 'stats count', jobMessage: 'Подсчет статистики', jobStep: 9, progress: 0});
  349. await this.countStats(db, callback, stats);
  350. //чистка памяти, ибо жрет как не в себя
  351. await db.close({table: 'book'});
  352. await db.freeMemory();
  353. utils.freeMemory();
  354. //config сохраняем в самом конце, нет конфига - с базой что-то не так
  355. const inpxHashCreator = new InpxHashCreator(config);
  356. await db.create({
  357. table: 'config'
  358. });
  359. const inpxInfo = parser.info;
  360. if (inpxFilter && inpxFilter.info) {
  361. if (inpxFilter.info.collection)
  362. inpxInfo.collection = inpxFilter.info.collection;
  363. if (inpxFilter.info.version)
  364. inpxInfo.version = inpxFilter.info.version;
  365. }
  366. await db.insert({table: 'config', rows: [
  367. {id: 'inpxInfo', value: inpxInfo},
  368. {id: 'stats', value: stats},
  369. {id: 'inpxHash', value: await inpxHashCreator.getHash()},
  370. ]});
  371. callback({job: 'done', jobMessage: ''});
  372. }
  373. async optimizeTable(from, db, callback) {
  374. const config = this.config;
  375. const to = `${from}_book`;
  376. await db.open({table: from});
  377. await db.create({table: to});
  378. let bookId2RecId = new Map();
  379. const saveChunk = async(chunk) => {
  380. const ids = [];
  381. for (const rec of chunk) {
  382. for (const id of rec.bookIds) {
  383. let b2r = bookId2RecId.get(id);
  384. if (!b2r) {
  385. b2r = [];
  386. bookId2RecId.set(id, b2r);
  387. }
  388. b2r.push(rec.id);
  389. ids.push(id);
  390. }
  391. }
  392. if (config.fullOptimization) {
  393. ids.sort((a, b) => a - b);// обязательно, иначе будет тормозить - особенности JembaDb
  394. const rows = await db.select({table: 'book', where: `@@id(${db.esc(ids)})`});
  395. const bookArr = new Map();
  396. for (const row of rows)
  397. bookArr.set(row.id, row);
  398. for (const rec of chunk) {
  399. rec.books = [];
  400. for (const id of rec.bookIds) {
  401. const book = bookArr.get(id);
  402. if (book) {//на всякий случай
  403. rec.books.push(book);
  404. }
  405. }
  406. delete rec.name;
  407. delete rec.value;
  408. delete rec.bookIds;
  409. }
  410. await db.insert({
  411. table: to,
  412. rows: chunk,
  413. });
  414. }
  415. };
  416. const rows = await db.select({table: from, count: true});
  417. const fromLength = rows[0].count;
  418. let processed = 0;
  419. while (1) {// eslint-disable-line
  420. const chunk = await db.select({
  421. table: from,
  422. where: `
  423. let iter = @getItem('optimize');
  424. if (!iter) {
  425. iter = @all();
  426. @setItem('optimize', iter);
  427. }
  428. const ids = new Set();
  429. let bookIdsLen = 0;
  430. let id = iter.next();
  431. while (!id.done) {
  432. ids.add(id.value);
  433. const row = @row(id.value);
  434. bookIdsLen += row.bookIds.length;
  435. if (bookIdsLen >= 50000)
  436. break;
  437. id = iter.next();
  438. }
  439. return ids;
  440. `
  441. });
  442. if (chunk.length) {
  443. await saveChunk(chunk);
  444. processed += chunk.length;
  445. callback({progress: 0.9*processed/fromLength});
  446. } else
  447. break;
  448. if (this.config.lowMemoryMode) {
  449. await utils.sleep(10);
  450. utils.freeMemory();
  451. await db.freeMemory();
  452. }
  453. }
  454. await db.close({table: to});
  455. await db.close({table: from});
  456. const idMap = {arr: [], map: []};
  457. for (const [id, value] of bookId2RecId) {
  458. if (value.length > 1) {
  459. idMap.map.push([id, value]);
  460. idMap.arr[id] = 0;
  461. } else {
  462. idMap.arr[id] = value[0];
  463. }
  464. }
  465. callback({progress: 1});
  466. await fs.writeFile(`${this.config.dataDir}/db/${from}_id.map`, JSON.stringify(idMap));
  467. bookId2RecId = null;
  468. utils.freeMemory();
  469. }
  470. async countStats(db, callback, stats) {
  471. //статистика по количеству файлов
  472. //эмуляция прогресса
  473. let countDone = false;
  474. (async() => {
  475. let i = 0;
  476. while (!countDone) {
  477. callback({progress: i/100});
  478. i = (i < 100 ? i + 5 : 100);
  479. await utils.sleep(1000);
  480. }
  481. })();
  482. //подчсет
  483. const countRes = await db.select({table: 'book', rawResult: true, where: `
  484. const files = new Set();
  485. const filesDel = new Set();
  486. for (const id of @all()) {
  487. const r = @row(id);
  488. const file = ${"`${r.folder}/${r.file}.${r.ext}`"};
  489. if (!r.del) {
  490. files.add(file);
  491. } else {
  492. filesDel.add(file);
  493. }
  494. }
  495. for (const file of filesDel)
  496. if (files.has(file))
  497. filesDel.delete(file);
  498. return {filesCount: files.size, filesDelCount: filesDel.size};
  499. `});
  500. if (countRes.length) {
  501. const res = countRes[0].rawResult;
  502. stats.filesCount = res.filesCount;
  503. stats.filesCountAll = res.filesCount + res.filesDelCount;
  504. stats.filesDelCount = res.filesDelCount;
  505. }
  506. //заодно добавим нужный индекс
  507. await db.create({
  508. in: 'book',
  509. hash: {field: '_uid', type: 'string', depth: 100, unique: true},
  510. });
  511. countDone = true;
  512. }
  513. }
  514. module.exports = DbCreator;