Ключевые слова: химическая формула, smiles, inchi, mdl molfile
АВТОМАТИЗАЦИЯ СРАВНЕНИЯ ХИМИЧЕСКИХ ФОРМУЛ
УДК 004.89
DOI: 10.26102/2310-6018/2018.23.4.014
Эксперту патентного ведомства для установления уникальности патентируемой технологии необходимо провести сравнение патентной заявки с документами патентного массива и удостовериться в отсутствии полных аналогов изобретения. При анализе патентов химических классов требуется сравнивать химические формулы, которые могут быть приведены в различных форматах: MOL, InChi, SMILES, структурная формула, молекулярный отпечаток. В данной работе описывается разработка программного модуля, автоматизирующего процедуры конвертации различных способов формализации химической формулы, сравнения формул химических соединений в патентной заявке и документах патентного массива, выявления патентов-аналогов на основе результатов сравнения химических соединений, содержащихся в патентах. Сравнение химических формул производится на основе вычисления схожести молекулярных отпечатков с использованием коэффициента Танимото. Коэффициент схожести патентов вычисляется на основе максимальных значений коэффициента Танимото для набора сравниваемых химических соединений из патентов. Программный модуль реализован на языке Java с использованием технологии Spring Framework, СУБД H2 и библиотеки Chemistry Development Kit (CDK). Реализованный программный модуль показал высокую эффективность (высокая полнота и точность поиска патентов-аналогов на основе химических формул, низкие значения потери информации и информационный шум) при проверке на тестовом патентном массиве.
1. Д.М. Коробкин, Н.А. Гордеев, С.А. Фоменков, М.А. Дыков. Метод выявления патентных трендов на основе описаний технических функций. Известия ВолгГТУ. Сер. Актуальные проблемы управления, вычислительной техники и информатики в технических системах. - Волгоград, 2018. - № 5 (215). - C. 56-60.
2. Д.М. Коробкин, С.А. Фоменков, И.А. Кобликов, Г.А. Карачунова. Методика семантического патентного поиска. Известия ВолгГТУ. Сер. Актуальные проблемы управления, вычислительной техники и информатики в технических системах. - Волгоград, 2017. - № 1 (196). - C. 65-73.
3. Chemical formula | Britannica.com [Электронный ресурс]. – Режим доступа : https://www.britannica.com/science/chemical-formula (дата обращ. 15.05.2018).
4. MDL Information Systems, Inc. CTFile Formats / MDL Information Systems, Inc. – San Leandro : MDL Information Systems, 2003. – 106 с.
5. Heller, R. The IUPAC International Chemical Identifier (InChI) / R. Heller, Alan D. McNaught // CHEMISTRY International. – 2009. – № 1. – С. 7-9.
6. Daylight Theory: SMILES [Электронный ресурс]. – Режим доступа : http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html (дата обращ. 15.05.2018).
7. Dalke, A. Molecular fingerprints, background [Электронный ресурс] // A. Dalke. – Режим доступа : http://www.dalkescientific.com/writings/diary/ archive/2008/06/26/fingerprint_background.html (дата обращ. 15.05.2018).
8. Bulk Data Storage System [Электронный ресурс]. – 2018. – Режим доступа : https://bulkdata.uspto.gov/ (дата обращ. 25.10.2018).
9. ChemSpider reaches 50 million compounds [Электронный ресурс]. – Режим доступа: http://www.rsc.org/journals-books-databases/librariansinformation/librarians-notes/all-articles/2016/jun/chemspider-reaches-50- million-compounds/ (дата обращ. 18.05.2018).
10. PubChem Docs – About [Электронный ресурс]. – Режим доступа: https://pubchemdocs.ncbi.nlm.nih.gov/about (дата обращ. 18.05.2018).
11. ChemSynthesis – Chemical Database [Электронный ресурс]. – Режим доступа: http://www.chemsynthesis.com/ (дата обращ. 18.05.2018).
12. NCI/CADD Chemical Resolver – Chemical Identifier Resolver documentation [Электронный ресурс]. – Режим доступа: https://cactus.nci.nih.gov/chemical/structure_documentation (дата обращ. 18.05.2018).
13. Д.М. Коробкин, Е.А. Тюлькина, С.А. Фоменков, С.Г. Колесников. Система извлечения технических функций из патентного массива. ИТНОУ: Информационные технологии в науке, образовании и управлении. - 2017. - № 2 (2). - C. 24-30.
14. И.А. Кобликов, Д.М. Коробкин, С.А. Фоменков, В.А. Яровенко. Методика извлечения описаний реализуемых в патенте технических функций. Известия ВолгГТУ. Сер. Актуальные проблемы управления, вычислительной техники и информатики в технических системах. - Волгоград, 2017. - № 8 (203). - C. 55-59.
15. Tanimoto (cdk 2.1-SNAPSHOT API) [Электронный ресурс]. – Режим доступа: http://cdk.github.io/cdk/2.1/docs/api/org/openscience/cdk/similarity/ Tanimoto.html (дата обращ. 21.05.2018).
16. Spring Framework Overview [Электронный ресурс]. – Режим доступа: https://www.tutorialspoint.com/spring/spring_overview.htm (дата обращ. 18.05.2018).
17. . Spring Boot and H2 in memory database – Why, What and How? – Spring Boot Tutorial [Электронный ресурс]. – Режим доступа: http://www.springboottutorial.com/spring-boot-and-h2-in-memorydatabase (дата обращ. 19.05.2018).
18. Chemistry Development Kit [Электронный ресурс]. – Режим доступа: https://cdk.github.io/ (дата обращ. 19.05.2018).
19. Гопта Е.А., Фоменков С.А., Карачунова Г.А. Автоматизация процесса линейного синтеза физического принципа действия. Известия Волгоградского государственного технического университета. 2010. № 11 (71). С. 129-133.
Ключевые слова: химическая формула, smiles, inchi, mdl molfile
Для цитирования: Вайнгольц Н.А., Верещак Г.А., Коробкин Д.М., Фоменков С.А. АВТОМАТИЗАЦИЯ СРАВНЕНИЯ ХИМИЧЕСКИХ ФОРМУЛ. Моделирование, оптимизация и информационные технологии. 2018;6(4). URL: https://moit.vivt.ru/wp-content/uploads/2018/10/VayngoltsSoatori_4_18_1.pdf DOI: 10.26102/2310-6018/2018.23.4.014
Опубликована 31.12.2018